Evaluation of Vision Transformers for Traffic Sign Classification

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr class="thead"><td class="align_left">Hyperparameter</td><td class="align_center">Value</td></tr><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr><td class="align_left">Number of classes</td><td class="align_center">Refer to Table <a href="../tab1/">1</a></td></tr><tr><td class="align_left">Image patch size</td><td class="align_center">32</td></tr><tr><td class="align_left">Output dimension of the encoder</td><td class="align_center">1024</td></tr><tr><td class="align_left">Number of Transformer blocks</td><td class="align_center">6</td></tr><tr><td class="align_left">Number of heads in multihead attention layer</td><td class="align_center">16</td></tr><tr><td class="align_left">Dimension of the MLP layer</td><td class="align_center">2048</td></tr><tr><td class="align_left">Dropout rate</td><td class="align_center">0.1</td></tr><tr><td class="align_left">Embedding dropout rate</td><td class="align_center">0.1</td></tr><tr class="table-tr"><td colspan="2"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Hyperparameters for ViT and its variants.</div>

Wireless Communications and Mobile Computing

tab3

Table 3

Table 3: Evaluation of Vision Transformers for Traffic Sign Classification