Vision Transformer and Deep Sequence Learning for Human Activity Recognition in Surveillance Videos

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr class="thead"><td class="align_left">Model</td><td class="align_center">Layers</td><td class="align_center">Hidden size</td><td class="align_center">MLP size</td><td class="align_center">Heads</td><td class="align_center">Params (M)</td></tr><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr><td class="align_left"><b>ViT-Base</b></td><td class="align_center">12</td><td class="align_center">768</td><td class="align_center">3072</td><td class="align_center">12</td><td class="align_center">86</td></tr><tr><td class="align_left">ViT-Large</td><td class="align_center">24</td><td class="align_center">1024</td><td class="align_center">4096</td><td class="align_center">16</td><td class="align_center">307</td></tr><tr><td class="align_left">ViT-Huge</td><td class="align_center">32</td><td class="align_center">1280</td><td class="align_center">5120</td><td class="align_center">16</td><td class="align_center">632</td></tr><tr class="table-tr"><td colspan="6"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div>The proposed method for features extraction is represented in bold text.<br/></div></td></tr></table>

<div>Different variants of ViT model used for image classification.</div>

Computational Intelligence and Neuroscience

tab2

Table 2

Table 2: Vision Transformer and Deep Sequence Learning for Human Activity Recognition in Surveillance Videos