Vision Transformer and Deep Sequence Learning for Human Activity Recognition in Surveillance Videos

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_left">Layer (type)</td><td class="align_center">Output shape</td><td class="align_center">No. of parameters</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left">Input data</td><td class="align_center">(None, 30, 1000)</td><td class="align_center">0</td></tr><tr><td class="align_left">LSTM</td><td class="align_center">(None, 30, 128)</td><td class="align_center">578048</td></tr><tr><td class="align_left">LSTM</td><td class="align_center">(None, 64)</td><td class="align_center">49408</td></tr><tr><td class="align_left">Dropout</td><td class="align_center">(None, 64)</td><td class="align_center">0</td></tr><tr><td class="align_left">Batch normalization</td><td class="align_center">(None, 64)</td><td class="align_center">256</td></tr><tr><td class="align_left">Activation</td><td class="align_center">(None, 64)</td><td class="align_center">0</td></tr><tr><td class="align_left">Dense</td><td class="align_center">(None, 64)</td><td class="align_center">4160</td></tr><tr><td class="align_left">Dense</td><td class="align_center">(None, 51)</td><td class="align_center">3315</td></tr><tr><td class="align_left">Activation</td><td class="align_center">(None, 51)</td><td class="align_center">0</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The proposed LSTM network to capture long-range temporal information from video sequences.</div>

Computational Intelligence and Neuroscience

tab3

Table 3

Table 3: Vision Transformer and Deep Sequence Learning for Human Activity Recognition in Surveillance Videos