RGB-D Human Action Recognition of Deep Feature Enhancement and Fusion Using Two-Stream ConvNet

<table class="table-group" id="tab7"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_left">Network</td><td class="align_center">CS (top 1)</td><td class="align_center">CV (top 1)</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left">DSSCA-SSLM [<a href="/journals/js/2021/8864870/#B32" target="_blank">32</a>]</td><td class="align_center">74.9%</td><td class="align_left"></td></tr><tr><td class="align_left">TCN [<a href="/journals/js/2021/8864870/#B33" target="_blank">33</a>]</td><td class="align_center">74.3%</td><td class="align_center">83.10%</td></tr><tr><td class="align_left">GCA-LSTM [<a href="/journals/js/2021/8864870/#B16" target="_blank">16</a>]</td><td class="align_center">76.1%</td><td class="align_center">84.0%</td></tr><tr><td class="align_left">Skelemotion [<a href="/journals/js/2021/8864870/#B34" target="_blank">34</a>]</td><td class="align_center">76.5%</td><td class="align_center">84.7%</td></tr><tr><td class="align_left">Slowfastnet [<a href="/journals/js/2021/8864870/#B12" target="_blank">12</a>]</td><td class="align_center">80.25%</td><td class="align_center">93.74%</td></tr><tr><td class="align_left">St-gcn [<a href="/journals/js/2021/8864870/#B18" target="_blank">18</a>]</td><td class="align_center">81.5%</td><td class="align_center">88.3%</td></tr><tr><td class="align_left">LSTM-CNN [<a href="/journals/js/2021/8864870/#B35" target="_blank">35</a>]</td><td class="align_center">82.9%</td><td class="align_center">91.0%</td></tr><tr><td class="align_left">Two-stream CNN [<a href="/journals/js/2021/8864870/#B36" target="_blank">36</a>]</td><td class="align_center">83.2%</td><td class="align_center">89.3%</td></tr><tr><td class="align_left">DPRL+GCNN [<a href="/journals/js/2021/8864870/#B19" target="_blank">19</a>]</td><td class="align_center">83.5%</td><td class="align_center">89.8%</td></tr><tr><td class="align_left">Cross-attention [<a href="/journals/js/2021/8864870/#B21" target="_blank">21</a>]</td><td class="align_center">84.2%</td><td class="align_center">89.3%</td></tr><tr><td class="align_left">SV-GCN (ours)</td><td class="align_center">85.51%</td><td class="align_center">94.15%</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparison of SV-GCN with other state-of-the-art methods.</div>

Journal of Sensors

tab7

Table 7

Table 7: RGB-D Human Action Recognition of Deep Feature Enhancement and Fusion Using Two-Stream ConvNet