Multimodal Feature Learning for Video Captioning

<table class="fixed-width table-group" id="tab1"><tr><td><table class="table"><colgroup><col style="width:5.14em"/><col style="width:6.48em"/><col style="width:6.79em"/></colgroup><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_left">Networks</td><td class="align_center">Val-accuracy</td><td class="align_center">Test-accuracy</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left">DSN</td><td class="align_center">99.42%</td><td class="align_center">99.43%</td></tr><tr><td class="align_left">SSN</td><td class="align_center">99.61%</td><td class="align_center">99.64%</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Performance of semantic feature networks on MSVD dataset.</div>

Mathematical Problems in Engineering

tab1

Table 1

Table 1: Multimodal Feature Learning for Video Captioning