Multimodal Feature Learning for Video Captioning

<table class="fixed-width table-group" id="tab2"><tr><td><table class="table"><colgroup><col style="width:9.12em"/><col style="width:3.11em"/><col style="width:3.09em"/><col style="width:3.13em"/><col style="width:3.12em"/><col style="width:3.96em"/></colgroup><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr class="thead"><td class="align_left">Feature sets</td><td class="align_center">B@1</td><td class="align_center">B@2</td><td class="align_center">B@3</td><td class="align_center">B@4</td><td class="align_center">CIDEr</td></tr><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr><td class="align_left">CGN</td><td class="align_center">66.1</td><td class="align_center">47.8</td><td class="align_center">37.1</td><td class="align_center">26.5</td><td class="align_center">26.4</td></tr><tr><td class="align_left">DSN + CGN</td><td class="align_center">76.0</td><td class="align_center">58.1</td><td class="align_center">45.7</td><td class="align_center">35.8</td><td class="align_center">50.0</td></tr><tr><td class="align_left">SSN + CGN</td><td class="align_center">78.8</td><td class="align_center">63.4</td><td class="align_center">51.4</td><td class="align_center">41.4</td><td class="align_center">77.8</td></tr><tr><td class="align_left">DSN + SSN + CGN</td><td class="align_center"><b>84.8</b></td><td class="align_center"><b>70.8</b></td><td class="align_center"><b>60.0</b></td><td class="align_center"><b>50.0</b></td><td class="align_center"><b>94.3</b></td></tr><tr class="table-tr"><td colspan="6"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparison of different feature sets on MSVD dataset.</div>

Mathematical Problems in Engineering

tab2

Table 2

Table 2: Multimodal Feature Learning for Video Captioning