Multimodal Feature Learning for Video Captioning

<table class="fixed-width table-group" id="tab4"><tr><td><table class="table"><colgroup><col style="width:10.43em"/><col style="width:4.96em"/></colgroup><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr class="thead"><td class="align_left">Models</td><td class="align_center">BLEU@4</td></tr><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr><td class="align_left">MP-LSTM (V) [<a href="/journals/mpe/2018/3125879/#B1" target="_blank">1</a>]</td><td class="align_center">34.8</td></tr><tr><td class="align_left">MP-LSTM (C) [<a href="/journals/mpe/2018/3125879/#B1" target="_blank">1</a>]</td><td class="align_center">35.4</td></tr><tr><td class="align_left">MP-LSTM (V + C) [<a href="/journals/mpe/2018/3125879/#B1" target="_blank">1</a>]</td><td class="align_center">35.8</td></tr><tr><td class="align_left">SA (V) [<a href="/journals/mpe/2018/3125879/#B2" target="_blank">2</a>]</td><td class="align_center">35.6</td></tr><tr><td class="align_left">SA (C) [<a href="/journals/mpe/2018/3125879/#B2" target="_blank">2</a>]</td><td class="align_center">36.1</td></tr><tr><td class="align_left">SA (V + C) [<a href="/journals/mpe/2018/3125879/#B2" target="_blank">2</a>]</td><td class="align_center">36.6</td></tr><tr><td class="align_left">hLSTMt [<a href="/journals/mpe/2018/3125879/#B10" target="_blank">10</a>]</td><td class="align_center">37.4</td></tr><tr><td class="align_left">hLSTMat [<a href="/journals/mpe/2018/3125879/#B10" target="_blank">10</a>]</td><td class="align_center">38.3</td></tr><tr><td class="align_left">SeFLA</td><td class="align_center"><b>41.8</b></td></tr><tr class="table-tr"><td colspan="2"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Performance comparison with other state-of-the-art models on MSR-VTT dataset.</div>

Mathematical Problems in Engineering

Multimodal Feature Learning for Video Captioning

Table 4