Context-Fused Guidance for Image Captioning Using Sequence-Level Training

<table class="table-group" id="tab4"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td class="align_left">Model</td><td class="align_center" colspan="3">Cross-entropy training</td><td class="align_center" colspan="3">CIDEr optimization</td></tr><tr class="thead"><td class="align_left">Metric</td><td class="align_center">BLEU4</td><td class="align_center">CIDEr</td><td class="align_center">SPICE</td><td class="align_center">BLEU4</td><td class="align_center">CIDEr</td><td class="align_center">SPICE</td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td class="align_left">CFG<sub><i>V</i></sub></td><td class="align_center">36.1</td><td class="align_center">112.8</td><td class="align_center">20.3</td><td class="align_center">37.7</td><td class="align_center">123.9</td><td class="align_center">21.0</td></tr><tr><td class="align_left">CFG<sub><i>E</i></sub></td><td class="align_center">36.1</td><td class="align_center">112.9</td><td class="align_center">20.5</td><td class="align_center">37.8</td><td class="align_center">124.6</td><td class="align_center">21.1</td></tr><tr><td class="align_left">CFG<sub><i>A</i></sub></td><td class="align_center">36.3</td><td class="align_center">113.0</td><td class="align_center">20.6</td><td class="align_center">38.1</td><td class="align_center">124.6</td><td class="align_center">21.4</td></tr><tr><td class="align_left">CFG</td><td class="align_center"><b>36.8</b></td><td class="align_center"><b>114.0</b></td><td class="align_center"><b>20.8</b></td><td class="align_center"><b>38.3</b></td><td class="align_center"><b>125.4</b></td><td class="align_center"><b>21.6</b></td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Performance comparison of the ablative models.</div>

Computational Intelligence and Neuroscience

tab4

Table 4

Table 4: Context-Fused Guidance for Image Captioning Using Sequence-Level Training