Context-Fused Guidance for Image Captioning Using Sequence-Level Training

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="9"><hr/></td></tr><tr class="thead"><td class="align_center" colspan="9">Cross-entropy loss</td></tr><tr class="thead"><td class="align_left">Metric</td><td class="align_center">BLEU1</td><td class="align_center">BLEU2</td><td class="align_center">BLEU3</td><td class="align_center">BLEU4</td><td class="align_center">METEOR</td><td class="align_center">ROUGE-L</td><td class="align_center">CIDEr</td><td class="align_center">SPICE</td></tr><tr><td class="thead-hr" colspan="9"><hr/></td></tr><tr><td class="align_left">NIC [<a href="/journals/cin/2022/9743123/#B16" target="_blank">16</a>]</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">29.6</td><td class="align_center">—</td><td class="align_center">52.6</td><td class="align_center">94.0</td><td class="align_center">—</td></tr><tr><td class="align_left">SCST [<a href="/journals/cin/2022/9743123/#B11" target="_blank">11</a>]</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">30.0</td><td class="align_center">25.9</td><td class="align_center">53.4</td><td class="align_center">99.4</td><td class="align_center">—</td></tr><tr><td class="align_left">Up-down [<a href="/journals/cin/2022/9743123/#B4" target="_blank">4</a>]</td><td class="align_center">77.2</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">36.2</td><td class="align_center">27.0</td><td class="align_center">56.4</td><td class="align_center">113.5</td><td class="align_center">20.3</td></tr><tr><td class="align_left">RFNet [<a href="/journals/cin/2022/9743123/#B17" target="_blank">17</a>]</td><td class="align_center">76.4</td><td class="align_center">60.4</td><td class="align_center">46.6</td><td class="align_center">35.8</td><td class="align_center">27.4</td><td class="align_center">56.8</td><td class="align_center">112.5</td><td class="align_center">20.5</td></tr><tr><td class="align_left">HAN [<a href="/journals/cin/2022/9743123/#B20" target="_blank">20</a>]</td><td class="align_center">77.2</td><td class="align_center">61.2</td><td class="align_center">47.7</td><td class="align_center">36.2</td><td class="align_center">27.5</td><td class="align_center">56.6</td><td class="align_center">114.8</td><td class="align_center">20.6</td></tr><tr><td class="align_left">RAtt-Soft [<a href="/journals/cin/2022/9743123/#B29" target="_blank">29</a>]</td><td class="align_center"><b>79.2</b></td><td class="align_center"><b>61.8</b></td><td class="align_center">47.6</td><td class="align_center"><b>36.9</b></td><td class="align_center"><b>28.3</b></td><td class="align_center"><b>60.9</b></td><td class="align_center">114.3</td><td class="align_center"><b>20.8</b></td></tr><tr><td class="align_left">CFG</td><td class="align_center">77.1</td><td class="align_center">61.5</td><td class="align_center"><b>47.9</b></td><td class="align_center">36.8</td><td class="align_center">27.7</td><td class="align_center">56.7</td><td class="align_center">114.0</td><td class="align_center"><b>20.8</b></td></tr><tr class="table-tr"><td colspan="9"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div>The best results (%) are highlighted in boldface. The symbol “—” indicates the results are not reported.<br/></div></td></tr></table>

<div>Performance comparisons on MS COCO Karpathy test split under cross-entropy training.</div>

Computational Intelligence and Neuroscience

tab2

Table 2

Table 2: Context-Fused Guidance for Image Captioning Using Sequence-Level Training