Context-Fused Guidance for Image Captioning Using Sequence-Level Training

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="9"><hr/></td></tr><tr class="thead"><td class="align_center" colspan="9">Sequence-level optimization</td></tr><tr class="thead"><td class="align_left">Metric</td><td class="align_center">BLEU1</td><td class="align_center">BLEU2</td><td class="align_center">BLEU3</td><td class="align_center">BLEU4</td><td class="align_center">METEOR</td><td class="align_center">ROUGE-L</td><td class="align_center">CIDEr</td><td class="align_center">SPICE</td></tr><tr><td class="thead-hr" colspan="9"><hr/></td></tr><tr><td class="align_left">NIC [<a href="/journals/cin/2022/9743123/#B16" target="_blank">16</a>]</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">31.9</td><td class="align_center">—</td><td class="align_center">54.3</td><td class="align_center">106.3</td><td class="align_center">—</td></tr><tr><td class="align_left">SCST [<a href="/journals/cin/2022/9743123/#B11" target="_blank">11</a>]</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">34.2</td><td class="align_center">26.7</td><td class="align_center">55.7</td><td class="align_center">114.0</td><td class="align_center">—</td></tr><tr><td class="align_left">Up-down [<a href="/journals/cin/2022/9743123/#B4" target="_blank">4</a>]</td><td class="align_center">79.8</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">36.3</td><td class="align_center">27.7</td><td class="align_center">56.9</td><td class="align_center">120.1</td><td class="align_center">21.4</td></tr><tr><td class="align_left">RFNet [<a href="/journals/cin/2022/9743123/#B17" target="_blank">17</a>]</td><td class="align_center">79.1</td><td class="align_center">63.1</td><td class="align_center">48.4</td><td class="align_center">36.5</td><td class="align_center">27.7</td><td class="align_center">57.3</td><td class="align_center">121.9</td><td class="align_center">21.2</td></tr><tr><td class="align_left">HAN [<a href="/journals/cin/2022/9743123/#B20" target="_blank">20</a>]</td><td class="align_center"><b>80.9</b></td><td class="align_center">64.6</td><td class="align_center">49.8</td><td class="align_center">37.6</td><td class="align_center">27.8</td><td class="align_center">58.1</td><td class="align_center">121.7</td><td class="align_center">21.5</td></tr><tr><td class="align_left">RAtt-soft [<a href="/journals/cin/2022/9743123/#B29" target="_blank">29</a>]</td><td class="align_center">80.4</td><td class="align_center">63.4</td><td class="align_center">48.9</td><td class="align_center">37.5</td><td class="align_center"><b>28.5</b></td><td class="align_center"><b>61.6</b></td><td class="align_center">122.1</td><td class="align_center"><b>22.1</b></td></tr><tr><td class="align_left">CFG</td><td class="align_center">80.5</td><td class="align_center"><b>64.7</b></td><td class="align_center"><b>50.2</b></td><td class="align_center"><b>38.3</b></td><td class="align_center">28.2</td><td class="align_center">58.3</td><td class="align_center"><b>125.4</b></td><td class="align_center">21.6</td></tr><tr class="table-tr"><td colspan="9"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div>The best results (%) are highlighted in boldface. The symbol “—” indicates the results are not reported.<br/></div></td></tr></table>

<div>Performance comparisons on MS COCO Karpathy test split under CIDEr-D score optimization.</div>

Computational Intelligence and Neuroscience

tab3

Table 3

Table 3: Context-Fused Guidance for Image Captioning Using Sequence-Level Training