Context-Fused Guidance for Image Captioning Using Sequence-Level Training

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left">Split</td><td class="align_center" colspan="2">Default</td><td class="align_center" colspan="2">Karpathy</td></tr><tr class="thead"><td class="align_left">Subset</td><td class="align_center">Image</td><td class="align_center">Caption</td><td class="align_center">Image</td><td class="align_center">Caption</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left">Training</td><td class="align_center">82,783</td><td class="align_center">414,113</td><td class="align_center">113,287</td><td class="align_center">566,738</td></tr><tr><td class="align_left">Validation</td><td class="align_center">40,504</td><td class="align_center">202,654</td><td class="align_center">5000</td><td class="align_center">25,010</td></tr><tr><td class="align_left">Test</td><td class="align_center">40,775</td><td class="align_center">—</td><td class="align_center">5000</td><td class="align_center">25,010</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div>The symbol “—” indicates the data are not public.<br/></div></td></tr></table>

<div>Statistics of the MS COCO dataset.</div>

Computational Intelligence and Neuroscience

tab1

Table 1

Table 1: Context-Fused Guidance for Image Captioning Using Sequence-Level Training