Automatic Image Captioning Based on ResNet50 and LSTM with Soft Attention

<table class="table-group" id="tab5"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td class="align_left">Model</td><td class="align_center">BLEU-1</td><td class="align_center">BLEU-2</td><td class="align_center">BLEU-3</td><td class="align_center">BLEU-4</td><td class="align_center">METEOR</td><td class="align_center">CIDEr</td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td class="align_left">Nearest neighbor [<a href="/journals/wcmc/2020/8909458/#B27" target="_blank">27</a>]</td><td class="align_center">0.48</td><td class="align_center">0.281</td><td class="align_center">0.166</td><td class="align_center">0.1</td><td class="align_center">0.157</td><td class="align_center">0.383</td></tr><tr><td class="align_left">Google NIC [<a href="/journals/wcmc/2020/8909458/#B28" target="_blank">28</a>]</td><td class="align_center">0.666</td><td class="align_center">0.461</td><td class="align_center">0.329</td><td class="align_center">0.246</td><td class="align_center">—</td><td class="align_center">—</td></tr><tr><td class="align_left">LRCN [<a href="/journals/wcmc/2020/8909458/#B24" target="_blank">24</a>]</td><td class="align_center">0.628</td><td class="align_center">0.442</td><td class="align_center">0.304</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td></tr><tr><td class="align_left">MS research [<a href="/journals/wcmc/2020/8909458/#B29" target="_blank">29</a>]</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">0.211</td><td class="align_center">0.207</td><td class="align_center">—</td></tr><tr><td class="align_left">Chen and Zitnick [<a href="/journals/wcmc/2020/8909458/#B23" target="_blank">23</a>]</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">0.19</td><td class="align_center">0.204</td><td class="align_center">0.141</td></tr><tr><td class="align_left">Log bilinear [<a href="/journals/wcmc/2020/8909458/#B25" target="_blank">25</a>]</td><td class="align_center">0.708</td><td class="align_center">0.489</td><td class="align_center">0.344</td><td class="align_center">0.243</td><td class="align_center">0.2</td><td class="align_center">—</td></tr><tr><td class="align_left">DVS [<a href="/journals/wcmc/2020/8909458/#B26" target="_blank">26</a>]</td><td class="align_center">0.625</td><td class="align_center">0.45</td><td class="align_center">0.321</td><td class="align_center">0.23</td><td class="align_center">0.195</td><td class="align_center">0.66</td></tr><tr><td class="align_left">AICRL-ResNet50</td><td class="align_center"><i>0.731</i></td><td class="align_center"><i>0.562</i></td><td class="align_center"><i>0.41</i></td><td class="align_center"><i>0.326</i></td><td class="align_center"><i>0.261</i></td><td class="align_center"><i>0.872</i></td></tr><tr><td class="align_left">AICRL-VGA16</td><td class="align_center">0.702</td><td class="align_center">0.536</td><td class="align_center">0.398</td><td class="align_center">0.295</td><td class="align_center">0.236</td><td class="align_center">0.857</td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The performance comparison in the MS COCO 2014 dataset.</div>

Wireless Communications and Mobile Computing

tab5

Table 5

Table 5: Automatic Image Captioning Based on ResNet50 and LSTM with Soft Attention