Deep Visual Semantic Embedding with Text Data Augmentation and Word Embedding Initialization

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="10"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Model</td><td class="align_center" rowspan="2">Feature (s)</td><td class="align_center" colspan="4">Image count</td><td class="align_center" colspan="4">Image retrieval</td></tr><tr class="thead"><td class="align_center">R@1</td><td class="align_center">R@5</td><td class="align_center">R@10</td><td class="align_center">Med r</td><td class="align_center">R@1</td><td class="align_center">R@5</td><td class="align_center">R@10</td><td class="align_center">Med r</td></tr><tr><td class="thead-hr" colspan="10"><hr/></td></tr><tr><td class="align_left">DeViSE [<a href="/journals/mpe/2021/6654071/#B13" target="_blank">13</a>]</td><td class="align_center">Word2Vec</td><td class="align_center">4.8</td><td class="align_center">16.5</td><td class="align_center">27.3</td><td class="align_center">28</td><td class="align_center">5.9</td><td class="align_center">20.1</td><td class="align_center">29.6</td><td class="align_center">29</td></tr><tr><td class="align_left">DeFrag [<a href="/journals/mpe/2021/6654071/#B14" target="_blank">14</a>]</td><td class="align_center">R–CNN</td><td class="align_center">12.6</td><td class="align_center">32.9</td><td class="align_center">44.0</td><td class="align_center">14</td><td class="align_center">9.7</td><td class="align_center">29.6</td><td class="align_center">42.5</td><td class="align_center">15</td></tr><tr><td class="align_left">VSA [<a href="/journals/mpe/2021/6654071/#B16" target="_blank">16</a>]</td><td class="align_center">R–CNN + BRNN</td><td class="align_center">16.5</td><td class="align_center">40.6</td><td class="align_center">54.2</td><td class="align_center">7.6</td><td class="align_center">11.8</td><td class="align_center">32.1</td><td class="align_center">44.7</td><td class="align_center">12.4</td></tr><tr><td class="align_left">UVSE [<a href="/journals/mpe/2021/6654071/#B18" target="_blank">18</a>]</td><td class="align_center">ConvNet + LSTM</td><td class="align_center">13.5</td><td class="align_center">36.2</td><td class="align_center">45.7</td><td class="align_center">13</td><td class="align_center">10.4</td><td class="align_center">31</td><td class="align_center">43.7</td><td class="align_center">14</td></tr><tr><td class="align_left">UVSE (VGG) [<a href="/journals/mpe/2021/6654071/#B19" target="_blank">19</a>]</td><td class="align_center">VGG + LSTM</td><td class="align_center">18.0</td><td class="align_center">40.9</td><td class="align_center">55.0</td><td class="align_center">8</td><td class="align_center">12.5</td><td class="align_center">37.0</td><td class="align_center">51.5</td><td class="align_center">10</td></tr><tr><td class="align_left">VSE++ [<a href="/journals/mpe/2021/6654071/#B21" target="_blank">21</a>]</td><td class="align_center">VGG + GRU + HNM</td><td class="align_center">16.3</td><td class="align_center">37.7</td><td class="align_center">52.5</td><td class="align_center">9</td><td class="align_center">12</td><td class="align_center">33.3</td><td class="align_center">48.1</td><td class="align_center">11</td></tr><tr><td class="align_left">Ours</td><td class="align_center">Aug</td><td class="align_center">20.9</td><td class="align_center">44.1</td><td class="align_center">58.8</td><td class="align_center">7</td><td class="align_center">14.5</td><td class="align_center">39</td><td class="align_center">51.2</td><td class="align_center">10</td></tr><tr><td class="align_left">Ours</td><td class="align_center">Aug + Word2Vec</td><td class="align_center">21.5</td><td class="align_center">49.1</td><td class="align_center">62.3</td><td class="align_center">6</td><td class="align_center">15.1</td><td class="align_center">38.9</td><td class="align_center">53.1</td><td class="align_center">9</td></tr><tr class="table-tr"><td colspan="10"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Experimental results with text data augmentation on Flickr8k.</div>

Mathematical Problems in Engineering

tab3

Table 3

Table 3: Deep Visual Semantic Embedding with Text Data Augmentation and Word Embedding Initialization