Deep Visual Semantic Embedding with Text Data Augmentation and Word Embedding Initialization

<table class="table-group" id="tab4"><tr><td><table class="table"><tr><td class="thead-hr" colspan="10"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Model</td><td class="align_center" rowspan="2">Feature (s)</td><td class="align_center" colspan="4">Image count</td><td class="align_center" colspan="4">Image retrieval</td></tr><tr class="thead"><td class="align_center">R@1</td><td class="align_center">R@5</td><td class="align_center">R@10</td><td class="align_center">Med r</td><td class="align_center">R@1</td><td class="align_center">R@5</td><td class="align_center">R@10</td><td class="align_center">Med r</td></tr><tr><td class="thead-hr" colspan="10"><hr/></td></tr><tr><td class="align_left">DeViSE</td><td class="align_center">Word2Vec</td><td class="align_center">4.5</td><td class="align_center">18.1</td><td class="align_center">29.2</td><td class="align_center">26</td><td class="align_center">6.7</td><td class="align_center">21.9</td><td class="align_center">32.7</td><td class="align_center">25</td></tr><tr><td class="align_left">DeFrag</td><td class="align_center">R–CNN</td><td class="align_center">16.4</td><td class="align_center">40.2</td><td class="align_center">54.7</td><td class="align_center">8</td><td class="align_center">10.3</td><td class="align_center">31.4</td><td class="align_center">44.5</td><td class="align_center">13</td></tr><tr><td class="align_left">VSA</td><td class="align_center">R–CNN + BRNN</td><td class="align_center">22.2</td><td class="align_center">48.2</td><td class="align_center">61.4</td><td class="align_center">4.8</td><td class="align_center">15.2</td><td class="align_center">37.7</td><td class="align_center">50.5</td><td class="align_center">9.2</td></tr><tr><td class="align_left">UVSE</td><td class="align_center">ConvNet + LSTM</td><td class="align_center">14.8</td><td class="align_center">39.2</td><td class="align_center">50.9</td><td class="align_center">10</td><td class="align_center">11.8</td><td class="align_center">34.0</td><td class="align_center">46.3</td><td class="align_center">13</td></tr><tr><td class="align_left">UVSE (VGG)</td><td class="align_center">VGG + LSTM</td><td class="align_center">23.0</td><td class="align_center">50.7</td><td class="align_center">62.9</td><td class="align_center">5</td><td class="align_center">16.8</td><td class="align_center">42.0</td><td class="align_center">56.5</td><td class="align_center">8</td></tr><tr><td class="align_left">VSE++</td><td class="align_center">VGG + GRU + HNM</td><td class="align_center">29.0</td><td class="align_center">54.4</td><td class="align_center">66.5</td><td class="align_center">4</td><td class="align_center">20.3</td><td class="align_center">48</td><td class="align_center">59.9</td><td class="align_center">6</td></tr><tr><td class="align_left">Ours</td><td class="align_center">Aug</td><td class="align_center">30.6</td><td class="align_center">57.9</td><td class="align_center">68.5</td><td class="align_center">4</td><td class="align_center">21.4</td><td class="align_center">49.3</td><td class="align_center">61.4</td><td class="align_center">6</td></tr><tr><td class="align_left">Ours</td><td class="align_center">Aug + Word2Vec</td><td class="align_center">33.4</td><td class="align_center">59.2</td><td class="align_center">69.6</td><td class="align_center">3</td><td class="align_center">23.3</td><td class="align_center">49.9</td><td class="align_center">61.7</td><td class="align_center">6</td></tr><tr class="table-tr"><td colspan="10"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Experimental results with text data augmentation on Flickr30k.</div>

Mathematical Problems in Engineering

tab4

Table 4

Table 4: Deep Visual Semantic Embedding with Text Data Augmentation and Word Embedding Initialization