Bag of Visual Words Model with Deep Spatial Features for Geographical Scene Classification

<table class="table-group" id="tab4"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td class="align_left">Number</td><td class="align_center">Method</td><td class="align_center">12-scene (%)</td><td class="align_center">Time (h)</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left">1</td><td class="align_center"><svg height="8.68572pt" id="M48" style="vertical-align:-0.0498209pt" version="1.1" viewbox="-0.0498162 -8.6359 9.95144 8.68572" width="9.95144pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M743 650H503L496 622L527 618C563 613 564 603 532 573C449 495 371 431 323 392C301 374 272 355 246 346L280 522C297 609 300 614 379 622L385 650H135L129 622C209 614 215 609 198 522L124 133C106 39 99 35 23 28L17 0H271L277 28C193 35 192 39 208 133L239 316C264 328 280 325 303 288C368 183 435 90 502 0H652L659 28C602 34 584 43 543 94C495 154 403 283 347 369L574 554C634 603 659 612 735 624L743 650Z" id="g113-76"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="755" vert-adv-y="755" xpluscharwidth="9.815"></glyph.data></g></svg>Means + SVM</td><td class="align_center">59.80</td><td class="align_center">0.5</td></tr><tr><td class="align_left">2</td><td class="align_center">Sift + BoVW</td><td class="align_center">61.02</td><td class="align_center">0.5</td></tr><tr><td class="align_left">3</td><td class="align_center">Local–global feature BoVW [<a href="/journals/cin/2017/5169675/#B33">34</a>]</td><td class="align_center">60.23</td><td class="align_center">1.2</td></tr><tr><td class="align_left">4</td><td class="align_center">Fine-tuning Cifar + BoVW</td><td class="align_center">51.12</td><td class="align_center">12</td></tr><tr><td class="align_left">5</td><td class="align_center">Fine-tuning Alexnet + BoVW</td><td class="align_center">67.01 <svg height="7.35473pt" id="M49" style="vertical-align:-0.3499303pt" version="1.1" viewbox="-0.0498162 -7.0048 7.75925 7.35473" width="7.75925pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M535 290V340H323V533H265V340H52V290H265V84H323V290H535ZM535 -22V28H52V-22H535Z" id="g117-37"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="587" vert-adv-y="587" xpluscharwidth="7.631"></glyph.data></g></svg> 1.22</td><td class="align_center">28</td></tr><tr><td class="align_left">6</td><td class="align_center">Fine-tuning GoogLeNet + BoVW</td><td class="align_center">68.21 <svg height="7.35473pt" id="M50" style="vertical-align:-0.3499303pt" version="1.1" viewbox="-0.0498162 -7.0048 7.75925 7.35473" width="7.75925pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M535 290V340H323V533H265V340H52V290H265V84H323V290H535ZM535 -22V28H52V-22H535Z" id="g117-37"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="587" vert-adv-y="587" xpluscharwidth="7.631"></glyph.data></g></svg> 0.61</td><td class="align_center">36</td></tr><tr><td class="align_left">7</td><td class="align_center">Our approach</td><td class="align_center">75.12</td><td class="align_center">23</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

The classification accuracy of different fine-tuning model on 12-scene datasets.

Computational Intelligence and Neuroscience

tab4

Table 4

Table 4: Bag of Visual Words Model with Deep Spatial Features for Geographical Scene Classification