Visual Experience-Based Question Answering with Complex Multimodal Environments

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="8"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="3">Configurations</td><td class="align_center" colspan="7">Accuracy (%)</td></tr><tr class="thead"><td class="align_center" colspan="6">Question types</td><td class="align_center" rowspan="2">Total</td></tr><tr class="thead"><td class="align_center">Existence</td><td class="align_center">Counting</td><td class="align_center">Attribute</td><td class="align_center">Relationship</td><td class="align_center">Include</td><td class="align_center">AgentHas</td></tr><tr><td class="thead-hr" colspan="8"><hr/></td></tr><tr><td class="align_left">VQAS</td><td class="align_center">91.96</td><td class="align_center">79.60</td><td class="align_center">68.53</td><td class="align_center">61.16</td><td class="align_center">56.24</td><td class="align_center">63.21</td><td class="align_center">72.37</td></tr><tr><td class="align_left">VQAS with GT 2D objects</td><td class="align_center">99.74</td><td class="align_center">91.18</td><td class="align_center">78.91</td><td class="align_center">73.94</td><td class="align_center">72.93</td><td class="align_center">78.30</td><td class="align_center">83.37</td></tr><tr><td class="align_left">VQAS with GT scene graph</td><td class="align_center">99.74</td><td class="align_center">100.0</td><td class="align_center">99.91</td><td class="align_center">93.23</td><td class="align_center">99.70</td><td class="align_center">100.0</td><td class="align_center">98.62</td></tr><tr><td class="align_left">VQAS with GT query</td><td class="align_center">92.22</td><td class="align_center">79.60</td><td class="align_center">68.53</td><td class="align_center">64.18</td><td class="align_center">56.24</td><td class="align_center">63.21</td><td class="align_center">72.95</td></tr><tr class="table-tr"><td colspan="8"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Performance analysis of visual experience-based question answering depending on different VQAS configurations.</div>

Mathematical Problems in Engineering

tab2

Table 2

Table 2: Visual Experience-Based Question Answering with Complex Multimodal Environments