Visual Experience-Based Question Answering with Complex Multimodal Environments

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_center" colspan="2">Category</td><td class="align_center">Count</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left" rowspan="2">Action scenario</td><td class="align_center">Action scenarios</td><td class="align_center">200</td></tr><tr><td class="align_center">Actions per action scenario</td><td class="align_center">77</td></tr><tr><td class="align_left" colspan="3"><hr/></td></tr><tr><td class="align_left" rowspan="8">Question</td><td class="align_center">Existence</td><td class="align_center">1,168</td></tr><tr><td class="align_center">Counting</td><td class="align_center">1,168</td></tr><tr><td class="align_center">Attribute</td><td class="align_center">1,168</td></tr><tr><td class="align_center">Relation</td><td class="align_center">1,005</td></tr><tr><td class="align_center">Include</td><td class="align_center">676</td></tr><tr><td class="align_center">AgentHas</td><td class="align_center">212</td></tr><tr><td class="align_center">Total questions</td><td class="align_center">5,397</td></tr><tr><td class="align_center">Vocabulary size</td><td class="align_center">90</td></tr><tr><td class="align_left" colspan="3"><hr/></td></tr><tr><td class="align_left" rowspan="4">Scene graph</td><td class="align_center">Scene graphs</td><td class="align_center">3,916</td></tr><tr><td class="align_center">Objects</td><td class="align_center">13,109</td></tr><tr><td class="align_center">Attributes</td><td class="align_center">26,218</td></tr><tr><td class="align_center">Relationships</td><td class="align_left">25,583</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Specification of the VEQA dataset.</div>

Mathematical Problems in Engineering

tab1

Table 1

Table 1: Visual Experience-Based Question Answering with Complex Multimodal Environments