A Deep Multimodal Model for Predicting Affective Responses Evoked by Movies Based on Shot Segmentation

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Models</td><td class="align_center" colspan="2">Arousal</td><td class="align_center" colspan="2">Valence</td></tr><tr class="thead"><td class="align_center">MSE</td><td class="align_center">PCC</td><td class="align_center">MSE</td><td class="align_center">PCC</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left">Malandrakis et al. [<a href="/journals/scn/2021/7650483/#B4" target="_blank">4</a>]</td><td class="align_center">0.17</td><td class="align_center">0.54</td><td class="align_center">0.24</td><td class="align_center">0.23</td></tr><tr><td class="align_left">Goyal et al. [<a href="/journals/scn/2021/7650483/#B6" target="_blank">6</a>]</td><td class="align_center">—</td><td class="align_center">0.62 ± 0.16</td><td class="align_center">—</td><td class="align_center">0.29 ± 0.16</td></tr><tr><td class="align_left">Sivaprasad et al. [<a href="/journals/scn/2021/7650483/#B7" target="_blank">7</a>]</td><td class="align_center">0.08 ± 0.04</td><td class="align_center"><b>0.84</b> ± <b>0.06</b></td><td class="align_center">0.21 ± 0.06</td><td class="align_center">0.50 ± 0.14</td></tr><tr><td class="align_left">Thao et al. [<a href="/journals/scn/2021/7650483/#B9" target="_blank">9</a>]</td><td class="align_center">0.13</td><td class="align_center">0.62</td><td class="align_center">0.19</td><td class="align_center">0.25</td></tr><tr><td class="align_left">Thao et al. [<a href="/journals/scn/2021/7650483/#B10" target="_blank">10</a>]</td><td class="align_center">0.124</td><td class="align_center">0.630</td><td class="align_center">0.178</td><td class="align_center"><b>0.572</b></td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left">Ours (loss1)</td><td class="align_center"><b>0.1022</b></td><td class="align_center"><b>0.6748</b></td><td class="align_center"><b>0.1654</b></td><td class="align_center">0.3167</td></tr><tr><td class="align_left">Ours (loss2)</td><td class="align_center">0.1141</td><td class="align_center">0.6582</td><td class="align_center">0.1704</td><td class="align_center"><b>0.4025</b></td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparison of state-of-the-art results for intended emotion prediction.</div>

Security and Communication Networks

tab3

Table 3

Table 3: A Deep Multimodal Model for Predicting Affective Responses Evoked by Movies Based on Shot Segmentation