A Deep Multimodal Model for Predicting Affective Responses Evoked by Movies Based on Shot Segmentation

<table class="table-group" id="tab4"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Features</td><td class="align_center" colspan="2">Arousal (loss1)</td><td class="align_center" colspan="2">Valence (loss2)</td></tr><tr class="thead"><td class="align_center">MSE</td><td class="align_center">PCC</td><td class="align_center">MSE</td><td class="align_center">PCC</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left">All features</td><td class="align_center"><b>0.0275</b></td><td class="align_center"><b>0.6187</b></td><td class="align_center"><b>0.0632</b></td><td class="align_center">0.3443</td></tr><tr><td class="align_left"> −Action features</td><td class="align_center">0.0291</td><td class="align_center">0.6038</td><td class="align_center">0.0673</td><td class="align_center">0.3259</td></tr><tr><td class="align_left"> −Face features</td><td class="align_center">0.0277</td><td class="align_center">0.6136</td><td class="align_center">0.0637</td><td class="align_center">0.3667</td></tr><tr><td class="align_left"> −Person features</td><td class="align_center">0.0280</td><td class="align_center">0.6181</td><td class="align_center">0.0653</td><td class="align_center"><b>0.3726</b></td></tr><tr><td class="align_left"> −Place features</td><td class="align_center">0.0280</td><td class="align_center">0.5981</td><td class="align_center">0.0663</td><td class="align_center">0.3315</td></tr><tr><td class="align_left"> −VGGish features</td><td class="align_center">0.0290</td><td class="align_center">0.5952</td><td class="align_center">0.0669</td><td class="align_center">0.3444</td></tr><tr><td class="align_left"> −OpenSMILE features</td><td class="align_center">0.0295</td><td class="align_center">0.6003</td><td class="align_center">0.0666</td><td class="align_center">0.3345</td></tr><tr><td class="align_left">All_visual_features</td><td class="align_center">0.0316</td><td class="align_center">0.4931</td><td class="align_center">0.0751</td><td class="align_center">0.2694</td></tr><tr><td class="align_left">All_audio_features</td><td class="align_center">0.0297</td><td class="align_center">0.6141</td><td class="align_center">0.0726</td><td class="align_center">0.3356</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div>“−” indicates without the feature.<br/></div></td></tr></table>

<div>Comparison of state-of-the-art results for experienced emotion prediction.</div>

Security and Communication Networks

tab4

Table 4

Table 4: A Deep Multimodal Model for Predicting Affective Responses Evoked by Movies Based on Shot Segmentation