Emotional Video to Audio Transformation Using Deep Recurrent Neural Networks and a Neuro-Fuzzy System

<table class="table-group" id="tab6"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2"><span style="width: 6.36303ptpx;"><svg height="7.82449pt" id="M45" style="vertical-align:-0.04980993pt" version="1.1" viewbox="-0.0498162 -7.77468 6.36303 7.82449" width="6.36303pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M448 453H361L394 608H355L322 453H214L248 608H210L176 453H79L70 395H163L134 259H35L24 201H120L82 27H120L158 201H266L229 27H267L305 201H395L404 259H318L348 395H439L448 453ZM310 395L280 259H173L202 395H310Z"></path></g></svg></span></td><td class="align_center" colspan="2">Target MOS</td><td class="align_center" colspan="2">Obtained MOS</td></tr><tr class="thead"><td class="align_center">Valence</td><td class="align_center">Arousal</td><td class="align_center">Valence</td><td class="align_center">Arousal</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left">1</td><td class="align_center">5.39</td><td class="align_center">5.32</td><td class="align_center">5.40 ± 2.80</td><td class="align_center">5.20 ± 2.91</td></tr><tr><td class="align_left">2</td><td class="align_center">5.58</td><td class="align_center">5.18</td><td class="align_center">4.10 ± 2.47</td><td class="align_center">4.80 ± 2.74</td></tr><tr><td class="align_left">3</td><td class="align_center">5.02</td><td class="align_center">5.29</td><td class="align_center">5.00 ± 2.21</td><td class="align_center">5.70 ± 2.50</td></tr><tr><td class="align_left">4</td><td class="align_center">5.53</td><td class="align_center">5.55</td><td class="align_center">6.00 ± 2.26</td><td class="align_center">5.60 ± 2.84</td></tr><tr><td class="align_left">5</td><td class="align_center">5.01</td><td class="align_center">5.44</td><td class="align_center">4.60 ± 2.37</td><td class="align_center">4.90 ± 2.69</td></tr><tr><td class="align_left">6</td><td class="align_center">5.49</td><td class="align_center">4.20</td><td class="align_center">4.40 ± 2.63</td><td class="align_center">4.90 ± 2.81</td></tr><tr><td class="align_left">7</td><td class="align_center">5.30</td><td class="align_center">5.04</td><td class="align_center">5.40 ± 2.99</td><td class="align_center">5.10 ± 3.18</td></tr><tr><td class="align_left">8</td><td class="align_center">4.72</td><td class="align_center">5.50</td><td class="align_center">4.70 ± 2.50</td><td class="align_center">5.50 ± 2.51</td></tr><tr><td class="align_left">9</td><td class="align_center">5.13</td><td class="align_center">5.21</td><td class="align_center">3.60 ± 2.32</td><td class="align_center">4.30 ± 3.16</td></tr><tr><td class="align_left">10</td><td class="align_center">5.11</td><td class="align_center">4.92</td><td class="align_center">3.80 ± 2.74</td><td class="align_center">4.50 ± 3.27</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Human evaluation with 10 samples generated with the DEAP dataset using the current model.</div>

Mathematical Problems in Engineering

tab6

Table 6

Table 6: Emotional Video to Audio Transformation Using Deep Recurrent Neural Networks and a Neuro-Fuzzy System