Emotional Video to Audio Transformation Using Deep Recurrent Neural Networks and a Neuro-Fuzzy System

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2"><span style="width: 6.36303ptpx;"><svg height="7.82449pt" id="M44" style="vertical-align:-0.04980993pt" version="1.1" viewbox="-0.0498162 -7.77468 6.36303 7.82449" width="6.36303pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M448 453H361L394 608H355L322 453H214L248 608H210L176 453H79L70 395H163L134 259H35L24 201H120L82 27H120L158 201H266L229 27H267L305 201H395L404 259H318L348 395H439L448 453ZM310 395L280 259H173L202 395H310Z"></path></g></svg></span></td><td class="align_center" rowspan="2">MAE</td><td class="align_center" colspan="2">Target MOS</td><td class="align_center" colspan="2">Obtained MOS</td></tr><tr class="thead"><td class="align_center">Valence</td><td class="align_center">Arousal</td><td class="align_center">Valence</td><td class="align_center">Arousal</td></tr><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr><td class="align_left">1</td><td class="align_center">0.193</td><td class="align_center">8.0</td><td class="align_center">8.6</td><td class="align_center">4.43 ± 1.99</td><td class="align_center">5.14 ± 2.10</td></tr><tr><td class="align_left">2</td><td class="align_center">0.142</td><td class="align_center">3.8</td><td class="align_center">5.2</td><td class="align_center">5.57 ± 1.84</td><td class="align_center">5.57 ± 1.59</td></tr><tr><td class="align_left">3</td><td class="align_center">0.234</td><td class="align_center">6.4</td><td class="align_center">8.0</td><td class="align_center">4.71 ± 1.58</td><td class="align_center">5.00 ± 1.78</td></tr><tr><td class="align_left">4</td><td class="align_center">0.203</td><td class="align_center">6.4</td><td class="align_center">6.8</td><td class="align_center">4.71 ± 1.39</td><td class="align_center">3.71 ± 1.03</td></tr><tr><td class="align_left">5</td><td class="align_center">0.280</td><td class="align_center">6.6</td><td class="align_center">7.0</td><td class="align_center">6.43 ± 1.29</td><td class="align_center">6.57 ± 1.05</td></tr><tr><td class="align_left">6</td><td class="align_center">0.262</td><td class="align_center">6.0</td><td class="align_center">6.8</td><td class="align_center">3.00 ± 0.53</td><td class="align_center">4.29 ± 0.88</td></tr><tr><td class="align_left">7</td><td class="align_center">0.206</td><td class="align_center">7.2</td><td class="align_center">6.8</td><td class="align_center">5.86 ± 1.46</td><td class="align_center">4.71 ± 2.05</td></tr><tr><td class="align_left">8</td><td class="align_center">0.219</td><td class="align_center">5.2</td><td class="align_center">7.2</td><td class="align_center">5.43 ± 1.18</td><td class="align_center">5.86 ± 1.36</td></tr><tr class="table-tr"><td colspan="6"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Extended MOS and MAE results with 8 samples.</div>

Mathematical Problems in Engineering

tab2

Table 2

Table 2: Emotional Video to Audio Transformation Using Deep Recurrent Neural Networks and a Neuro-Fuzzy System