Realistic Speech-Driven Talking Video Generation with Personalized Pose

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left"> </td><td class="align_center"><i>Q</i>1</td><td class="align_center"><i>Q</i>2</td><td class="align_center"><i>Q</i>3</td><td class="align_center"><i>Q</i>4</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left">Learning gesture [<a href="/journals/complexity/2020/6629634/#B31" target="_blank">31</a>]</td><td class="align_center">3.414</td><td class="align_center">3.659</td><td class="align_center">3.914</td><td class="align_center">3.308</td></tr><tr><td class="align_left">Neural-voice-puppetry[<a href="/journals/complexity/2020/6629634/#B32" target="_blank">32</a>]</td><td class="align_center">3.202</td><td class="align_center">3.840</td><td class="align_center">3.180</td><td class="align_center">3.542</td></tr><tr><td class="align_left">EverybodyDance [<a href="/journals/complexity/2020/6629634/#B33" target="_blank">33</a>]</td><td class="align_center">3.944</td><td class="align_center">3.662</td><td class="align_center">3.680</td><td class="align_center">3.681</td></tr><tr><td class="align_left">Personalized-bodyPose[<a href="/journals/complexity/2020/6629634/#B29" target="_blank">29</a>]</td><td class="align_center">3.894</td><td class="align_center">4.011</td><td class="align_center">3.383</td><td class="align_center">3.762</td></tr><tr><td class="align_left">Our method</td><td class="align_center">3.901</td><td class="align_center">4.083</td><td class="align_center">3.526</td><td class="align_center">3.778</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Mean Opinion Score (MOS) of 100 participants on 4 questions. <i>Q</i>1: completeness of body. <i>Q</i>2: the face is clear. <i>Q</i>3: the body movement is correlated with audio. <i>Q</i>4:overall quality.</div>

Complexity

tab1

Table 1

Table 1: Realistic Speech-Driven Talking Video Generation with Personalized Pose