Realistic Speech-Driven Talking Video Generation with Personalized Pose

<div>Evaluation metrics used NME (%) on facial landmarks (lower is better).</div>

Complexity

Table 3: Realistic Speech-Driven Talking Video Generation with Personalized Pose