Channel-Wise Spatiotemporal Aggregation Technology for Face Video Forensics

<table class="table-group" id="tab5"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td class="align_left">Model</td><td class="align_center">DF</td><td class="align_center">F2F</td><td class="align_center">FS</td><td class="align_center">NT</td><td class="align_center">DFDC-P</td><td class="align_center">Celeb-DF</td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td class="align_left">EfficientNet B0 [<a href="/journals/scn/2021/5524930/#B5" target="_blank">5</a>]</td><td class="align_center"><b>99.31</b></td><td class="align_center">99.69</td><td class="align_center">99.53</td><td class="align_center"><b>99.13</b></td><td class="align_center"><b>81.97</b></td><td class="align_center">93.97</td></tr><tr><td class="align_left">Xception [<a href="/journals/scn/2021/5524930/#B22" target="_blank">22</a>]</td><td class="align_center">99.22</td><td class="align_center">99.62</td><td class="align_center"><b>99.56</b></td><td class="align_center">99.00</td><td class="align_center">80.75</td><td class="align_center"><b>94.84</b></td></tr><tr><td class="align_left">Inception V3 [<a href="/journals/scn/2021/5524930/#B23" target="_blank">23</a>]</td><td class="align_center">98.84</td><td class="align_center"><b>99.78</b></td><td class="align_center">99.47</td><td class="align_center">98.24</td><td class="align_center">79.72</td><td class="align_center">66.19</td></tr><tr><td class="align_left">MobileNet V1 [<a href="/journals/scn/2021/5524930/#B24" target="_blank">24</a>]</td><td class="align_center">99.16</td><td class="align_center">98.75</td><td class="align_center">99.53</td><td class="align_center">98.47</td><td class="align_center">79.09</td><td class="align_center">66.69</td></tr><tr><td class="align_left">EfficientNet B0(w/o skip)</td><td class="align_center">83.56</td><td class="align_center">58.62</td><td class="align_center">58.84</td><td class="align_center">60.94</td><td class="align_center">76.31</td><td class="align_center">66.66</td></tr><tr><td class="align_left">Xception (w/o skip)</td><td class="align_center">94.91</td><td class="align_center">58.80</td><td class="align_center">64.62</td><td class="align_center">53.91</td><td class="align_center">65.44</td><td class="align_center">67.50</td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Binary classification accuracy (%) (higher is better) of different backbones on frames<small class="sc">.</small></div>

Security and Communication Networks

tab5

Table 5

Table 5: Channel-Wise Spatiotemporal Aggregation Technology for Face Video Forensics