Vision Transformer-Based Video Hashing Retrieval for Tracing the Source of Fake Videos

<table class="table-group" id="tab4"><tr><td><table class="table"><tr><td class="thead-hr" colspan="10"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Methods</td><td class="align_center" colspan="4">FF++ (HQ)</td><td class="align_center" colspan="4">FF++ (LQ)</td><td class="align_center" rowspan="2">Celeb-DF</td></tr><tr class="thead"><td class="align_center">DF</td><td class="align_center">F2F</td><td class="align_center">FS</td><td class="align_center">NT</td><td class="align_center">DF</td><td class="align_center">F2F</td><td class="align_center">FS</td><td class="align_center">NT</td></tr><tr><td class="thead-hr" colspan="10"><hr/></td></tr><tr><td class="align_left">Xception</td><td class="align_center">98.9</td><td class="align_center">98.9</td><td class="align_center">99.6</td><td class="align_center">95.0</td><td class="align_center">96.8</td><td class="align_center">91.1</td><td class="align_center">94.6</td><td class="align_center">87.1</td><td class="align_center">99.4</td></tr><tr><td class="align_left">I3D</td><td class="align_center">92.9</td><td class="align_center">92.9</td><td class="align_center">96.4</td><td class="align_center">90.4</td><td class="align_center">91.1</td><td class="align_center">86.4</td><td class="align_center">91.4</td><td class="align_center">78.6</td><td class="align_center">99.2</td></tr><tr><td class="align_left">LSTM</td><td class="align_center">99.6</td><td class="align_center">99.3</td><td class="align_center">98.2</td><td class="align_center">93.9</td><td class="align_center">96.4</td><td class="align_center">88.2</td><td class="align_center">94.3</td><td class="align_center">88.2</td><td class="align_center">95.7</td></tr><tr><td class="align_left">TEI</td><td class="align_center">97.9</td><td class="align_center">97.1</td><td class="align_center">97.5</td><td class="align_center">94.3</td><td class="align_center">95.0</td><td class="align_center">91.1</td><td class="align_center">94.6</td><td class="align_center">90.4</td><td class="align_center">99.1</td></tr><tr><td class="align_left">ADDNet-3d</td><td class="align_center">92.1</td><td class="align_center">83.9</td><td class="align_center">92.5</td><td class="align_center">78.2</td><td class="align_center">90.4</td><td class="align_center">78.2</td><td class="align_center">80.0</td><td class="align_center">69.3</td><td class="align_center">95.2</td></tr><tr><td class="align_left">S-MIL</td><td class="align_center">98.6</td><td class="align_center">99.3</td><td class="align_center">99.3</td><td class="align_center">95.7</td><td class="align_center">96.8</td><td class="align_center">91.4</td><td class="align_center">94.6</td><td class="align_center">88.6</td><td class="align_center">99.2</td></tr><tr><td class="align_left">S-MIL-T</td><td class="align_center">99.6</td><td class="align_center">99.6</td><td class="align_center"><b>100.0</b></td><td class="align_center">94.3</td><td class="align_center">97.1</td><td class="align_center">91.1</td><td class="align_center">96.1</td><td class="align_center">86.8</td><td class="align_center">98.8</td></tr><tr><td class="align_left">STIL</td><td class="align_center">99.6</td><td class="align_center">99.3</td><td class="align_center"><b>100.0</b></td><td class="align_center">95.4</td><td class="align_center">98.2</td><td class="align_center">92.1</td><td class="align_center">97.1</td><td class="align_center">91.8</td><td class="align_center"><b>99.8</b></td></tr><tr><td class="align_left">VTN</td><td class="align_center">99.6</td><td class="align_center">99.3</td><td class="align_center">99.6</td><td class="align_center">95.4</td><td class="align_center">97.9</td><td class="align_center">92.1</td><td class="align_center">95.7</td><td class="align_center">90.4</td><td class="align_center">99.3</td></tr><tr><td class="align_left">ISTVT</td><td class="align_center">99.6</td><td class="align_center">99.6</td><td class="align_center"><b>100.0</b></td><td class="align_center">96.8</td><td class="align_center">98.9</td><td class="align_center">96.1</td><td class="align_center">97.5</td><td class="align_center">92.1</td><td class="align_center"><b>99.8</b></td></tr><tr><td class="align_left">Ours</td><td class="align_center"><b>99.9</b></td><td class="align_center"><b>99.9</b></td><td class="align_center">99.9</td><td class="align_center"><b>0.999</b></td><td class="align_center"><b>99.9</b></td><td class="align_center"><b>100.0</b></td><td class="align_center"><b>99.9</b></td><td class="align_center"><b>99.9</b></td><td class="align_center">99.4</td></tr><tr class="table-tr"><td colspan="10"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparison experiment of fine-grained accuracy (ACC) with recent works on FaceForensics++ high-quality (HQ) and low-quality (LQ) datasets.</div>

Security and Communication Networks

tab4

Table 4

Table 4: Vision Transformer-Based Video Hashing Retrieval for Tracing the Source of Fake Videos