Deep Metric Learning-Assisted 3D Audio-Visual Speaker Tracking via Two-Layer Particle Filter

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="8"><hr/></td></tr><tr class="thead"><td class="align_left" colspan="2">Sequence</td><td class="align_center" colspan="3">3D MAE (m)</td><td class="align_center" colspan="3">2D MAE (pixels)</td></tr><tr class="thead"><td class="align_left">Seq</td><td class="align_center">Camera</td><td class="align_center">[<a href="/journals/complexity/2020/3764309/#B21" target="_blank">21</a>]</td><td class="align_center">[<a href="/journals/complexity/2020/3764309/#B12" target="_blank">12</a>]</td><td class="align_center">Ours</td><td class="align_center">[<a href="/journals/complexity/2020/3764309/#B5" target="_blank">5</a>]</td><td class="align_center">[<a href="/journals/complexity/2020/3764309/#B12" target="_blank">12</a>]</td><td class="align_center">Ours</td></tr><tr><td class="thead-hr" colspan="8"><hr/></td></tr><tr><td class="align_left" rowspan="3">08</td><td class="align_center">1</td><td class="align_center">0.15</td><td class="align_center">0.12</td><td class="align_center">0.08</td><td class="align_center">10.75</td><td class="align_center">4.31</td><td class="align_center">3.24</td></tr><tr><td class="align_center">2</td><td class="align_center">0.24</td><td class="align_center">0.11</td><td class="align_center">0.07</td><td class="align_center">7.33</td><td class="align_center">4.66</td><td class="align_center">3.11</td></tr><tr><td class="align_center">3</td><td class="align_center">0.20</td><td class="align_center">0.09</td><td class="align_center">0.07</td><td class="align_center">9.85</td><td class="align_center">5.34</td><td class="align_center">3.28</td></tr><tr><td class="align_left" rowspan="3">11</td><td class="align_center">1</td><td class="align_center">0.31</td><td class="align_center">0.33</td><td class="align_center">0.23</td><td class="align_center">14.66</td><td class="align_center">8.15</td><td class="align_center">6.04</td></tr><tr><td class="align_center">2</td><td class="align_center">0.29</td><td class="align_center">0.14</td><td class="align_center">0.07</td><td class="align_center">14.01</td><td class="align_center">7.48</td><td class="align_center">5.13</td></tr><tr><td class="align_center">3</td><td class="align_center">0.26</td><td class="align_center">0.12</td><td class="align_center">0.08</td><td class="align_center">13.96</td><td class="align_center">6.64</td><td class="align_center">4.06</td></tr><tr><td class="align_left" rowspan="3">12</td><td class="align_center">1</td><td class="align_center">0.41</td><td class="align_center">0.26</td><td class="align_center">0.18</td><td class="align_center">12.49</td><td class="align_center">6.86</td><td class="align_center">4.15</td></tr><tr><td class="align_center">2</td><td class="align_center">0.51</td><td class="align_center">0.17</td><td class="align_center">0.10</td><td class="align_center">10.81</td><td class="align_center">10.67</td><td class="align_center">5.19</td></tr><tr><td class="align_center">3</td><td class="align_center">0.47</td><td class="align_center">0.20</td><td class="align_center">0.13</td><td class="align_center">11.86</td><td class="align_center">9.71</td><td class="align_center">5.58</td></tr><tr><td class="align_left" colspan="2">Average</td><td class="align_center">0.32</td><td class="align_center">0.17</td><td class="align_center"><b>0.11</b></td><td class="align_center">11.75</td><td class="align_center">7.09</td><td class="align_center"><b>4.42</b></td></tr><tr class="table-tr"><td colspan="8"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>MAE in 3D (m) and on the image plane (pixels) on seq08, seq11, and seq12 over cameras 1, 2, and 3.</div>

Complexity

tab1

Table 1

Table 1: Deep Metric Learning-Assisted 3D Audio-Visual Speaker Tracking via Two-Layer Particle Filter