Multimodal Multiobject Tracking by Fusing Deep Appearance Features and Motion Information

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_left">Name</td><td class="align_center">Patch size/stride</td><td class="align_center">Output size</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left">Conv 1</td><td class="align_center">3 × 3/1</td><td class="align_center">32 × 128 × 64</td></tr><tr><td class="align_left">Conv 2</td><td class="align_center">3 × 3/1</td><td class="align_center">32 × 128 × 64</td></tr><tr><td class="align_left">Max pool 3</td><td class="align_center">3 × 3/2</td><td class="align_center">32 × 64 × 32</td></tr><tr><td class="align_left">Residual 4</td><td class="align_center">3 × 3/1</td><td class="align_center">32 × 64 × 32</td></tr><tr><td class="align_left">Residual 5</td><td class="align_center">3 × 3/1</td><td class="align_center">32 × 64 × 32</td></tr><tr><td class="align_left">Residual 6</td><td class="align_center">3 × 3/2</td><td class="align_center">64 × 32 × 16</td></tr><tr><td class="align_left">Residual 7</td><td class="align_center">3 × 3/1</td><td class="align_center">64 × 32 × 16</td></tr><tr><td class="align_left">Residual 8</td><td class="align_center">3 × 3/2</td><td class="align_center">128 × 16 × 8</td></tr><tr><td class="align_left">Residual 9</td><td class="align_center">3 × 3/1</td><td class="align_center">128 × 16 × 8</td></tr><tr><td class="align_left">Dense 10</td><td class="align_center">—</td><td class="align_center">128</td></tr><tr><td class="align_left">Batch and <svg height="12.4698pt" id="M23" style="vertical-align:-3.18147pt" version="1.1" viewbox="-0.0498162 -9.28833 8.22996 12.4698" width="8.22996pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M238 681C243 705 239 712 230 712C217 712 156 682 75 674L70 648H105C148 648 153 641 144 598L39 110C18 11 35 -12 55 -12C90 -12 166 36 221 103L205 125C174 93 130 65 118 65C112 65 108 68 114 96L238 681Z"></path></g><g transform="matrix(.0091,0,0,-0.0091,3.172,3.132)"><path d="M414 144C384 79 371 75 317 75H135L276 221C367 316 408 376 408 465C408 570 327 635 237 635C179 635 131 609 100 575L42 494L67 471C94 510 138 565 205 565C277 565 321 517 321 435C321 348 258 270 195 195C146 137 88 81 33 26V0H411C423 44 433 88 446 135L414 144Z"></path></g></svg> normalization</td><td class="align_center">—</td><td class="align_center">128</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The architecture of the used CNN.</div>

Complexity

tab1

Table 1

Table 1: Multimodal Multiobject Tracking by Fusing Deep Appearance Features and Motion Information