Unbiased Feature Selection in Learning Random Forests for High-Dimensional Data

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="11"><hr/></td></tr><tr class="thead"><td align="left">Dataset </td><td align="center"> Model </td><td align="center"> 300 </td><td align="center"> 500 </td><td align="center"> 1000 </td><td align="center"> 3000 </td><td align="center"> 5000 </td><td align="center"> 7000 </td><td align="center"> 10000 </td><td align="center"> 12000 </td><td align="center"> 15000 </td></tr><tr><td class="thead-hr" colspan="11"><hr/></td></tr><tr><td align="left" rowspan="3">Caltech </td><td align="center"> xRF </td><td align="center"> .0312</td><td align="center"> .0271</td><td align="center"> .0280 </td><td align="center"> .0287 </td><td align="center"> .0357 </td><td align="center"> .0440 </td><td align="center"> .0650 </td><td align="center"> .0742 </td><td align="center"> .0789</td></tr><tr><td align="center"> RF </td><td align="center"> .0369 </td><td align="center"> .0288 </td><td align="center"> .0294 </td><td align="center"> .0327 </td><td align="center"> .0435 </td><td align="center"> .0592 </td><td align="center"> .0908 </td><td align="center"> .1114 </td><td align="center"> .3611 </td></tr><tr><td align="center"> wsRF </td><td align="center"> .0413 </td><td align="center"> .0297 </td><td align="center"> .0268</td><td align="center"> .0221</td><td align="center"> .0265</td><td align="center"> .0333</td><td align="center"> .0461</td><td align="center"> .0456</td><td align="center"> .0789 </td></tr><tr><td align="center" colspan="11"><hr/></td></tr><tr><td align="left" rowspan="3">Horse </td><td align="center"> xRF </td><td align="center"> .0266</td><td align="center"> .0262</td><td align="center"> .0246</td><td align="center"> .0277</td><td align="center"> .0259</td><td align="center"> .0298</td><td align="center"> .0275</td><td align="center"> .0288</td><td align="center"> .0382</td></tr><tr><td align="center"> RF </td><td align="center"> .0331 </td><td align="center"> .0342 </td><td align="center"> .0354 </td><td align="center"> .0374 </td><td align="center"> .0417 </td><td align="center"> .0463 </td><td align="center"> .0519 </td><td align="center"> .0537 </td><td align="center"> .0695 </td></tr><tr><td align="center"> wsRF </td><td align="center"> .0429 </td><td align="center"> .0414 </td><td align="center"> .0391 </td><td align="center"> .0295 </td><td align="center"> .0288 </td><td align="center"> .0333 </td><td align="center"> .0295 </td><td align="center"> .0339 </td><td align="center"> .0455 </td></tr><tr class="table-tr"><td colspan="11"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

The (<svg height="11.9171pt" id="M258" style="vertical-align:-2.2392pt" version="1.1" viewbox="-0.0498162 -9.6779 22.8507 11.9171" width="22.8507pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.0135,0,0,-0.0135,0,0)"><path d="M383 397C383 424 344 448 299 448C244 448 172 409 132 375C66 319 23 227 23 146C23 42 74 -12 146 -12C208 -12 298 30 359 103L343 124C315 95 248 48 192 48C145 48 111 85 111 163C111 228 129 294 151 330C171 363 201 401 241 401C275 401 302 384 325 356C332 347 339 344 348 348C373 360 383 381 383 397Z" id="g113-100"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="406" vert-adv-y="406"></glyph.data></g><g transform="matrix(.0135,0,0,-0.0135,5.505,0)"><path d="M368 703H309L44 -163H104L368 703Z" id="g113-48"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="412" vert-adv-y="412"></glyph.data></g><g transform="matrix(.0135,0,0,-0.0135,11.092,0)"><path d="M352 391C352 416 319 448 267 448C236 448 173 423 147 400C107 364 96 332 96 304C96 248 143 210 193 181C241 153 258 124 258 100C258 72 232 38 184 38C151 38 107 66 81 108C77 114 64 116 55 111C34 99 23 84 23 65C23 29 81 -12 134 -12C220 -12 325 61 325 141C325 184 297 215 234 256C194 282 161 309 161 346C161 380 188 401 217 401C255 401 279 380 301 353C308 344 313 341 325 347C341 355 352 371 352 391Z" id="g113-116"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="375" vert-adv-y="375"></glyph.data></g><g transform="matrix(.0135,0,0,-0.0135,16.173,0)"><path d="M412 140C382 77 369 73 315 73H129L270 222C362 320 402 379 402 466C402 571 322 635 234 635C177 635 130 609 99 576L42 495L64 475C90 514 133 568 201 568C274 568 318 519 318 435C318 349 255 267 193 193C144 135 87 78 32 23V0H405C417 45 427 89 440 131L412 140Z" id="g113-51"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="480" vert-adv-y="480"></glyph.data></g></svg>) error bound results of random forest models against the number of codebook size on the Caltech and Horse datasets. The bold value in each row indicates the best result.

The Scientific World Journal

tab2

Table 2

Table 2: Unbiased Feature Selection in Learning Random Forests for High-Dimensional Data