Unbiased Feature Selection in Learning Random Forests for High-Dimensional Data

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td align="left">Dataset </td><td align="center"> No. of features</td><td align="center">No. of training </td><td align="center">No. of tests </td><td align="center">No. of classes </td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td align="left">Colon </td><td align="center"> 2,000 </td><td align="center"> 62 </td><td align="center"> — </td><td align="center"> 2 </td></tr><tr><td align="left">Srbct </td><td align="center"> 2,308 </td><td align="center"> 63 </td><td align="center">—</td><td align="center"> 4 </td></tr><tr><td align="left">Leukemia </td><td align="center"> 3,051 </td><td align="center"> 38 </td><td align="center">—</td><td align="center"> 2 </td></tr><tr><td align="left">Lymphoma </td><td align="center"> 4,026 </td><td align="center"> 62 </td><td align="center">—</td><td align="center"> 3 </td></tr><tr><td align="left">breast.2.class </td><td align="center"> 4,869 </td><td align="center"> 78 </td><td align="center">—</td><td align="center"> 2 </td></tr><tr><td align="left">breast.3.class </td><td align="center"> 4,869 </td><td align="center"> 96 </td><td align="center">—</td><td align="center"> 3 </td></tr><tr><td align="left">nci </td><td align="center"> 5,244 </td><td align="center"> 61 </td><td align="center">—</td><td align="center"> 8 </td></tr><tr><td align="left">Brain </td><td align="center"> 5,597 </td><td align="center"> 42 </td><td align="center">—</td><td align="center"> 5 </td></tr><tr><td align="left">Prostate </td><td align="center"> 6,033 </td><td align="center"> 102 </td><td align="center">—</td><td align="center"> 2 </td></tr><tr><td align="left">adenocarcinoma </td><td align="center"> 9,868 </td><td align="center"> 76 </td><td align="center">—</td><td align="center"> 2 </td></tr><tr><td align="left">Fbis </td><td align="center"> 2,000 </td><td align="center"> 1,711 </td><td align="center"> 752 </td><td align="center"> 17 </td></tr><tr><td align="left">La2s </td><td align="center"> 12,432 </td><td align="center"> 1,855 </td><td align="center"> 845 </td><td align="center"> 6 </td></tr><tr><td align="left">La1s </td><td align="center"> 13,195 </td><td align="center"> 1,963 </td><td align="center"> 887 </td><td align="center"> 6 </td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

Description of the real-world datasets sorted by the number of features and grouped into two groups, microarray data and real-world datasets, accordingly.

The Scientific World Journal

tab1

Table 1

Table 1: Unbiased Feature Selection in Learning Random Forests for High-Dimensional Data