Boosting Accuracy of Classical Machine Learning Antispam Classifiers in Real Scenarios by Applying Rough Set Theory

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td class="align_left">Corpus</td><td class="align_center">% legitimate</td><td class="align_center">% spam</td><td class="align_center">Number of messages</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left">LingSpam1</td><td class="align_center">83.3</td><td class="align_center">16.6</td><td class="align_center">2893</td></tr><tr><td class="align_left">PU11</td><td class="align_center">56.2</td><td class="align_center">43.8</td><td class="align_center">1099</td></tr><tr><td class="align_left">PU21</td><td class="align_center">80.0</td><td class="align_center">20.0</td><td class="align_center">721</td></tr><tr><td class="align_left">PU31</td><td class="align_center">51.0</td><td class="align_center">49.0</td><td class="align_center">4139</td></tr><tr><td class="align_left">PUA1</td><td class="align_center">50.0</td><td class="align_center">50.0</td><td class="align_center">1142</td></tr><tr><td class="align_left">Spambase2</td><td class="align_center">39.4</td><td class="align_center">60.6</td><td class="align_center">4601</td></tr><tr><td class="align_left">2005 TRECSpam3</td><td class="align_center">43.0</td><td class="align_center">57.0</td><td class="align_center">92189</td></tr><tr><td class="align_left">2006 TRECSpam3</td><td class="align_center">35.0</td><td class="align_center">65.0</td><td class="align_center">37822</td></tr><tr><td class="align_left">2007 TRECSpam3</td><td class="align_center">33.5</td><td class="align_center">66.5</td><td class="align_center">75419</td></tr><tr><td class="align_left">SpamAssassin4</td><td class="align_center">74.5</td><td class="align_center">25.5</td><td class="align_center">9332</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><svg height="11.6412pt" id="M96" style="vertical-align:-0.04979992pt" version="1.1" viewbox="-0.0498162 -11.5914 5.04606 11.6412" width="5.04606pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.0091,0,0,-0.0091,0,-5.741)"><path d="M389 0V32C297 38 291 46 291 118V635C234 613 175 595 109 583V556L161 554C203 552 207 547 207 497V118C207 46 201 38 110 32V0H389Z" id="g50-50"></path><glyph.data ascent="3443" descent="-2856" horiz-adv-x="487" vert-adv-y="487"></glyph.data></g></svg>Available at <a href="https://labs-repos.iit.demokritos.gr/skel/i-config/downloads/" target="_blank">https://labs-repos.iit.demokritos.gr/skel/i-config/downloads/</a>. 2Available at <a href="http://ftp.ics.uci.edu/pub/machine-learning-databases/spambase/" target="_blank">http://ftp.ics.uci.edu/pub/machine-learning-databases/spambase/</a>. 3Available at <a href="http://trec.nist.gov/data/spam.html" target="_blank">http://trec.nist.gov/data/spam.html</a>. 4Available at <a href="https://spamassassin.apache.org/publiccorpus/" target="_blank">https://spamassassin.apache.org/publiccorpus/</a>. </td></tr></table>

Commonly used publicly available spam corpora.

Scientific Programming

tab2

Table 2

Table 2: Boosting Accuracy of Classical Machine Learning Antispam Classifiers in Real Scenarios by Applying Rough Set Theory