An Improved Method for Cross-Project Defect Prediction by Simplifying Training Data

<table class="fixed-width table-group" id="tab9"><tr><td><table class="table"><colgroup><col style="width:4.67em"/><col style="width:4.94em"/><col style="width:5.07em"/><col style="width:3.82em"/><col style="width:5.88em"/><col style="width:14.43em"/></colgroup><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr class="thead"><td class="align_left">Test set</td><td class="align_center">Baseline1</td><td class="align_center">Baseline2</td><td class="align_center" colspan="2">Euclidean + Linear</td><td class="align_center"><span style="width: 6.84582ptpx;"><svg height="9.49473pt" id="M101" style="vertical-align:-0.2063999pt" version="1.1" viewbox="-0.0498162 -9.28833 6.84582 9.49473" width="6.84582pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M494 514C482 587 419 712 303 712C238 712 174 667 174 603C174 561 205 514 249 449C219 438 187 422 162 407C93 366 23 283 23 177C23 69 87 -12 190 -12C244 -12 288 5 328 33C406 87 444 170 444 249C444 329 404 391 331 475C265 550 222 605 222 627C222 647 238 657 267 657C355 657 421 585 484 499L494 514ZM359 234C359 143 319 30 219 30C172 30 114 75 114 178C114 275 163 343 195 378C212 397 241 415 269 425C305 382 359 313 359 234Z" id="g113-226"></path></g></svg></span></td></tr><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr><td class="align_left">Ant</td><td class="align_center">0.785</td><td class="align_center">0.803</td><td class="align_center">1.3%</td><td class="align_center">−1.0%</td><td class="align_center" rowspan="8">Baseline1 vs. TDSelector: <br/>−0.409</td></tr><tr><td class="align_left">Xalan</td><td class="align_center">0.657</td><td class="align_center">0.675</td><td class="align_center">10.7%</td><td class="align_center">7.7%</td></tr><tr><td class="align_left">Camel</td><td class="align_center">0.595</td><td class="align_center">0.624</td><td class="align_center">0.5%</td><td class="align_center">−4.2%</td></tr><tr><td class="align_left">Ivy</td><td class="align_center">0.789</td><td class="align_center">0.802</td><td class="align_center">4.7%</td><td class="align_center">3.0%</td></tr><tr><td class="align_left">Jedit</td><td class="align_center">0.694</td><td class="align_center">0.782</td><td class="align_center">14.3%</td><td class="align_center">1.4%</td></tr><tr><td class="align_left">Lucene</td><td class="align_center">0.608</td><td class="align_center">0.701</td><td class="align_center">−0.8%</td><td class="align_center">−14.0%</td></tr><tr><td class="align_left">Poi</td><td class="align_center">0.691</td><td class="align_center">0.789</td><td class="align_center">3.3%</td><td class="align_center">−9.5%</td></tr><tr><td class="align_left">Synapse</td><td class="align_center">0.740</td><td class="align_center">0.748</td><td class="align_center">2.3%</td><td class="align_center">1.2%</td></tr><tr><td class="align_left" colspan="6"><hr/></td></tr><tr><td class="align_left">Velocity</td><td class="align_center">0.330</td><td class="align_center">0.331</td><td class="align_center">65.2%</td><td class="align_center">64.7%</td><td class="align_center" rowspan="8">Baseline2 vs. TDSelector: <br/>−0.009</td></tr><tr><td class="align_left">Xerces</td><td class="align_center">0.714</td><td class="align_center">0.753</td><td class="align_center">8.5%</td><td class="align_center">2.9%</td></tr><tr><td class="align_left">Eclipse</td><td class="align_center">0.706</td><td class="align_center">0.744</td><td class="align_center">10.2%</td><td class="align_center">4.6%</td></tr><tr><td class="align_left">Equinox</td><td class="align_center">0.587</td><td class="align_center">0.720</td><td class="align_center">23.1%</td><td class="align_center">0.3%</td></tr><tr><td class="align_left">Lucene2</td><td class="align_center">0.705</td><td class="align_center">0.724</td><td class="align_center">2.5%</td><td class="align_center">−0.2%</td></tr><tr><td class="align_left">Mylyn</td><td class="align_center">0.631</td><td class="align_center">0.646</td><td class="align_center">9.3%</td><td class="align_center">6.8%</td></tr><tr><td class="align_left">Pde</td><td class="align_center">0.678</td><td class="align_center">0.737</td><td class="align_center">10.4%</td><td class="align_center">1.5%</td></tr><tr><td class="align_left" colspan="6"><hr/></td></tr><tr><td class="align_left">Avg.</td><td class="align_center">0.663</td><td class="align_center">0.705</td><td class="align_center">10.6%</td><td class="align_center">4.3%</td></tr><tr class="table-tr"><td colspan="6"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>A comparison between our approach and two baseline methods for the data sets from PROMISE and AEEEM. The comparison is conducted based on the best prediction results of all the three methods in question.</div>

Mathematical Problems in Engineering

tab9

Table 9

Table 9: An Improved Method for Cross-Project Defect Prediction by Simplifying Training Data