Handling Big Data Scalability in Biological Domain Using Parallel and Distributed Processing: A Case of Three Biological Semantic Similarity Measures

<table class="fixed-width table-group" id="tab23"><tr><td><table class="table"><colgroup><col style="width:10.23em"/><col style="width:5.26em"/><col style="width:5.10em"/><col style="width:5.07em"/></colgroup><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Number of Gene Pairs</td><td class="align_center" colspan="3">Improvement Percentage (IP)</td></tr><tr class="thead"><td class="align_center">2 Slaves</td><td class="align_center">3 Slaves</td><td class="align_center">4 Slaves</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left">10</td><td class="align_center">-20.07</td><td class="align_center">-95.96</td><td class="align_center">-98.26</td></tr><tr><td class="align_left">100</td><td class="align_center">-37.39</td><td class="align_center">-49.06</td><td class="align_center">-93.06</td></tr><tr><td class="align_left">1000</td><td class="align_center">7.48</td><td class="align_center">-78.16</td><td class="align_center">-90.61</td></tr><tr><td class="align_left">10000</td><td class="align_center">-81.91</td><td class="align_center">-89.50</td><td class="align_center">-90.28</td></tr><tr><td class="align_left">100000</td><td class="align_center">X</td><td class="align_center">X</td><td class="align_center">X</td></tr><tr><td class="align_left">1000000</td><td class="align_center">X</td><td class="align_center">X</td><td class="align_center">X</td></tr><tr><td class="align_left">Average</td><td class="align_center">-3.30E+01</td><td class="align_center">-7.82E+01</td><td class="align_center">-9.31E+01</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div>X indicates that, due to limited memory, the system required many hours to find the similarity of some of the pairs.<br/></div></td></tr></table>

<div>Average time reduction obtained using Threaded SORA in a distributed system with input data divided by their similarity versus input data divided equally.</div>

BioMed Research International

tab23

Table 23

Table 23: Handling Big Data Scalability in Biological Domain Using Parallel and Distributed Processing: A Case of Three Biological Semantic Similarity Measures 

Table 23 | Handling Big Data Scalability in Biological Domain Using Parallel and Distributed Processing: A Case of Three Biological Semantic Similarity Measures