A Grammar-Based Semantic Similarity Algorithm for Natural Language Sentences

<table class="table-group" id="tab6"><tr><td><table class="table"><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr class="thead"><td align="left">Category</td><td align="center">Metric</td><td align="center">Accuracy</td><td align="center">Precision</td><td align="center">Recall</td><td align="center"><svg height="11.175" id="M282" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 10.7 11.175" width="10.7" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M599 650l-18 -160l-30 -2q-2 70 -11 94q-5 16 -26 24t-75 8h-94q-27 0 -33.5 -6.5t-12.5 -32.5l-43 -226h108q52 0 72.5 5t31 18t28.5 52h28l-40 -200h-28q-1 42 -6 56.5t-24.5 21t-70.5 6.5h-108l-32 -177q-13 -65 1 -80.5t88 -22.5l-8 -28h-279l6 28q61 5 77.5 20.5
t29.5 81.5l72 387l7.5 40.5t1 26.5t-4 18t-15.5 10t-24 6t-37 4l8 28h461z" id="x1D439"></path></g>
</svg>-measure</td></tr><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr><td align="left" rowspan="6">Corpus-based</td><td align="center">PMI-IR</td><td align="center">69.90</td><td align="center">70.20</td><td align="center">95.20</td><td align="center">81.00</td></tr><tr><td align="center">LSA</td><td align="center">68.40</td><td align="center">69.70</td><td align="center">95.20</td><td align="center">80.50</td></tr><tr><td align="center">STS Meth.</td><td align="center">72.64</td><td align="center">74.65</td><td align="center">89.13</td><td align="center">81.25</td></tr><tr><td align="center">SyMSS_JCN</td><td align="center">70.87</td><td align="center">74.70</td><td align="center">84.17</td><td align="center">79.02</td></tr><tr><td align="center">SyMSS_Vector</td><td align="center">70.82</td><td align="center">74.15</td><td align="center">90.32</td><td align="center">81.44</td></tr><tr><td align="center">Omiotis</td><td align="center">69.97</td><td align="center">70.78</td><td align="center">93.40</td><td align="center">80.52</td></tr><tr><td align="left" colspan="6"><hr/></td></tr><tr><td align="left" rowspan="7">Lexicon-based</td><td align="center">JC</td><td align="center">69.30</td><td align="center">72.20</td><td align="center">87.10</td><td align="center">79.00</td></tr><tr><td align="center">LC</td><td align="center">69.50</td><td align="center">72.40</td><td align="center">87.00</td><td align="center">79.00</td></tr><tr><td align="center">Lesk</td><td align="center">69.30</td><td align="center">72.40</td><td align="center">86.60</td><td align="center">78.90</td></tr><tr><td align="center">L</td><td align="center">69.30</td><td align="center">71.60</td><td align="center">88.70</td><td align="center">79.20</td></tr><tr><td align="center">W&amp;P</td><td align="center">69.00</td><td align="center">70.20</td><td align="center">92.10</td><td align="center">80.00</td></tr><tr><td align="center">R</td><td align="center">69.00</td><td align="center">69.00</td><td align="center">96.40</td><td align="center">80.40</td></tr><tr><td align="center">M</td><td align="center">70.30</td><td align="center">69.60</td><td align="center">97.70</td><td align="center">81.30</td></tr><tr><td align="left" colspan="6"><hr/></td></tr><tr><td align="left" rowspan="3">Machine learning-based</td><td align="center">Wan et al. [<a href="/journals/tswj/2014/437162/#B61">58</a>]</td><td align="center">75.00</td><td align="center">77.00</td><td align="center">90.00</td><td align="center">83.00</td></tr><tr><td align="center">Z&amp;P</td><td align="center">71.90</td><td align="center">74.30</td><td align="center">88.20</td><td align="center">80.70</td></tr><tr><td align="center">Qiu et al. [<a href="/journals/tswj/2014/437162/#B41">59</a>]</td><td align="center">72.00</td><td align="center">72.50</td><td align="center">93.40</td><td align="center">81.60</td></tr><tr><td align="left" colspan="6"><hr/></td></tr><tr><td align="left" rowspan="2">Baselines</td><td align="center">Random</td><td align="center">51.30</td><td align="center">68.30</td><td align="center">50.00</td><td align="center">57.80</td></tr><tr><td align="center">VSM</td><td align="center">65.40</td><td align="center">71.60</td><td align="center">79.50</td><td align="center">75.30</td></tr><tr><td align="left" colspan="6"><hr/></td></tr><tr><td align="left"> </td><td align="center">LG</td><td align="center">71.02</td><td align="center">73.90</td><td align="center">91.07</td><td align="center">81.59</td></tr><tr class="table-tr"><td colspan="6"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

Results of the grammar-based and competitive methods on the Microsoft Research Paraphrase Corpus.

The Scientific World Journal

tab6

Table 6

Table 6: A Grammar-Based Semantic Similarity Algorithm for Natural Language Sentences