Extracting Parallel Sentences from Nonparallel Corpora Using Parallel Hierarchical Attention Network

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Data</td><td class="align_center" colspan="2">En-Fr</td><td class="align_center" colspan="2">En-De</td><td class="align_center" colspan="2">En-Zh</td></tr><tr class="thead"><td class="align_center">SMT</td><td class="align_center">NMT</td><td class="align_center">SMT</td><td class="align_center">NMT</td><td class="align_center">SMT</td><td class="align_center">NMT</td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td class="align_left">Baseline</td><td class="align_center">23.71</td><td class="align_center">22.32</td><td class="align_center">21.62</td><td class="align_center">21.35</td><td class="align_center">21.1</td><td class="align_center">17.32</td></tr><tr><td class="align_left">Top20K</td><td class="align_center">24.84 (+1.13)</td><td class="align_center">25.42 (+3.1)</td><td class="align_center">23.38 (+1.76)</td><td class="align_center">25.06 (+3.71)</td><td class="align_center">23.21 (+2.11)</td><td class="align_center">24.56 (+7.24)</td></tr><tr><td class="align_left">Top50K</td><td class="align_center">26.16 (+2.45)</td><td class="align_center">26.35 (+4.8)</td><td class="align_center">24.63 (+3.01)</td><td class="align_center">26.42 (+5.07)</td><td class="align_center">24.66 (+3.56)</td><td class="align_center">25.89 (+8.57)</td></tr><tr><td class="align_left">Top100K</td><td class="align_center">28.31 (+3.6)</td><td class="align_center">27.48 (+5.03)</td><td class="align_center">25.72 (+4.1)</td><td class="align_center">27.67 (+6.32)</td><td class="align_center">25.78 (+4.68)</td><td class="align_center">27.02 (+9.7)</td></tr><tr><td class="align_left">Top200K</td><td class="align_center">29.37 (+4.66)</td><td class="align_center">29.51 (+6.06)</td><td class="align_center">26.76 (+5.14)</td><td class="align_center">28.73 (+7.38)</td><td class="align_center">26.86 (+5.76)</td><td class="align_center">28.13 (+10.81)</td></tr><tr><td class="align_left">Top300K</td><td class="align_center">30.39 (+5.68)</td><td class="align_center">30.55 (+8.10)</td><td class="align_center">27.79 (+6.17)</td><td class="align_center">29.80 (+8.45)</td><td class="align_center">27.91 (+6.81)</td><td class="align_center">29.18 (+11.86)</td></tr><tr><td class="align_left">Top400K</td><td class="align_center">30.41 (+6.70)</td><td class="align_center">30.57 (+9.12)</td><td class="align_center">28.83 (+7.21)</td><td class="align_center">30.82 (+9.47)</td><td class="align_center">28.92 (+7.82)</td><td class="align_center">30.21 (+12.89)</td></tr><tr><td class="align_left">Top500K</td><td class="align_center">31.56 (+7.85)</td><td class="align_center">31.58 (+10.13)</td><td class="align_center">30.14 (+8.52)</td><td class="align_center">31.85 (+10.50)</td><td class="align_center">29.93 (+8.83)</td><td class="align_center">31.22 (+13.9)</td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The precision (<i>P</i>), recall (<i>R</i>), and <i>F</i><sub>1</sub> scores of extracting parallel sentences.</div>

Computational Intelligence and Neuroscience

tab3

Table 3

Table 3: Extracting Parallel Sentences from Nonparallel Corpora Using Parallel Hierarchical Attention Network