A Stacked BiLSTM Neural Network Based on Coattention Mechanism for Question Answering

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td class="align_left">Idx</td><td class="align_center">Model</td><td class="align_center">MAP</td><td class="align_center">MRR</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left">1</td><td class="align_center">Probabilistic quasi-synchronous grammar [<a href="/journals/cin/2019/9543490/#B35" target="_blank">35</a>]</td><td class="align_center">0.6029</td><td class="align_center">0.6852</td></tr><tr><td class="align_left">2</td><td class="align_center">Tree edit models [<a href="/journals/cin/2019/9543490/#B2" target="_blank">2</a>]</td><td class="align_center">0.6091</td><td class="align_center">0.6917</td></tr><tr><td class="align_left">3</td><td class="align_center">Linear-chain CRF [<a href="/journals/cin/2019/9543490/#B17" target="_blank">17</a>]</td><td class="align_center">0.6307</td><td class="align_center">0.7477</td></tr><tr><td class="align_left">4</td><td class="align_center">LCLR [<a href="/journals/cin/2019/9543490/#B18" target="_blank">18</a>]</td><td class="align_center">0.7092</td><td class="align_center">0.7700</td></tr><tr><td class="align_left">5</td><td class="align_center">Bigram + count [<a href="/journals/cin/2019/9543490/#B38" target="_blank">38</a>]</td><td class="align_center">0.7113</td><td class="align_center">0.7846</td></tr><tr><td class="align_left">6</td><td class="align_center">Three-layer BiLSTM + BM25 [<a href="/journals/cin/2019/9543490/#B6" target="_blank">6</a>]</td><td class="align_center">0.7134</td><td class="align_center">0.7913</td></tr><tr><td class="align_left">7</td><td class="align_center">Convolutional deep neural networks [<a href="/journals/cin/2019/9543490/#B39" target="_blank">39</a>]</td><td class="align_center">0.7459</td><td class="align_center">0.8078</td></tr><tr><td class="align_left">8</td><td class="align_center">BiLSTM/CNN with attention [<a href="/journals/cin/2019/9543490/#B7" target="_blank">7</a>]</td><td class="align_center">0.7111</td><td class="align_center">0.8322</td></tr><tr><td class="align_left">9</td><td class="align_center">Attentive LSTM [<a href="/journals/cin/2019/9543490/#B1" target="_blank">1</a>]</td><td class="align_center">0.7530</td><td class="align_center">0.8300</td></tr><tr><td class="align_left">10</td><td class="align_center">BiLSTM encoder-decoder with step attention [<a href="/journals/cin/2019/9543490/#B8" target="_blank">8</a>]</td><td class="align_center">0.7261</td><td class="align_center">0.8018</td></tr><tr><td class="align_left">11</td><td class="align_center">BiLSTM</td><td class="align_center">0.6982</td><td class="align_center">0.7764</td></tr><tr><td class="align_left">12</td><td class="align_center">Stacked BiLSTM</td><td class="align_center">0.7127</td><td class="align_center">0.7893</td></tr><tr><td class="align_left">13</td><td class="align_center">BiLSTM with coattention</td><td class="align_center">0.7325</td><td class="align_center">0.7962</td></tr><tr><td class="align_left">14</td><td class="align_center">Stacked BiLSTM with coattention</td><td class="align_center">0.7451</td><td class="align_center">0.8114</td></tr><tr><td class="align_left">15</td><td class="align_center">Stacked BiLSTM with coattention (cosine + Euclidean)</td><td class="align_center"><b>0.7613</b></td><td class="align_center"><b>0.8401</b></td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Experimental results of different baselines and our proposed model on Train-All data.</div>

Computational Intelligence and Neuroscience

tab3

Table 3

Table 3: A Stacked BiLSTM Neural Network Based on Coattention Mechanism for Question Answering