An Improved Transformer-Based Neural Machine Translation Strategy: Interacting-Head Attention

<table class="table-group" id="tab6"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Model</td><td class="align_center" colspan="6">Number of heads</td></tr><tr class="thead"><td class="align_center">2</td><td class="align_center">4</td><td class="align_center">8</td><td class="align_center">16</td><td class="align_center">32</td><td class="align_center">64</td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td class="align_left">Multihead attention</td><td class="align_center">10 m 10 s</td><td class="align_center">10 m 30 s</td><td class="align_center">10 m 55 s</td><td class="align_center">11 m 30 s</td><td class="align_center">12 m 45 s</td><td class="align_center">15 m 30 s</td></tr><tr><td class="align_left">Multihead attention (head size = <i>n</i>)</td><td class="align_center">9 m 20 s</td><td class="align_center">9 m 40 s</td><td class="align_center">10 m 10 s</td><td class="align_center">11 m 05 s</td><td class="align_center">12 m 55 s</td><td class="align_center">16 m 55 s</td></tr><tr><td class="align_left">Talking-head attention</td><td class="align_center">10 m 30 s</td><td class="align_center">10 m 40 s</td><td class="align_center">11 m</td><td class="align_center">11 m 40 s</td><td class="align_center">15 m 50 s</td><td class="align_center"> </td></tr><tr><td class="align_left">Interacting-head attention</td><td class="align_center">10 m 30 s</td><td class="align_center">11 m 30 s</td><td class="align_center">14 m 30 s</td><td class="align_center">24 m 30 s</td><td class="align_center">—</td><td class="align_center">—</td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div><i>Note.</i> The units of m and s stand for minute and second, respectively.<br/></div></td></tr></table>

<div>Training time on IWSLT16 DE-EN training dataset.</div>

Computational Intelligence and Neuroscience

tab6

Table 6

Table 6: An Improved Transformer-Based Neural Machine Translation Strategy: Interacting-Head Attention