An Improved Transformer-Based Neural Machine Translation Strategy: Interacting-Head Attention

<table class="table-group" id="tab7"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Model</td><td class="align_center" colspan="6">Number of heads/head size</td></tr><tr class="thead"><td class="align_center">2/256</td><td class="align_center">4/128</td><td class="align_center">8/64</td><td class="align_center">16/32</td><td class="align_center">32/16</td><td class="align_center">64/8</td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td class="align_left">Multihead attention</td><td class="align_center">9 h 55 m</td><td class="align_center">11 h</td><td class="align_center">11 h 30 m</td><td class="align_center">12 h</td><td class="align_center">12 h 30 m</td><td class="align_center">14 h</td></tr><tr><td class="align_left">Multihead attention (head size = <i>n</i>)</td><td class="align_center">11 h 30 m</td><td class="align_center">11 h 40 m</td><td class="align_center">11 h 50 m</td><td class="align_center">12 h 50 m</td><td class="align_center">13 h 10 m</td><td class="align_center">17 h 30 m</td></tr><tr><td class="align_left">Talking-head attention</td><td class="align_center">11 h 5 m</td><td class="align_center">11 h 40 m</td><td class="align_center">11 h 50 m</td><td class="align_center">12 h 20 m</td><td class="align_center">13 h 50 m</td><td class="align_center">15 h</td></tr><tr><td class="align_left">Interacting-head attention</td><td class="align_center">10 h 40 m</td><td class="align_center">11 h 30 m</td><td class="align_center">12 h 50 m</td><td class="align_center">20 h</td><td class="align_center">—</td><td class="align_center">—</td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div><i>Note.</i> The units of h, m, and s stand for hour, minute, and second, respectively.<br/></div></td></tr></table>

<div>Training time on WMT17 EN-DE training dataset.</div>

Computational Intelligence and Neuroscience

tab7

Table 7

Table 7: An Improved Transformer-Based Neural Machine Translation Strategy: Interacting-Head Attention