An Improved Transformer-Based Neural Machine Translation Strategy: Interacting-Head Attention

<table class="table-group" id="tab8"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Model</td><td class="align_center" colspan="6">Number of heads/head size</td></tr><tr class="thead"><td class="align_center">2/256</td><td class="align_center">4/128</td><td class="align_center">8/64</td><td class="align_center">16/32</td><td class="align_center">32/16</td><td class="align_center">64/8</td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td class="align_left">Multihead attention</td><td class="align_center">1 h</td><td class="align_center">1 h 5 m</td><td class="align_center">1 h 8 m</td><td class="align_center">1 h 10 m</td><td class="align_center">1 h 15 m</td><td class="align_center">1 h 30 m</td></tr><tr><td class="align_left">Multihead attention (head size = <i>n</i>)</td><td class="align_center">50 m</td><td class="align_center">53 m</td><td class="align_center">57 m</td><td class="align_center">1 h 3 m</td><td class="align_center">1 h 15 m</td><td class="align_center">1 h 50 m</td></tr><tr><td class="align_left">Talking-head attention</td><td class="align_center">58 m</td><td class="align_center">59 m</td><td class="align_center">1 h</td><td class="align_center">1 h 5 m</td><td class="align_center">1 h 10 m</td><td class="align_center">1 h 30 m</td></tr><tr><td class="align_left">Interacting-head attention</td><td class="align_center">53 m</td><td class="align_center">58 m</td><td class="align_center">1 h 13 m</td><td class="align_center">1 h 50 m</td><td class="align_center">—</td><td class="align_center">—</td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div><i>Note.</i> The units of h, m, and s stand for hour, minute, and second, respectively.<br/></div></td></tr></table>

<div>Training time on the WMT17 EN-CS training dataset.</div>

Computational Intelligence and Neuroscience

tab8

Table 8

Table 8: An Improved Transformer-Based Neural Machine Translation Strategy: Interacting-Head Attention