An Improved Transformer-Based Neural Machine Translation Strategy: Interacting-Head Attention

<div>Training time of each epoch of four models on the IWSLT16 DE-EN dataset.</div>

Computational Intelligence and Neuroscience

Figure 4: An Improved Transformer-Based Neural Machine Translation Strategy: Interacting-Head Attention