An Improved Transformer-Based Neural Machine Translation Strategy: Interacting-Head Attention

<div>Training time of each epoch of four models on the WMT17 EN-DE dataset.</div>

Computational Intelligence and Neuroscience

Figure 5: An Improved Transformer-Based Neural Machine Translation Strategy: Interacting-Head Attention