An Improved Transformer-Based Neural Machine Translation Strategy: Interacting-Head Attention

<div>Training time of each epoch of four models on WMT17 EN-CS dataset.</div>

Computational Intelligence and Neuroscience

Figure 6: An Improved Transformer-Based Neural Machine Translation Strategy: Interacting-Head Attention