Utterance Clustering Using Stereo Audio Channels

<div>t-SNE visualization for seven speakers’ feature vectors in the condition in which audio contains overlapping. Different colors represent different speakers. (a) t-SNE visualization of <i>d</i>-vectors’ clusters for speakers’ mono signals, (b) t-SNE visualization of <i>d</i>-vectors’ clusters for speakers’ mstack processed signals, (c) t-SNE visualization of <i>d</i>-vectors’ clusters for speakers’ hstack processed signals, and (d) t-SNE visualization of <i>d</i>-vectors’ clusters for speakers’ sumdif processed signals.</div>

Computational Intelligence and Neuroscience

Utterance Clustering Using Stereo Audio Channels

Figure 2