Deep Learning-Based Amplitude Fusion for Speech Dereverberation

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr class="thead"><td class="align_left">Method</td><td class="align_center">Basic principle</td></tr><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr><td class="align_left">TDR</td><td class="align_center">Time-domain signal reconstruction. This paper uses IAM-based TDR, and also clean speech phase is used to recover the time-domain signal [<a href="/journals/ddns/2020/4618317/#B46" target="_blank">46</a>–<a href="/journals/ddns/2020/4618317/#B48" target="_blank">48</a>].</td></tr><tr><td class="align_left">I_IRM</td><td class="align_center">Indirect mapping of IRM, which was proposed in [<a href="/journals/ddns/2020/4618317/#B23" target="_blank">23</a>] to learn the IRM target via MSE between the masked and reference clean LMS.</td></tr><tr><td class="align_left">IAM_A</td><td class="align_center">In this method, the DNN estimates a IAM mask that is applied over the corrupted speech amplitude and the loss function is created between masked amplitude and the clean speech amplitude [<a href="/journals/ddns/2020/4618317/#B49" target="_blank">49</a>, <a href="/journals/ddns/2020/4618317/#B50" target="_blank">50</a>].</td></tr><tr><td class="align_left">DCC_A</td><td class="align_center">This method is similar to IAM_A, except that IAM mask is replaced with DCC mask.</td></tr><tr class="table-tr"><td colspan="2"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Description of some important methods derived from masking.</div>

Discrete Dynamics in Nature and Society

tab3

Table 3

Table 3: Deep Learning-Based Amplitude Fusion for Speech Dereverberation