Sound Classification Based on Multihead Attention and Support Vector Machine

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td class="align_left">Feature</td><td class="align_center">Head (#)</td><td class="align_center">L (#)</td><td class="align_center">MhaNN accu. (%)</td><td class="align_center">MhaNN-SVM accu. (%)</td><td class="align_center">MhaNN-LR accu. (%)</td><td class="align_center">MhaNN-KNN accu. (%)</td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td class="align_left" rowspan="9"><i>Feature</i> 1</td><td class="align_center" rowspan="3">2</td><td class="align_center">1</td><td class="align_center">91.6</td><td class="align_center">92.1</td><td class="align_center">92.3</td><td class="align_center">91.5</td></tr><tr><td class="align_center">2</td><td class="align_center">92.2</td><td class="align_center">93.3</td><td class="align_center">93.0</td><td class="align_center">92.9</td></tr><tr><td class="align_center">3</td><td class="align_center">91.6</td><td class="align_center">93.3</td><td class="align_center">91.7</td><td class="align_center">92.2</td></tr><tr><td class="align_center" rowspan="3">4</td><td class="align_center">1</td><td class="align_center">91.8</td><td class="align_center">92.7</td><td class="align_center">91.6</td><td class="align_center">92.1</td></tr><tr><td class="align_center">2</td><td class="align_center">92.1</td><td class="align_center">93.6</td><td class="align_center">92.8</td><td class="align_center">93.2</td></tr><tr><td class="align_center">3</td><td class="align_center">92.1</td><td class="align_center">94.6</td><td class="align_center">92.3</td><td class="align_center">93.0</td></tr><tr><td class="align_center" rowspan="3">8</td><td class="align_center">1</td><td class="align_center">91.4</td><td class="align_center">93.2</td><td class="align_center">91.0</td><td class="align_center">92.9</td></tr><tr><td class="align_center">2</td><td class="align_center">90.9</td><td class="align_center">92.1</td><td class="align_center">91.7</td><td class="align_center">91.0</td></tr><tr><td class="align_center">3</td><td class="align_center">90.5</td><td class="align_center">91.0</td><td class="align_center">90.8</td><td class="align_center">91.2</td></tr><tr><td class="align_left" colspan="7"><hr/></td></tr><tr><td class="align_left" rowspan="6"><i>Feature</i> 2</td><td class="align_center" rowspan="3">2</td><td class="align_center">1</td><td class="align_center">83.7</td><td class="align_center">84.8</td><td class="align_center">86.1</td><td class="align_center">85.2</td></tr><tr><td class="align_center">2</td><td class="align_center">89.1</td><td class="align_center">90.3</td><td class="align_center">87.8</td><td class="align_center">88.1</td></tr><tr><td class="align_center">3</td><td class="align_center">86.2</td><td class="align_center">87.4</td><td class="align_center">86.1</td><td class="align_center">86.8</td></tr><tr><td class="align_center" rowspan="3">4</td><td class="align_center">1</td><td class="align_center">85.5</td><td class="align_center">86.7</td><td class="align_center">85.9</td><td class="align_center">85.1</td></tr><tr><td class="align_center">2</td><td class="align_center">87.1</td><td class="align_center">89.7</td><td class="align_center">87.2</td><td class="align_center">88.4</td></tr><tr><td class="align_center">3</td><td class="align_center">83.0</td><td class="align_center">84.1</td><td class="align_center">82.7</td><td class="align_center">83.0</td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Classification accuracy on UrbanSound8K compared across different numbers of heads and layers with Feature 1 and Feature 2 individually.</div>

Mathematical Problems in Engineering

tab2

Table 2

Table 2: Sound Classification Based on Multihead Attention and Support Vector Machine