Sound Classification Based on Multihead Attention and Support Vector Machine

<table class="table-group" id="tab5"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td class="align_left">Feature</td><td class="align_center">Head (#)</td><td class="align_center">L (#)</td><td class="align_center">MhaNN accu. (%)</td><td class="align_center">MhaNN-SVM accu. (%)</td><td class="align_center">MhaNN-LR accu. (%)</td><td class="align_center">MhaNN-KNN accu. (%)</td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td class="align_left" rowspan="9"><i>Feature</i> 1</td><td class="align_center" rowspan="3">2</td><td class="align_center">1</td><td class="align_center">81.8</td><td class="align_center">82.9</td><td class="align_center">81.6</td><td class="align_center">82.2</td></tr><tr><td class="align_center">2</td><td class="align_center">82.9</td><td class="align_center">84.0</td><td class="align_center">81.3</td><td class="align_center">83.4</td></tr><tr><td class="align_center">3</td><td class="align_center">81.2</td><td class="align_center">81.7</td><td class="align_center">79.2</td><td class="align_center">82.0</td></tr><tr><td class="align_center" rowspan="3">4</td><td class="align_center">1</td><td class="align_center">82.3</td><td class="align_center">83.1</td><td class="align_center">82.0</td><td class="align_center">83.3</td></tr><tr><td class="align_center">2</td><td class="align_center">85.4</td><td class="align_center">88.4</td><td class="align_center">84.7</td><td class="align_center">86.7</td></tr><tr><td class="align_center">3</td><td class="align_center">84.2</td><td class="align_center">86.1</td><td class="align_center">85.5</td><td class="align_center">84.8</td></tr><tr><td class="align_center" rowspan="3">8</td><td class="align_center">1</td><td class="align_center">82.7</td><td class="align_center">84.8</td><td class="align_center">82.7</td><td class="align_center">83.1</td></tr><tr><td class="align_center">2</td><td class="align_center">83.6</td><td class="align_center">85.1</td><td class="align_center">83.3</td><td class="align_center">84.1</td></tr><tr><td class="align_center">3</td><td class="align_center">81.2</td><td class="align_center">83.2</td><td class="align_center">78.7</td><td class="align_center">80.1</td></tr><tr><td class="align_left" colspan="7"><hr/></td></tr><tr><td class="align_left" rowspan="6"><i>Feature</i> 2</td><td class="align_center" rowspan="3">2</td><td class="align_center">1</td><td class="align_center">70.1</td><td class="align_center">72.2</td><td class="align_center">70.3</td><td class="align_center">72.0</td></tr><tr><td class="align_center">2</td><td class="align_center">76.5</td><td class="align_center">78.7</td><td class="align_center">77.0</td><td class="align_center">74.8</td></tr><tr><td class="align_center">3</td><td class="align_center">72.5</td><td class="align_center">74.6</td><td class="align_center">70.8</td><td class="align_center">72.2</td></tr><tr><td class="align_center" rowspan="3">4</td><td class="align_center">1</td><td class="align_center">71.0</td><td class="align_center">73.3</td><td class="align_center">72.7</td><td class="align_center">70.9</td></tr><tr><td class="align_center">2</td><td class="align_center">75.1</td><td class="align_center">78.0</td><td class="align_center">76.2</td><td class="align_center">75.8</td></tr><tr><td class="align_center">3</td><td class="align_center">73.7</td><td class="align_center">75.3</td><td class="align_center">73.6</td><td class="align_center">72.1</td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Classification accuracy on GTZAN compared across different numbers of heads and layers with Feature 1 and Feature 2 individually.</div>

Mathematical Problems in Engineering

tab5

Table 5

Table 5: Sound Classification Based on Multihead Attention and Support Vector Machine