Hierarchical Self-Attention Hybrid Sparse Networks for Document Classification

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr class="thead"><td class="align_left">Sparse word encoder parameter</td><td class="align_center">Setting</td></tr><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr><td class="align_left">Dropout rate</td><td class="align_center">0.1</td></tr><tr><td class="align_left">RNN output size</td><td class="align_center">50</td></tr><tr><td class="align_left">Activate function</td><td class="align_center">ReLU</td></tr><tr><td class="align_left">Self-attention output size</td><td class="align_center">100</td></tr><tr class="table-tr"><td colspan="2"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

Mathematical Problems in Engineering

tab2

Table 2

Table 2: Hierarchical Self-Attention Hybrid Sparse Networks for Document Classification