Hierarchical Self-Attention Hybrid Sparse Networks for Document Classification

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr class="thead"><td class="align_left">Sparse sentence encoder parameter</td><td class="align_center">Setting</td></tr><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr><td class="align_left">Dropout rate</td><td class="align_center">0.1</td></tr><tr><td class="align_left">RNN output size</td><td class="align_center">50</td></tr><tr><td class="align_left">Activate function</td><td class="align_center">ReLU</td></tr><tr><td class="align_left">Self-attention output size</td><td class="align_center">100</td></tr><tr><td class="align_left">Kernel regularizer</td><td class="align_center">L2</td></tr><tr class="table-tr"><td colspan="2"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Sparse sentence encoder setting.</div>

Mathematical Problems in Engineering

tab3

Table 3

Table 3: Hierarchical Self-Attention Hybrid Sparse Networks for Document Classification