Using Morphological Data in Language Modeling for Serbian Large Vocabulary Speech Recognition

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td class="align_left">Corpus part</td><td class="align_center">#Sentences</td><td class="align_center">#Words</td><td class="align_center">#Characters</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left">Journalistic</td><td class="align_center">737k</td><td class="align_center">17M</td><td class="align_center">94M</td></tr><tr><td class="align_left">Literary</td><td class="align_center">303k</td><td class="align_center">3.9M</td><td class="align_center">18M</td></tr><tr><td class="align_left">Scientific</td><td class="align_center">23k</td><td class="align_center">503k</td><td class="align_center">3M</td></tr><tr><td class="align_left">Administrative</td><td class="align_center">15k</td><td class="align_center">378k</td><td class="align_center">2M</td></tr><tr><td class="align_left">Popular-scientific</td><td class="align_center">18k</td><td class="align_center">357k</td><td class="align_center">2M</td></tr><tr><td class="align_left">Conversational</td><td class="align_center">38k</td><td class="align_center">128k</td><td class="align_center">530k</td></tr><tr><td class="align_left">Transcriptions</td><td class="align_center">251k</td><td class="align_center">3.2M</td><td class="align_center">15M</td></tr><tr><td class="align_left" colspan="4"><hr/></td></tr><tr><td class="align_left">Total</td><td class="align_center">1.4M</td><td class="align_center">26M</td><td class="align_center">135M</td></tr><tr><td class="align_left">“Dev” set</td><td class="align_center">20k</td><td class="align_center">470k</td><td class="align_center">2.6M</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

Computational Intelligence and Neuroscience

tab3

Table 3

Table 3: Using Morphological Data in Language Modeling for Serbian Large Vocabulary Speech Recognition