Recognition of the Script in Serbian Documents Using Frequency Occurrence and Co-Occurrence Analysis

<table class="table-group" id="tab6"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td align="left">Serbian language</td><td align="center">Latin </td><td align="center">Cyrillic</td><td align="center">Characterization</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td align="left">Uniformity (energy)</td><td align="center">0.2459</td><td align="center">0.3811</td><td align="center">Latin &lt; Cyrillic</td></tr><tr><td align="left">Entropy</td><td align="center">−1.6298</td><td align="center">−1.4363</td><td align="center">Latin &gt; Cyrillic</td></tr><tr><td align="left">Maximum probability</td><td align="center">0.3722</td><td align="center">0.5863</td><td align="center">Latin &lt; Cyrillic</td></tr><tr><td align="left">Dissimilarity</td><td align="center">0.7356</td><td align="center">0.6669</td><td align="center">Latin &gt; Cyrillic</td></tr><tr><td align="left">Contrast</td><td align="center">1.0423</td><td align="center">1.2660</td><td align="center">Latin &lt; Cyrillic</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td>From the above results, it is clear that co-occurrence descriptors can fully characterize the difference between Latin and Cyrillic script. This means that frequency analysis of the occurrence can be supplemented with additional attributes in order to define a strong margin as a criterion to distinguish a certain script.<br/></td></tr></table>

Cooccurrence descriptors for Latin and Cyrillic cipher text.

The Scientific World Journal

tab6

Table 6

Table 6: Recognition of the Script in Serbian Documents Using Frequency Occurrence and Co-Occurrence Analysis