Efficient Parallel Implementation of Matrix Multiplication for Lattice-Based Cryptography on Modern ARM Processor

<table class="fixed-width table-group" id="tab2"><tr><td><table class="table"><colgroup><col style="width:2.72em"/><col style="width:3.04em"/><col style="width:2.72em"/><col style="width:10.00em"/><col style="width:9.46em"/></colgroup><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2"><b>N</b></td><td class="align_center" rowspan="2"><b>M</b></td><td class="align_center" rowspan="2"><b>L</b></td><td class="align_center"><b>C version </b></td><td class="align_center" rowspan="2"><b>Proposed (NEON)</b></td></tr><tr class="thead"><td class="align_center"><b>(Auto-Vectorization)</b></td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left">536</td><td class="align_center">1024</td><td class="align_center">256</td><td class="align_center">364.2304</td><td class="align_center">0.446443</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left">663</td><td class="align_center">1024</td><td class="align_center">256</td><td class="align_center">630.0066</td><td class="align_center">0.707373</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left">816</td><td class="align_center">1024</td><td class="align_center">384</td><td class="align_center">970.4782</td><td class="align_center">1.78282</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left">952</td><td class="align_center">1024</td><td class="align_center">384</td><td class="align_center">1172.607</td><td class="align_center">2.078113</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Matrix transpose performance (Unit: ms).</div>

Security and Communication Networks

tab2

Table 2

Table 2: Efficient Parallel Implementation of Matrix Multiplication for Lattice-Based Cryptography on Modern ARM Processor