Efficient Parallel Implementation of Matrix Multiplication for Lattice-Based Cryptography on Modern ARM Processor

<table class="fixed-width table-group" id="tab1"><tr><td><table class="table"><colgroup><col style="width:19.86em"/><col style="width:27.43em"/></colgroup><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr class="thead"><td class="align_left"><b>Operations</b></td><td class="align_center"><b>ARM NEON Intrinsic functions</b></td></tr><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr><td class="align_left"><b>Load</b></td><td class="align_center"><span width=""><i>uint16x8_t vld1q_u16(__transfersize(8) uint16_t const </i><svg height="6.01072pt" id="M18" style="vertical-align:-0.04980993pt" version="1.1" viewbox="-0.0498162 -5.96091 7.75925 6.01072" width="7.75925pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M471 153C471 170 463 194 452 212C400 220 373 229 322 255C373 281 400 290 452 298C463 316 471 339 471 357C456 366 431 371 410 370C377 329 356 310 308 279C311 336 317 364 336 413C326 432 310 451 294 459C279 451 262 432 252 413C271 364 277 336 280 279C232 310 211 329 178 370C157 371 132 367 117 357C117 340 125 316 136 298C188 290 215 281 266 255C215 229 188 220 136 212C125 194 117 171 117 153C132 144 157 139 178 140C211 181 232 200 280 231C277 174 271 146 252 97C262 78 278 59 294 51C309 59 326 78 336 97C317 146 311 174 308 231C356 200 377 181 410 140C431 139 456 143 471 153Z" id="g113-43"></path></g></svg><i> ptr);</i></span></td></tr><tr><td class="align_left" colspan="2"><hr/></td></tr><tr><td class="align_left"><b>Store</b></td><td class="align_center"><span width=""><i>void vst1q_u16(__transfersize(8) uint16_t</i><svg height="6.01072pt" id="M19" style="vertical-align:-0.04980993pt" version="1.1" viewbox="-0.0498162 -5.96091 7.75925 6.01072" width="7.75925pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M471 153C471 170 463 194 452 212C400 220 373 229 322 255C373 281 400 290 452 298C463 316 471 339 471 357C456 366 431 371 410 370C377 329 356 310 308 279C311 336 317 364 336 413C326 432 310 451 294 459C279 451 262 432 252 413C271 364 277 336 280 279C232 310 211 329 178 370C157 371 132 367 117 357C117 340 125 316 136 298C188 290 215 281 266 255C215 229 188 220 136 212C125 194 117 171 117 153C132 144 157 139 178 140C211 181 232 200 280 231C277 174 271 146 252 97C262 78 278 59 294 51C309 59 326 78 336 97C317 146 311 174 308 231C356 200 377 181 410 140C431 139 456 143 471 153Z" id="g113-43"></path></g></svg><i> ptr, uint16x8_t val);</i></span></td></tr><tr><td class="align_left" colspan="2"><hr/></td></tr><tr><td class="align_left"><b>Extracting lanes from a vector into a register</b></td><td class="align_center"><i>uint16_t vgetq_lane_u16(uint16x8_t vec, __constrange(0, 7) int lane);</i></td></tr><tr><td class="align_left" colspan="2"><hr/></td></tr><tr><td class="align_left"><b>Lane Broadcast</b></td><td class="align_center"><i>uint16x8_t vdupq_n_u16(uint16_t value);</i></td></tr><tr><td class="align_left" colspan="2"><hr/></td></tr><tr><td class="align_left"><b>Vector Interleave</b></td><td class="align_center"><i>uint16x8x2_t vzipq_u16(uint16x8_t a, uint16x8_t b);</i></td></tr><tr><td class="align_left" colspan="2"><hr/></td></tr><tr><td class="align_left"><b>Vector Multiply Accumulate</b></td><td class="align_center"><i>uint16x8_t vmlaq_u16(uint16x8_t a, uint16x8_t b, uint16x8_t c);</i></td></tr><tr class="table-tr"><td colspan="2"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>ARM NEON intrinsic functions for the proposed method.</div>

Security and Communication Networks

tab1

Table 1

Table 1: Efficient Parallel Implementation of Matrix Multiplication for Lattice-Based Cryptography on Modern ARM Processor