An Efficient Multi-Core SIMD Implementation for H.264/AVC Encoder

<table><tr><td><table class="algorithm" id="alg2"><tr><td colspan="2"><span style="font-family:monospace">uint32 AddressAt128;                                                  </span></td></tr><tr><td colspan="2"><span style="font-family:monospace">vector_16b_sw Va, Vb, Vout;                                             </span></td></tr><tr><td colspan="2"></td></tr><tr><td colspan="2"><span style="font-family:monospace">AddressAt128b = ((uint32) (mref_ptr)) &amp; (~0xF);</span></td></tr><tr><td colspan="2"><span style="font-family:monospace">Offset = ((uint32) (mref_ptr)) &amp; (0xF);</span></td></tr><tr><td colspan="2"><span style="font-family:monospace">Va = ldq(AddressAt128,  0);</span></td></tr><tr><td colspan="2"><span style="font-family:monospace">Vb = ldq(AddressAt128, 16);</span></td></tr><tr><td colspan="2"><span style="font-family:monospace">Vout = wrot(Va, Vb, Offset);</span></td></tr></table></td></tr></table>

Unaligned load SIMD implementation with concatenate instruction.

VLSI Design

alg2

Algorithm 2

Algorithm 2: An Efficient Multi-Core SIMD Implementation for H.264/AVC Encoder