An Efficient Multi-Core SIMD Implementation for H.264/AVC Encoder

<table><tr><td><table class="algorithm" id="alg3"><tr><td colspan="2">ui32_t PackCurr0 = *(orig_line);</td></tr><tr><td colspan="2">ui32_t PackCurr1 = *(orig_line+1);</td></tr><tr><td colspan="2">/* Pack to 128 bits */</td></tr><tr><td colspan="2">TmpVectArray[0] = PackCurr0;</td></tr><tr><td colspan="2">TmpVectArray[1] = PackCurr1;</td></tr><tr><td colspan="2">Pack128In = ldqi(Pack128In, TmpVectArray,0);</td></tr><tr><td colspan="2">/* Reorganize pixels */</td></tr><tr><td colspan="2">Va = vmrgbeh(Va,Pack128In,VZero,permute0);</td></tr><tr><td colspan="2">Vb = vmrgboh(Vb,Pack128In,VZero, permute1);</td></tr><tr><td colspan="2">VPackCurr = vaddh(VPackCurr,Va,Vb,0);</td></tr></table></td></tr></table>

Unaligned load SIMD implementation without concatenate instruction.

VLSI Design

alg3

Algorithm 3

Algorithm 3: An Efficient Multi-Core SIMD Implementation for H.264/AVC Encoder