Effective SIMD Vectorization for Intel Xeon Phi Coprocessors

<table class="algorithm-group"><tr><td><table class="algorithm" id="pseudo1"><tr><td colspan="2"><span style="font-family:monospace">m</span><span style="font-family:monospace">isalign = &amp;y</span><svg height="11.4781pt" id="M15" style="vertical-align:-2.18977pt" version="1.1" viewbox="-0.0498162 -9.28833 4.77108 11.4781" width="4.77108pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M297 -163V-131C189 -122 187 -119 187 -41V582C187 660 190 663 297 672V704H122V-163H297Z" id="g50-92"></path><glyph.data ascent="3443" descent="-2856" horiz-adv-x="358" vert-adv-y="358"></glyph.data></g></svg><span style="font-family:monospace">0</span><svg height="11.4781pt" id="M16" style="vertical-align:-2.18977pt" version="1.1" viewbox="-0.0498162 -9.28833 4.77108 11.4781" width="4.77108pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M237 -163V704H62V672C170 663 172 660 172 582V-40C172 -118 170 -122 62 -131V-163H237Z" id="g50-94"></path><glyph.data ascent="3443" descent="-2856" horiz-adv-x="358" vert-adv-y="358"></glyph.data></g></svg><span style="font-family:monospace">  </span><span style="font-family:monospace">&amp; 63</span></td></tr><tr><td colspan="2"><span style="font-family:monospace">peeledTripCount = (63 </span><svg height="3.39444pt" id="M17" style="vertical-align:-0.04981995pt" version="1.1" viewbox="-0.0498162 -3.34462 6.88499 3.39444" width="6.88499pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M469 201V252H50V201H469Z" id="g190-178"></path><glyph.data ascent="989" descent="-360" horiz-adv-x="520" vert-adv-y="520"></glyph.data></g></svg><span style="font-family:monospace">  </span><span style="font-family:monospace">misalign)/sizeof(float)</span></td></tr><tr><td colspan="2"><span style="font-family:monospace">x = 10.0f;</span></td></tr><tr><td colspan="2"><span style="font-family:monospace">do k0 = 0, peeledTripCount-1</span><span style="font-family:monospace"> </span><span style="font-family:monospace">// peeling loop </span></td></tr><tr><td colspan="2"><span style="font-family:monospace"> </span><span style="font-family:monospace"><i> </i></span><span style="font-family:monospace">x = x + fsqrt(y</span><svg height="11.4781pt" id="M18" style="vertical-align:-2.18977pt" version="1.1" viewbox="-0.0498162 -9.28833 4.77108 11.4781" width="4.77108pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M297 -163V-131C189 -122 187 -119 187 -41V582C187 660 190 663 297 672V704H122V-163H297Z" id="g50-92"></path><glyph.data ascent="3443" descent="-2856" horiz-adv-x="358" vert-adv-y="358"></glyph.data></g></svg><span style="font-family:monospace">k0</span><svg height="11.4781pt" id="M19" style="vertical-align:-2.18977pt" version="1.1" viewbox="-0.0498162 -9.28833 4.77108 11.4781" width="4.77108pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M237 -163V704H62V672C170 663 172 660 172 582V-40C172 -118 170 -122 62 -131V-163H237Z" id="g50-94"></path><glyph.data ascent="3443" descent="-2856" horiz-adv-x="358" vert-adv-y="358"></glyph.data></g></svg><span style="font-family:monospace">)    </span></td></tr><tr><td colspan="2"><span style="font-family:monospace">enddo</span></td></tr><tr><td colspan="2"><span style="font-family:monospace">x1_v512 = (m512)0</span></td></tr><tr><td colspan="2"><span style="font-family:monospace">x2_v512 = (m512)0</span></td></tr><tr><td colspan="2"><span style="font-family:monospace">mainTripCount = n </span><svg height="3.39444pt" id="M20" style="vertical-align:-0.04981995pt" version="1.1" viewbox="-0.0498162 -3.34462 6.88499 3.39444" width="6.88499pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M469 201V252H50V201H469Z" id="g190-178"></path><glyph.data ascent="989" descent="-360" horiz-adv-x="520" vert-adv-y="520"></glyph.data></g></svg><span style="font-family:monospace">  </span><span style="font-family:monospace">((n </span><svg height="3.39444pt" id="M21" style="vertical-align:-0.04981995pt" version="1.1" viewbox="-0.0498162 -3.34462 6.88499 3.39444" width="6.88499pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M469 201V252H50V201H469Z" id="g190-178"></path><glyph.data ascent="989" descent="-360" horiz-adv-x="520" vert-adv-y="520"></glyph.data></g></svg><span style="font-family:monospace">  </span><span style="font-family:monospace">peeledTripCount) &amp; 31)</span></td></tr><tr><td colspan="2"><span style="font-family:monospace">do k1 = peeledTripCount, mainTripCount-1, 32</span></td></tr><tr><td colspan="2"><span style="font-family:monospace"> </span><span style="font-family:monospace">x1_v512 = _mm512_add_ps(_mm512_fsqrt(y</span><svg height="11.4781pt" id="M22" style="vertical-align:-2.18977pt" version="1.1" viewbox="-0.0498162 -9.28833 4.77108 11.4781" width="4.77108pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M297 -163V-131C189 -122 187 -119 187 -41V582C187 660 190 663 297 672V704H122V-163H297Z" id="g50-92"></path><glyph.data ascent="3443" descent="-2856" horiz-adv-x="358" vert-adv-y="358"></glyph.data></g></svg><span style="font-family:monospace">k1:16</span><svg height="11.4781pt" id="M23" style="vertical-align:-2.18977pt" version="1.1" viewbox="-0.0498162 -9.28833 4.77108 11.4781" width="4.77108pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M237 -163V704H62V672C170 663 172 660 172 582V-40C172 -118 170 -122 62 -131V-163H237Z" id="g50-94"></path><glyph.data ascent="3443" descent="-2856" horiz-adv-x="358" vert-adv-y="358"></glyph.data></g></svg><span style="font-family:monospace">),x1_v512)</span></td></tr><tr><td colspan="2"><span style="font-family:monospace"> </span><span style="font-family:monospace">x2_v512 = _mm512_add_ps(_mm512_fsqrt(y</span><svg height="11.4781pt" id="M24" style="vertical-align:-2.18977pt" version="1.1" viewbox="-0.0498162 -9.28833 4.77108 11.4781" width="4.77108pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M297 -163V-131C189 -122 187 -119 187 -41V582C187 660 190 663 297 672V704H122V-163H297Z" id="g50-92"></path><glyph.data ascent="3443" descent="-2856" horiz-adv-x="358" vert-adv-y="358"></glyph.data></g></svg><span style="font-family:monospace">k1+16:16</span><svg height="11.4781pt" id="M25" style="vertical-align:-2.18977pt" version="1.1" viewbox="-0.0498162 -9.28833 4.77108 11.4781" width="4.77108pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M237 -163V704H62V672C170 663 172 660 172 582V-40C172 -118 170 -122 62 -131V-163H237Z" id="g50-94"></path><glyph.data ascent="3443" descent="-2856" horiz-adv-x="358" vert-adv-y="358"></glyph.data></g></svg><span style="font-family:monospace">), x2_v512)</span></td></tr><tr><td colspan="2"><span style="font-family:monospace">enddo </span></td></tr><tr><td colspan="2"><span style="font-family:monospace">// perform vector add on two vector x1_v512 and x2_v512</span></td></tr><tr><td colspan="2"><span style="font-family:monospace">x1_v512 = _mm512_add_ps(x1_v512, x2_512); </span></td></tr><tr><td colspan="2"><span style="font-family:monospace">// perform horizontal add on all elements of x1_v512, and</span></td></tr><tr><td colspan="2"><span style="font-family:monospace">// the add x for using its value in the remainder loop  </span></td></tr><tr><td colspan="2"><span style="font-family:monospace">x = x + _mm512_hadd_ps(x1_512)</span></td></tr><tr><td colspan="2"><span style="font-family:monospace">do k2 = mainTripCount, n</span><span style="font-family:monospace"><i> </i></span><span style="font-family:monospace">// Remainder loop </span></td></tr><tr><td colspan="2"><span style="font-family:monospace"> </span><span style="font-family:monospace"><i> </i></span><span style="font-family:monospace">x = x + fsqrt(y</span><svg height="11.4781pt" id="M26" style="vertical-align:-2.18977pt" version="1.1" viewbox="-0.0498162 -9.28833 4.77108 11.4781" width="4.77108pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M297 -163V-131C189 -122 187 -119 187 -41V582C187 660 190 663 297 672V704H122V-163H297Z" id="g50-92"></path><glyph.data ascent="3443" descent="-2856" horiz-adv-x="358" vert-adv-y="358"></glyph.data></g></svg><span style="font-family:monospace">k2</span><svg height="11.4781pt" id="M27" style="vertical-align:-2.18977pt" version="1.1" viewbox="-0.0498162 -9.28833 4.77108 11.4781" width="4.77108pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M237 -163V704H62V672C170 663 172 660 172 582V-40C172 -118 170 -122 62 -131V-163H237Z" id="g50-94"></path><glyph.data ascent="3443" descent="-2856" horiz-adv-x="358" vert-adv-y="358"></glyph.data></g></svg><span style="font-family:monospace">)    </span></td></tr><tr><td colspan="2"><span style="font-family:monospace">enddo</span></td></tr></table></td></tr></table>

<div>Pseudocode without vectorizing “less-than-full-vector” loops.</div>

Scientific Programming

psdc1

Pseudocode 1

Pseudocode 1: Effective SIMD Vectorization for Intel Xeon Phi Coprocessors