The Case for Higher Computational Density in the Memory-Bound FDTD Method within Multicore Environments

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr class="thead"><td align="left"><span style="width: 87.987503px;"><svg height="18.362499" id="M24" style="vertical-align:-5.76984pt" version="1.1" viewbox="0 0 87.987503 18.362499" width="87.987503" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,0,0,-.017,.062,11.113)"><path d="M594 511q0 -122 -171 -157l1 -2q158 -33 158 -159q0 -52 -34.5 -95t-90.5 -65q-76 -33 -217 -33h-223l8 28q63 5 79.5 19t26.5 72l83 426q9 48 -2.5 60t-77.5 17l6 28h259q195 0 195 -139zM499 509q0 59 -37 83t-91 24q-36 0 -51 -9q-17 -9 -22 -44l-35 -195h62
q82 0 128 37t46 104zM481 199q0 71 -48 102.5t-121 31.5h-56l-37 -201q-11 -58 7.5 -77t80.5 -19q76 0 125 44.5t49 118.5z" id="x1D435"></path></g>
<g transform="matrix(.012,0,0,-.012,10.55,15.188)"><path d="M536 404q0 -17 -13.5 -31.5t-26.5 -14.5q-8 0 -15 10q-11 14 -25 14q-22 0 -67 -50q-47 -52 -68 -82l37 -102q31 -88 55 -88t78 59l16 -23q-32 -48 -68.5 -78t-65.5 -30q-19 0 -37.5 20t-29.5 53l-41 116q-72 -106 -114.5 -147.5t-79.5 -41.5q-21 0 -34.5 14t-13.5 37
q0 16 13.5 31.5t28.5 15.5q12 0 17 -11q5 -10 25 -10q22 0 57.5 36t89.5 111l-40 108q-22 58 -36 58q-21 0 -67 -57l-19 20q81 107 125 107q17 0 30 -22t39 -88l22 -55q68 92 108.5 128.5t74.5 36.5q20 0 32.5 -14t12.5 -30z" id="x1D465"></path></g>
<g transform="matrix(.017,0,0,-.017,21.6,11.113)"><path d="M528 54l-36 -38l-198 201l-198 -201l-36 38l197 200l-197 201l36 38l198 -202l198 202l36 -38l-197 -201z" id="xD7"></path></g><g transform="matrix(.017,0,0,-.017,35.352,11.113)"><path d="M594 511q0 -122 -171 -157l1 -2q158 -33 158 -159q0 -52 -34.5 -95t-90.5 -65q-76 -33 -217 -33h-223l8 28q63 5 79.5 19t26.5 72l83 426q9 48 -2.5 60t-77.5 17l6 28h259q195 0 195 -139zM499 509q0 59 -37 83t-91 24q-36 0 -51 -9q-17 -9 -22 -44l-35 -195h62
q82 0 128 37t46 104zM481 199q0 71 -48 102.5t-121 31.5h-56l-37 -201q-11 -58 7.5 -77t80.5 -19q76 0 125 44.5t49 118.5z" id="x1D435"></path></g>
<g transform="matrix(.012,0,0,-.012,45.85,15.188)"><path d="M556 393q0 -39 -36 -106q-42 -78 -185 -279q-47 -66 -81 -108t-117 -135l-112 -26l-8 22q150 90 251 219q-6 136 -39 340q-8 53 -21 53q-6 0 -27 -19.5t-38 -42.5l-16 26q80 111 127 111q23 0 35 -28t20 -90q18 -137 27 -263h2q142 200 142 279q0 24 -14 48q-4 7 5 26
q13 28 43 28q18 0 30 -15.5t12 -39.5z" id="x1D466"></path></g>
<g transform="matrix(.017,0,0,-.017,57.138,11.113)"><path d="M528 54l-36 -38l-198 201l-198 -201l-36 38l197 200l-197 201l36 38l198 -202l198 202l36 -38l-197 -201z" id="xD7"></path></g><g transform="matrix(.017,0,0,-.017,70.889,11.113)"><path d="M594 511q0 -122 -171 -157l1 -2q158 -33 158 -159q0 -52 -34.5 -95t-90.5 -65q-76 -33 -217 -33h-223l8 28q63 5 79.5 19t26.5 72l83 426q9 48 -2.5 60t-77.5 17l6 28h259q195 0 195 -139zM499 509q0 59 -37 83t-91 24q-36 0 -51 -9q-17 -9 -22 -44l-35 -195h62
q82 0 128 37t46 104zM481 199q0 71 -48 102.5t-121 31.5h-56l-37 -201q-11 -58 7.5 -77t80.5 -19q76 0 125 44.5t49 118.5z" id="x1D435"></path></g>
<g transform="matrix(.012,0,0,-.012,81.375,15.188)"><path d="M475 445l-64 -69q-119 -128 -289 -280q27 6 81 -15q66 -26 102 -26q48 0 111 93l23 -19q-41 -84 -75.5 -116.5t-73.5 -32.5q-37 0 -147 53q-43 21 -63 7q-22 -15 -38 -41q-4 -7 -11 -7q-8 10 -8 26q0 38 47 83l292 273q-32 -5 -67 -1q-63 7 -105 7q-32 0 -53.5 -22
t-47.5 -67l-25 13q15 39 38 78q40 66 83 66q57 0 120 -12q52 -10 80 -10q29 0 67 42z" id="x1D467"></path></g>
</svg></span></td><td align="center">MCells/s</td></tr><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr><td align="left">4 × 4 × 4</td><td align="center">177</td></tr><tr><td align="left">8 × 8 × 8</td><td align="center">221</td></tr><tr><td align="left">16 × 8 × 4</td><td align="center">301</td></tr><tr><td align="left">16 × 8 × 8</td><td align="center">249</td></tr><tr><td align="left">32 × 8 × 4</td><td align="center">350</td></tr><tr class="table-tr"><td colspan="2"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

GPU kernel throughput for the standard FDTD algorithm at several thread-block size configurations.

International Journal of Antennas and Propagation

tab2

Table 2

Table 2: The Case for Higher Computational Density in the Memory-Bound FDTD Method within Multicore Environments