A Low-Power Scalable Stream Compute Accelerator for General Matrix Multiply (GEMM)

<table><tr><td><table class="algorithm" id="alg1"><tr><td colspan="2">divide <svg height="11.175" id="M22" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 13.5875 11.175" width="13.5875" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M775 650l-6 -28q-60 -6 -81.5 -16t-61.5 -54l-175 -191l125 -243q30 -58 48.5 -71t82.5 -19l-5 -28h-275l7 28l35 4q31 4 37 12t-6 34l-108 216q-140 -165 -177 -219q-16 -22 -10.5 -30.5t41.5 -13.5l22 -3l-7 -28h-244l8 28q52 4 75 15.5t67 52.5q48 46 206 231
l-110 215q-26 51 -44 63t-72 17l6 28h250l-6 -28l-27 -4q-30 -5 -35 -10t3 -27q17 -43 95 -190q70 78 154 185q15 21 10 29.5t-33 12.5l-30 4l5 28h236z" id="x1D44B"></path></g>
</svg> and <svg height="11.175" id="M23" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 11.6625 11.175" width="11.6625" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M667 650l-9 -28q-53 -5 -76 -17t-64 -59q-51 -61 -175 -225q-21 -29 -27 -55l-27 -136q-13 -65 -0.5 -80t83.5 -22l-7 -28h-280l8 28q64 4 81 19t30 83l25 128q6 35 -7 65l-98 231q-17 41 -32.5 52t-68.5 16l8 28h252l-6 -28l-40 -4q-27 -3 -33 -12.5t2 -31.5
q8 -26 43 -107.5t61 -134.5q114 145 174 240q14 24 8 33t-37 13l-34 4l8 28h238z" id="x1D44C"></path></g>
</svg> into blocks <svg height="11.175" id="M24" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 13.5875 11.175" width="13.5875" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M775 650l-6 -28q-60 -6 -81.5 -16t-61.5 -54l-175 -191l125 -243q30 -58 48.5 -71t82.5 -19l-5 -28h-275l7 28l35 4q31 4 37 12t-6 34l-108 216q-140 -165 -177 -219q-16 -22 -10.5 -30.5t41.5 -13.5l22 -3l-7 -28h-244l8 28q52 4 75 15.5t67 52.5q48 46 206 231
l-110 215q-26 51 -44 63t-72 17l6 28h250l-6 -28l-27 -4q-30 -5 -35 -10t3 -27q17 -43 95 -190q70 78 154 185q15 21 10 29.5t-33 12.5l-30 4l5 28h236z" id="x1D44B"></path></g>
</svg>′ and <svg height="11.175" id="M25" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 11.6625 11.175" width="11.6625" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M667 650l-9 -28q-53 -5 -76 -17t-64 -59q-51 -61 -175 -225q-21 -29 -27 -55l-27 -136q-13 -65 -0.5 -80t83.5 -22l-7 -28h-280l8 28q64 4 81 19t30 83l25 128q6 35 -7 65l-98 231q-17 41 -32.5 52t-68.5 16l8 28h252l-6 -28l-40 -4q-27 -3 -33 -12.5t2 -31.5
q8 -26 43 -107.5t61 -134.5q114 145 174 240q14 24 8 33t-37 13l-34 4l8 28h238z" id="x1D44C"></path></g>
</svg>′ of size (PE × cache depth);</td></tr><tr><td colspan="2"><b>For</b>  <i>each block of  </i><svg height="11.175" id="M26" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 13.5875 11.175" width="13.5875" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M775 650l-6 -28q-60 -6 -81.5 -16t-61.5 -54l-175 -191l125 -243q30 -58 48.5 -71t82.5 -19l-5 -28h-275l7 28l35 4q31 4 37 12t-6 34l-108 216q-140 -165 -177 -219q-16 -22 -10.5 -30.5t41.5 -13.5l22 -3l-7 -28h-244l8 28q52 4 75 15.5t67 52.5q48 46 206 231
l-110 215q-26 51 -44 63t-72 17l6 28h250l-6 -28l-27 -4q-30 -5 -35 -10t3 -27q17 -43 95 -190q70 78 154 185q15 21 10 29.5t-33 12.5l-30 4l5 28h236z" id="x1D44B"></path></g>
</svg>′<i>and  </i><svg height="11.175" id="M27" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 11.6625 11.175" width="11.6625" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M667 650l-9 -28q-53 -5 -76 -17t-64 -59q-51 -61 -175 -225q-21 -29 -27 -55l-27 -136q-13 -65 -0.5 -80t83.5 -22l-7 -28h-280l8 28q64 4 81 19t30 83l25 128q6 35 -7 65l-98 231q-17 41 -32.5 52t-68.5 16l8 28h252l-6 -28l-40 -4q-27 -3 -33 -12.5t2 -31.5
q8 -26 43 -107.5t61 -134.5q114 145 174 240q14 24 8 33t-37 13l-34 4l8 28h238z" id="x1D44C"></path></g>
</svg>′  <b>do</b></td></tr><tr><td colspan="2"> <i> </i>prefetch <svg height="11.175" id="M28" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 11.6625 11.175" width="11.6625" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M667 650l-9 -28q-53 -5 -76 -17t-64 -59q-51 -61 -175 -225q-21 -29 -27 -55l-27 -136q-13 -65 -0.5 -80t83.5 -22l-7 -28h-280l8 28q64 4 81 19t30 83l25 128q6 35 -7 65l-98 231q-17 41 -32.5 52t-68.5 16l8 28h252l-6 -28l-40 -4q-27 -3 -33 -12.5t2 -31.5
q8 -26 43 -107.5t61 -134.5q114 145 174 240q14 24 8 33t-37 13l-34 4l8 28h238z" id="x1D44C"></path></g>
</svg>′ into cache via stream <i>C;  </i></td></tr><tr><td colspan="2"> <i> </i>preload any <i>W</i>, <svg height="7.9499998" id="M29" style="vertical-align:-0.1638pt" version="1.1" viewbox="0 0 9.7749996 7.9499998" width="9.7749996" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,7.675)"><path d="M545 106q-67 -118 -134 -118q-24 0 -40 37.5t-30 129.5h-2q-47 -72 -103 -119.5t-108 -47.5q-47 0 -76 45.5t-29 119.5q0 113 85 204t174 91q47 0 70 -33.5t43 -119.5h3q32 47 80 140l55 13l10 -9q-47 -80 -138 -201q17 -99 27.5 -136t22.5 -37q23 0 69 61zM333 204
q-14 98 -31 149.5t-50 51.5q-49 0 -94 -70t-45 -164q0 -55 15.5 -86t40.5 -31q70 0 164 150z" id="x1D6FC"></path></g>
</svg>, <svg height="16.6625" id="M30" style="vertical-align:-3.56265pt" version="1.1" viewbox="0 0 10 16.6625" width="10" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,12.162)"><path d="M558 587q0 -32 -14 -61t-40 -53.5t-48.5 -41t-54.5 -36.5q144 -51 144 -174q0 -55 -43.5 -108t-104.5 -87q-77 -42 -131 -42q-31 0 -54 20t-31 47l11 18q48 -29 108 -29q79 0 119.5 43t40.5 109t-44.5 107.5t-119.5 50.5l22 47q34 1 65 21q96 61 96 157q0 42 -24 67.5
t-62 25.5q-24 0 -43.5 -9t-35 -29.5t-27 -44t-22.5 -63t-19.5 -75.5t-18.5 -91q-57 -294 -68 -380q-26 -190 -35 -200q-26 -31 -97 -37l-4 26q19 9 48 170l77 413q23 121 52.5 187.5t83.5 114.5q70 62 148 62q51 0 88.5 -34t37.5 -91z" id="x1D6FD"></path></g>
</svg> or <svg height="11.6" id="M31" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 12.375 11.6" width="12.375" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.537)"><path d="M698 636l-541 -596q60 -5 176 -5q91 0 138.5 5t69.5 24q44 36 85 124l29 -15q-38 -125 -64 -173h-559l-9 16l545 598h-182q-81 0 -109 -8t-48 -31q-26 -29 -55 -103l-29 3q23 86 42 200h22q11 -16 21 -20.5t34 -4.5h428z" id="x1D44D"></path></g>
</svg>′ to stream <svg height="11.175" id="M32" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 10.6125 11.175" width="10.6125" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M594 511q0 -122 -171 -157l1 -2q158 -33 158 -159q0 -52 -34.5 -95t-90.5 -65q-76 -33 -217 -33h-223l8 28q63 5 79.5 19t26.5 72l83 426q9 48 -2.5 60t-77.5 17l6 28h259q195 0 195 -139zM499 509q0 59 -37 83t-91 24q-36 0 -51 -9q-17 -9 -22 -44l-35 -195h62
q82 0 128 37t46 104zM481 199q0 71 -48 102.5t-121 31.5h-56l-37 -201q-11 -58 7.5 -77t80.5 -19q76 0 125 44.5t49 118.5z" id="x1D435"></path></g>
</svg><i>;  </i></td></tr><tr><td colspan="2"> <i>  </i><b>for</b>  <i>each row of  </i><svg height="11.175" id="M33" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 13.5875 11.175" width="13.5875" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M775 650l-6 -28q-60 -6 -81.5 -16t-61.5 -54l-175 -191l125 -243q30 -58 48.5 -71t82.5 -19l-5 -28h-275l7 28l35 4q31 4 37 12t-6 34l-108 216q-140 -165 -177 -219q-16 -22 -10.5 -30.5t41.5 -13.5l22 -3l-7 -28h-244l8 28q52 4 75 15.5t67 52.5q48 46 206 231
l-110 215q-26 51 -44 63t-72 17l6 28h250l-6 -28l-27 -4q-30 -5 -35 -10t3 -27q17 -43 95 -190q70 78 154 185q15 21 10 29.5t-33 12.5l-30 4l5 28h236z" id="x1D44B"></path></g>
</svg>′  <b>do</b></td></tr><tr><td colspan="2"> <i> </i> <i> </i>stream new elements of the row of <svg height="11.175" id="M34" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 13.5875 11.175" width="13.5875" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M775 650l-6 -28q-60 -6 -81.5 -16t-61.5 -54l-175 -191l125 -243q30 -58 48.5 -71t82.5 -19l-5 -28h-275l7 28l35 4q31 4 37 12t-6 34l-108 216q-140 -165 -177 -219q-16 -22 -10.5 -30.5t41.5 -13.5l22 -3l-7 -28h-244l8 28q52 4 75 15.5t67 52.5q48 46 206 231
l-110 215q-26 51 -44 63t-72 17l6 28h250l-6 -28l-27 -4q-30 -5 -35 -10t3 -27q17 -43 95 -190q70 78 154 185q15 21 10 29.5t-33 12.5l-30 4l5 28h236z" id="x1D44B"></path></g>
</svg>′ via <i>S;  </i></td></tr><tr><td colspan="2"> <i> </i> <i> </i>multiply-accumulate elements of <svg height="11.175" id="M35" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 13.5875 11.175" width="13.5875" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M775 650l-6 -28q-60 -6 -81.5 -16t-61.5 -54l-175 -191l125 -243q30 -58 48.5 -71t82.5 -19l-5 -28h-275l7 28l35 4q31 4 37 12t-6 34l-108 216q-140 -165 -177 -219q-16 -22 -10.5 -30.5t41.5 -13.5l22 -3l-7 -28h-244l8 28q52 4 75 15.5t67 52.5q48 46 206 231
l-110 215q-26 51 -44 63t-72 17l6 28h250l-6 -28l-27 -4q-30 -5 -35 -10t3 -27q17 -43 95 -190q70 78 154 185q15 21 10 29.5t-33 12.5l-30 4l5 28h236z" id="x1D44B"></path></g>
</svg>′ and <svg height="11.175" id="M36" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 11.6625 11.175" width="11.6625" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M667 650l-9 -28q-53 -5 -76 -17t-64 -59q-51 -61 -175 -225q-21 -29 -27 -55l-27 -136q-13 -65 -0.5 -80t83.5 -22l-7 -28h-280l8 28q64 4 81 19t30 83l25 128q6 35 -7 65l-98 231q-17 41 -32.5 52t-68.5 16l8 28h252l-6 -28l-40 -4q-27 -3 -33 -12.5t2 -31.5
q8 -26 43 -107.5t61 -134.5q114 145 174 240q14 24 8 33t-37 13l-34 4l8 28h238z" id="x1D44C"></path></g>
</svg><sup>'</sup>across PEs;</td></tr><tr><td colspan="2"> <i> </i> <i>  </i><b>if</b>  <svg height="11.6" id="M37" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 12.375 11.6" width="12.375" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.537)"><path d="M698 636l-541 -596q60 -5 176 -5q91 0 138.5 5t69.5 24q44 36 85 124l29 -15q-38 -125 -64 -173h-559l-9 16l545 598h-182q-81 0 -109 -8t-48 -31q-26 -29 -55 -103l-29 3q23 86 42 200h22q11 -16 21 -20.5t34 -4.5h428z" id="x1D44D"></path></g>
</svg>′<i>contains final elements  of  </i><svg height="11.175" id="M38" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 25.125 11.175" width="25.125" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M775 650l-6 -28q-60 -6 -81.5 -16t-61.5 -54l-175 -191l125 -243q30 -58 48.5 -71t82.5 -19l-5 -28h-275l7 28l35 4q31 4 37 12t-6 34l-108 216q-140 -165 -177 -219q-16 -22 -10.5 -30.5t41.5 -13.5l22 -3l-7 -28h-244l8 28q52 4 75 15.5t67 52.5q48 46 206 231
l-110 215q-26 51 -44 63t-72 17l6 28h250l-6 -28l-27 -4q-30 -5 -35 -10t3 -27q17 -43 95 -190q70 78 154 185q15 21 10 29.5t-33 12.5l-30 4l5 28h236z" id="x1D44B"></path></g><g transform="matrix(.017,-0,0,-.017,13.526,11.113)"><path d="M667 650l-9 -28q-53 -5 -76 -17t-64 -59q-51 -61 -175 -225q-21 -29 -27 -55l-27 -136q-13 -65 -0.5 -80t83.5 -22l-7 -28h-280l8 28q64 4 81 19t30 83l25 128q6 35 -7 65l-98 231q-17 41 -32.5 52t-68.5 16l8 28h252l-6 -28l-40 -4q-27 -3 -33 -12.5t2 -31.5
q8 -26 43 -107.5t61 -134.5q114 145 174 240q14 24 8 33t-37 13l-34 4l8 28h238z" id="x1D44C"></path></g>
</svg>  <b>then</b></td></tr><tr><td colspan="2"> <i> </i> <i> </i>   shift new partial results of <svg height="11.6" id="M39" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 12.375 11.6" width="12.375" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.537)"><path d="M698 636l-541 -596q60 -5 176 -5q91 0 138.5 5t69.5 24q44 36 85 124l29 -15q-38 -125 -64 -173h-559l-9 16l545 598h-182q-81 0 -109 -8t-48 -31q-26 -29 -55 -103l-29 3q23 86 42 200h22q11 -16 21 -20.5t34 -4.5h428z" id="x1D44D"></path></g>
</svg>′ from PEs  via <svg height="11.175" id="M40" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 10.9375 11.175" width="10.9375" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M619 482q0 -69 -40.5 -119t-96 -72.5t-118.5 -26.5h-44l-70 20l-31 -151q-14 -67 0.5 -83t89.5 -22l-5 -28h-287l8 28q65 7 81.5 22t29.5 83l79 398q12 56 0.5 70.5t-78.5 20.5l7 28h255q108 0 164 -43t56 -125zM524 478q0 141 -146 141q-25 0 -47 -8q-16 -6 -20.5 -13.5
t-10.5 -39.5l-43 -241q37 -13 83 -13q67 0 125.5 45t58.5 129z" id="x1D443"></path></g>
</svg>;</td></tr><tr><td colspan="2"> <i> </i> <i> </i>   perform scalar operations using <svg height="7.9499998" id="M41" style="vertical-align:-0.1638pt" version="1.1" viewbox="0 0 9.7749996 7.9499998" width="9.7749996" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,7.675)"><path d="M545 106q-67 -118 -134 -118q-24 0 -40 37.5t-30 129.5h-2q-47 -72 -103 -119.5t-108 -47.5q-47 0 -76 45.5t-29 119.5q0 113 85 204t174 91q47 0 70 -33.5t43 -119.5h3q32 47 80 140l55 13l10 -9q-47 -80 -138 -201q17 -99 27.5 -136t22.5 -37q23 0 69 61zM333 204
q-14 98 -31 149.5t-50 51.5q-49 0 -94 -70t-45 -164q0 -55 15.5 -86t40.5 -31q70 0 164 150z" id="x1D6FC"></path></g>
</svg>, <svg height="16.6625" id="M42" style="vertical-align:-3.56265pt" version="1.1" viewbox="0 0 10 16.6625" width="10" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,12.162)"><path d="M558 587q0 -32 -14 -61t-40 -53.5t-48.5 -41t-54.5 -36.5q144 -51 144 -174q0 -55 -43.5 -108t-104.5 -87q-77 -42 -131 -42q-31 0 -54 20t-31 47l11 18q48 -29 108 -29q79 0 119.5 43t40.5 109t-44.5 107.5t-119.5 50.5l22 47q34 1 65 21q96 61 96 157q0 42 -24 67.5
t-62 25.5q-24 0 -43.5 -9t-35 -29.5t-27 -44t-22.5 -63t-19.5 -75.5t-18.5 -91q-57 -294 -68 -380q-26 -190 -35 -200q-26 -31 -97 -37l-4 26q19 9 48 170l77 413q23 121 52.5 187.5t83.5 114.5q70 62 148 62q51 0 88.5 -34t37.5 -91z" id="x1D6FD"></path></g>
</svg> and</td></tr><tr><td colspan="2"> <i> </i> <i> </i>   <svg height="11.375" id="M43" style="vertical-align:-0.1638pt" version="1.1" viewbox="0 0 17.4 11.375" width="17.4" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.112)"><path d="M1004 650l-6 -29q-54 -6 -71 -19.5t-51 -74.5l-271 -539h-33l-98 506h-3l-258 -506h-30l-78 532q-10 67 -21.5 80t-66.5 21l6 29h241l-8 -29l-26 -5q-34 -6 -41 -16t-3 -47l59 -425h4l251 510h31l102 -510h2q150 299 198 423q14 40 8.5 48.5t-47.5 16.5l-28 5l7 29h231z
" id="x1D44A"></path></g>
</svg> at output of <svg height="11.175" id="M44" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 10.9375 11.175" width="10.9375" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M619 482q0 -69 -40.5 -119t-96 -72.5t-118.5 -26.5h-44l-70 20l-31 -151q-14 -67 0.5 -83t89.5 -22l-5 -28h-287l8 28q65 7 81.5 22t29.5 83l79 398q12 56 0.5 70.5t-78.5 20.5l7 28h255q108 0 164 -43t56 -125zM524 478q0 141 -146 141q-25 0 -47 -8q-16 -6 -20.5 -13.5
t-10.5 -39.5l-43 -241q37 -13 83 -13q67 0 125.5 45t58.5 129z" id="x1D443"></path></g>
</svg> and <svg height="11.175" id="M45" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 10.6125 11.175" width="10.6125" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M594 511q0 -122 -171 -157l1 -2q158 -33 158 -159q0 -52 -34.5 -95t-90.5 -65q-76 -33 -217 -33h-223l8 28q63 5 79.5 19t26.5 72l83 426q9 48 -2.5 60t-77.5 17l6 28h259q195 0 195 -139zM499 509q0 59 -37 83t-91 24q-36 0 -51 -9q-17 -9 -22 -44l-35 -195h62
q82 0 128 37t46 104zM481 199q0 71 -48 102.5t-121 31.5h-56l-37 -201q-11 -58 7.5 -77t80.5 -19q76 0 125 44.5t49 118.5z" id="x1D435"></path></g>
</svg> via ASE (§ 3.3);</td></tr><tr><td colspan="2"> <i> </i> <i>  </i><b>else</b></td></tr><tr><td colspan="2"> <i> </i> <i> </i>  shift new elements of <svg height="11.6" id="M46" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 12.375 11.6" width="12.375" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.537)"><path d="M698 636l-541 -596q60 -5 176 -5q91 0 138.5 5t69.5 24q44 36 85 124l29 -15q-38 -125 -64 -173h-559l-9 16l545 598h-182q-81 0 -109 -8t-48 -31q-26 -29 -55 -103l-29 3q23 86 42 200h22q11 -16 21 -20.5t34 -4.5h428z" id="x1D44D"></path></g>
</svg>′ from PEs via <svg height="11.175" id="M47" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 10.9375 11.175" width="10.9375" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.113)"><path d="M619 482q0 -69 -40.5 -119t-96 -72.5t-118.5 -26.5h-44l-70 20l-31 -151q-14 -67 0.5 -83t89.5 -22l-5 -28h-287l8 28q65 7 81.5 22t29.5 83l79 398q12 56 0.5 70.5t-78.5 20.5l7 28h255q108 0 164 -43t56 -125zM524 478q0 141 -146 141q-25 0 -47 -8q-16 -6 -20.5 -13.5
t-10.5 -39.5l-43 -241q37 -13 83 -13q67 0 125.5 45t58.5 129z" id="x1D443"></path></g>
</svg></td></tr><tr><td colspan="2"> <i> </i> <i> </i>  to memory or cache;</td></tr><tr><td colspan="2"> <i> </i> <i>  </i><b>end</b></td></tr><tr><td colspan="2"> <i>  </i><b>end</b></td></tr><tr><td colspan="2"><b>end</b></td></tr></table></td></tr></table>

VLSI Design

alg1

Algorithm 1

Algorithm 1: A Low-Power Scalable Stream Compute Accelerator for General Matrix Multiply (GEMM)