The Potential for a GPU-Like Overlay Architecture for FPGAs

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td align="left">  Clock cycle</td><td align="center"> Inst phase</td><td align="center"> Register file read</td><td align="center"> ALU ready</td><td align="center"> TEX ready</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td align="left">  0</td><td align="center"> ALU<sub>0</sub></td><td align="center"> ALU:A(T0,T1,T2,T3)</td><td align="center">—</td><td align="center">—</td></tr><tr><td align="left">1</td><td align="center"> ALU<sub>1</sub></td><td align="center"> ALU:B(T0,T1,T2,T3)</td><td align="center">—</td><td align="center">—</td></tr><tr><td align="left">2</td><td align="center"> ALU<sub>2</sub></td><td align="center"> ALU:C(T0,T1,T2,T3)</td><td align="center">—</td><td align="center">—</td></tr><tr><td align="left">3</td><td align="center"> TEX</td><td align="center"> TEX:A(T0,T1,T2,T3)</td><td align="center"> T0</td><td align="center">—</td></tr><tr><td align="left">4</td><td align="center"> ALU<sub>0</sub></td><td align="center"> ALU:A(T4,T5,T6,T7)</td><td align="center"> T1</td><td align="center">T0</td></tr><tr><td align="left">5</td><td align="center"> ALU<sub>1</sub></td><td align="center"> ALU:B(T4,T5,T6,T7)</td><td align="center"> T2</td><td align="center"> T1</td></tr><tr><td align="left">6</td><td align="center"> ALU<sub>2</sub></td><td align="center"> ALU:C(T4,T5,T6,T7)</td><td align="center"> T3</td><td align="center"> T2</td></tr><tr><td align="left">7</td><td align="center"> TEX</td><td align="center"> TEX:A(T4,T5,T6,T7)</td><td align="center"> T4</td><td align="center"> T3</td></tr><tr><td align="left">8</td><td align="center"> ALU<sub>0</sub></td><td align="center"> ALU:A(T8,T9,T10,T11)</td><td align="center"> T5</td><td align="center"> T4</td></tr><tr><td align="left">9</td><td align="center"> ALU<sub>1</sub></td><td align="center"> ALU:B(T8,T9,T10,T11)</td><td align="center"> T6</td><td align="center"> T5</td></tr><tr><td align="left">10</td><td align="center"> ALU<sub>2</sub></td><td align="center"> ALU:C(T8,T9,T10,T11)</td><td align="center"> T7</td><td align="center"> T6</td></tr><tr><td align="left">11</td><td align="center"><span style="width: 19.450001px;"><svg height="5.4250002" id="M13" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 19.450001 5.4250002" width="19.450001" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,5.363)"><path d="M215 255q0 -26 -16 -42t-40 -16q-25 0 -40.5 16t-15.5 42q0 24 16 40.5t40 16.5t40 -16.5t16 -40.5zM541 255q0 -26 -16 -42t-40 -16q-25 0 -40.5 16t-15.5 42q0 24 16 40.5t40 16.5t40 -16.5t16 -40.5zM867 255q0 -26 -16 -42t-40 -16q-25 0 -40.5 16t-15.5 42
q0 24 16 40.5t40 16.5t40 -16.5t16 -40.5z" id="x22EF"></path></g>
</svg></span></td><td align="center"><span style="width: 19.450001px;"><svg height="5.4250002" id="M14" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 19.450001 5.4250002" width="19.450001" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,5.363)"><path d="M215 255q0 -26 -16 -42t-40 -16q-25 0 -40.5 16t-15.5 42q0 24 16 40.5t40 16.5t40 -16.5t16 -40.5zM541 255q0 -26 -16 -42t-40 -16q-25 0 -40.5 16t-15.5 42q0 24 16 40.5t40 16.5t40 -16.5t16 -40.5zM867 255q0 -26 -16 -42t-40 -16q-25 0 -40.5 16t-15.5 42
q0 24 16 40.5t40 16.5t40 -16.5t16 -40.5z" id="x22EF"></path></g>
</svg></span></td><td align="center"><span style="width: 19.450001px;"><svg height="5.4250002" id="M15" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 19.450001 5.4250002" width="19.450001" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,5.363)"><path d="M215 255q0 -26 -16 -42t-40 -16q-25 0 -40.5 16t-15.5 42q0 24 16 40.5t40 16.5t40 -16.5t16 -40.5zM541 255q0 -26 -16 -42t-40 -16q-25 0 -40.5 16t-15.5 42q0 24 16 40.5t40 16.5t40 -16.5t16 -40.5zM867 255q0 -26 -16 -42t-40 -16q-25 0 -40.5 16t-15.5 42
q0 24 16 40.5t40 16.5t40 -16.5t16 -40.5z" id="x22EF"></path></g>
</svg></span></td><td align="center"><span style="width: 19.450001px;"><svg height="5.4250002" id="M16" style="vertical-align:-0.0pt" version="1.1" viewbox="0 0 19.450001 5.4250002" width="19.450001" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,5.363)"><path d="M215 255q0 -26 -16 -42t-40 -16q-25 0 -40.5 16t-15.5 42q0 24 16 40.5t40 16.5t40 -16.5t16 -40.5zM541 255q0 -26 -16 -42t-40 -16q-25 0 -40.5 16t-15.5 42q0 24 16 40.5t40 16.5t40 -16.5t16 -40.5zM867 255q0 -26 -16 -42t-40 -16q-25 0 -40.5 16t-15.5 42
q0 24 16 40.5t40 16.5t40 -16.5t16 -40.5z" id="x22EF"></path></g>
</svg></span></td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

The schedule of operand reads from the central register file for batches of four threads (T0–T3, T4–T7, etc.) decoding both ALU and TEX instructions. TEX instructions require only one source operand, hence we can read source operands for four threads in a single cycle.

International Journal of Reconfigurable Computing

The Potential for a GPU-Like Overlay Architecture for FPGAs

Table 2