Hybrid MPI and CUDA Parallelization for CFD Applications on Multi-GPU HPC Clusters

<table class="algorithm-group"><tr><td><table class="algorithm" id="alg2"><tr><td>(1)</td><td><b>cudaStreamCreate</b> (&amp;stream[j]);</td></tr><tr><td>(2)</td><td> Boundary_Processing_GPU&lt;&lt;&lt;Block_size, Thread_size, stream[0]&gt;&gt;&gt;( );</td></tr><tr><td>(3)</td><td> Time_Step_GPU&lt;&lt;&lt;Block_size, Thread_size, stream[1]&gt;&gt;&gt;( );</td></tr><tr><td>(4)</td><td> Grad_Initial&lt;&lt;&lt;Block_Size, Thread_Size, stream[2]&gt;&gt;&gt;( );</td></tr><tr><td>(5)</td><td> RHS_Initial&lt;&lt;&lt;Block_Size, Thread_Size, stream[3]&gt;&gt;&gt;( );</td></tr><tr><td>(6)</td><td> <b>cudaDeviceSynchronize</b> ( );</td></tr><tr><td>(7)</td><td> Grad_Primitive_Variables_GPU&lt;&lt;&lt;Block_size, Thread_size, stream[0]&gt;&gt;&gt;( );</td></tr><tr><td>(8)</td><td> Convective_Flux_GPU&lt;&lt;&lt;Block_size, Thread_size, stream[1]&gt;&gt;&gt;( );</td></tr><tr><td>(9)</td><td> <b>cudaDeviceSynchronize</b> ( );</td></tr><tr><td>(10)</td><td> Viscous_Flux_GPU&lt;&lt;&lt;Block_size, Thread_size, stream[0]&gt;&gt;&gt;( );</td></tr><tr><td>(11)</td><td> RHS_GPU&lt;&lt;&lt;Block_size, Thread_size, stream[0]&gt;&gt;&gt;( );</td></tr><tr><td>(12)</td><td> Primitive_Variables_Update_GPU&lt;&lt;&lt;Block_size, Thread_size, stream[0]&gt;&gt;&gt;( );</td></tr><tr><td>(13)</td><td> <b>cudaDeviceSynchronize</b> ();</td></tr><tr><td>(14)</td><td><b>cudaStreamDestroy</b> (stream[j]);</td></tr></table></td></tr></table>

<div> Asynchronous concurrent execution algorithm of CFD on the GPU.</div>

Scientific Programming

alg2

Algorithm 2

Algorithm 2: Hybrid MPI and CUDA Parallelization for CFD Applications on Multi-GPU HPC Clusters