Query Execution Optimization in Spark SQL

<table class="algorithm-group"><tr><td><table class="algorithm" id="alg1"><tr><td> </td><td>Construct variable-width distribution histogram by frequency distribution histogram</td></tr><tr><td> </td><td>input: Hfre = {&lt;attr1, freq1&gt;, &lt;attr2, freq2&gt;, …, &lt;attrn, freqn&gt;}</td></tr><tr><td> </td><td>output: Hwidth = {&lt;start1, end1, times1&gt;,&lt;start2, end2, times2&gt;, …, &lt;startm, endm, timesm&gt;}</td></tr><tr><td> </td><td>procedure</td></tr><tr><td> </td><td> i ⟵ 1; Hwidth ⟵ {}</td></tr><tr><td> </td><td> start ⟵ attr1; end ⟵ attr1;</td></tr><tr><td> </td><td> max ⟵ freq1; T ⟵ freq1</td></tr><tr><td> </td><td> while i ≤ n do</td></tr><tr><td> </td><td>  i ⟵ i + 1</td></tr><tr><td> </td><td>  if |max-freqi|/freqi &lt; 0.05 then</td></tr><tr><td> </td><td>   end ⟵ attri</td></tr><tr><td> </td><td>   T ⟵ T + freqi</td></tr><tr><td> </td><td>   if freqi &gt; max then</td></tr><tr><td> </td><td>    max ⟵ freqi</td></tr><tr><td> </td><td>   end if</td></tr><tr><td> </td><td>  else</td></tr><tr><td> </td><td>   Hwidth ⟵ Hwidth + &lt;start, end, T&gt;</td></tr><tr><td> </td><td>   start ⟵ attri; end ⟵ attri</td></tr><tr><td> </td><td>   max ⟵ freqi; T ⟵ freqi</td></tr><tr><td> </td><td>  end if</td></tr><tr><td> </td><td> end while</td></tr><tr><td> </td><td>end procedure</td></tr></table></td></tr></table>

<div> Algorithm to construct variable-width distribution histogram.</div>

Scientific Programming

alg1

Algorithm 1

Algorithm 1: Query Execution Optimization in Spark SQL