Deep Ensemble Reinforcement Learning with Multiple Deep Deterministic Policy Gradient Algorithm

<table class="table-group" id="tab5"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td class="align_left">Number of subpolicies</td><td class="align_center">Training time (hours)</td><td class="align_center">Total steps</td><td class="align_center">Total reward</td><td class="align_center">Pass Aalborg</td><td class="align_center">Pass CG1</td><td class="align_center">Pass CG2</td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td class="align_left">3</td><td class="align_center">22.84</td><td class="align_center">5000</td><td class="align_center">331086.10</td><td class="align_center">Yes</td><td class="align_center">Yes</td><td class="align_center">Yes</td></tr><tr><td class="align_left">5</td><td class="align_center">24.40</td><td class="align_center">5000</td><td class="align_center">360804.43</td><td class="align_center">Yes</td><td class="align_center">Yes</td><td class="align_center">Yes</td></tr><tr><td class="align_left">10</td><td class="align_center">24.16</td><td class="align_center">5000</td><td class="align_center">303678.65</td><td class="align_center">Yes</td><td class="align_center">Yes</td><td class="align_center">Yes</td></tr><tr><td class="align_left">15</td><td class="align_center">22.09</td><td class="align_center">771</td><td class="align_center">47121.87</td><td class="align_center">Yes</td><td class="align_center">No</td><td class="align_center">Yes</td></tr><tr><td class="align_left">20</td><td class="align_center">20.49</td><td class="align_center">567</td><td class="align_center">34343.05</td><td class="align_center">Yes</td><td class="align_center">No</td><td class="align_center">Yes</td></tr><tr><td class="align_left">30</td><td class="align_center">21.74</td><td class="align_center">1541</td><td class="align_center">97146.37</td><td class="align_center">Yes</td><td class="align_center">No</td><td class="align_center">Yes</td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparison of aggregated policies with different numbers of subpolicies.</div>

Mathematical Problems in Engineering

tab5

Table 5

Table 5: Deep Ensemble Reinforcement Learning with Multiple Deep Deterministic Policy Gradient Algorithm