Reducing Entropy Overestimation in Soft Actor Critic Using Dual Policy Network

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td class="align_left">Environment</td><td class="align_center">Algorithm</td><td class="align_center">Max value</td><td class="align_center">S.D</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left" rowspan="3">Ant-v2</td><td class="align_center">SAC</td><td class="align_center">4536.18</td><td class="align_center">1425.31</td></tr><tr><td class="align_center">TD3</td><td class="align_center">4360.79</td><td class="align_center">2081.05</td></tr><tr><td class="align_center">Ours</td><td class="align_center"><b>5151.27</b></td><td class="align_center">1600.29</td></tr><tr><td class="align_center" colspan="4"><hr/></td></tr><tr><td class="align_left" rowspan="3">HalfCheetah-v2</td><td class="align_center">SAC</td><td class="align_center">8308.59</td><td class="align_center">4298.95</td></tr><tr><td class="align_center">TD3</td><td class="align_center">-1.65</td><td class="align_center">0</td></tr><tr><td class="align_center">Ours</td><td class="align_center"><b>9158.21</b></td><td class="align_center">4414.13</td></tr><tr><td class="align_center" colspan="4"><hr/></td></tr><tr><td class="align_left" rowspan="3">Hopper-v2</td><td class="align_center">SAC</td><td class="align_center"><b>2905.15</b></td><td class="align_center">1388.34</td></tr><tr><td class="align_center">TD3</td><td class="align_center">2622.66</td><td class="align_center">1245.89</td></tr><tr><td class="align_center">Ours</td><td class="align_center">2812.76</td><td class="align_center">1311.20</td></tr><tr><td class="align_center" colspan="4"><hr/></td></tr><tr><td class="align_left" rowspan="3">Walker2d-v2</td><td class="align_center">SAC</td><td class="align_center">3611.99</td><td class="align_center">1670.66</td></tr><tr><td class="align_center">TD3</td><td class="align_center">3513.84</td><td class="align_center">1635.82</td></tr><tr><td class="align_center">Ours</td><td class="align_center"><b>4357.33</b></td><td class="align_center">2090.74</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Max evaluation reward achieved during learning.</div>

Wireless Communications and Mobile Computing

tab2

Table 2

Table 2: Reducing Entropy Overestimation in Soft Actor Critic Using Dual Policy Network