Deep Q-Network with Predictive State Models in Partially Observable Domains

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td class="align_left"> </td><td class="align_center">CartPole-v1</td><td class="align_center">Swimmer-v1</td><td class="align_center">Reacher-v1</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left">DRQN</td><td class="align_center">189</td><td class="align_center">30.23</td><td class="align_center">−11.25</td></tr><tr><td class="align_left">DQN-1frame</td><td class="align_center">46.76</td><td class="align_center">23.78</td><td class="align_center">−17.78</td></tr><tr><td class="align_left">RPSR-DQN</td><td class="align_center">194</td><td class="align_center">38.51</td><td class="align_center">−9.24</td></tr><tr><td class="align_left">RPSP</td><td class="align_center">116</td><td class="align_center">21.32</td><td class="align_center">−70.23</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The best mean reward of three methods.</div>

Mathematical Problems in Engineering

tab2

Table 2

Table 2: Deep Q-Network with Predictive State Models in Partially Observable Domains