Deep Q-Network with Predictive State Models in Partially Observable Domains

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td class="align_left"> </td><td class="align_center">CartPole-v1</td><td class="align_center">Swimmer-v1</td><td class="align_center">Reacher-v1</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left">DRQN</td><td class="align_center">200</td><td class="align_center">56</td><td class="align_center">−1.15</td></tr><tr><td class="align_left">DQN-1frame</td><td class="align_center">54</td><td class="align_center">40.58</td><td class="align_center">−6.43</td></tr><tr><td class="align_left">RPSR-DQN</td><td class="align_center">200</td><td class="align_center">59.52</td><td class="align_center">−0.02</td></tr><tr><td class="align_left">RPSP</td><td class="align_center">158</td><td class="align_center">38.96</td><td class="align_center">−57.78</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The best reward of three methods.</div>

Mathematical Problems in Engineering

tab1

Table 1

Table 1: Deep Q-Network with Predictive State Models in Partially Observable Domains