Count-Based Exploration via Embedded State Space for Deep Reinforcement Learning

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td class="align_left"></td><td class="align_center">Freeway</td><td class="align_center">Frostbite</td><td class="align_center">Gravitar</td><td class="align_center">Montezuma</td><td class="align_center">Solaris</td><td class="align_center">Venture</td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td class="align_left">TRPO (baseline)</td><td class="align_center">16.5</td><td class="align_center">2869</td><td class="align_center">486</td><td class="align_center">0</td><td class="align_center">2758</td><td class="align_center">121</td></tr><tr><td class="align_left">Double-DQN</td><td class="align_center">33.3</td><td class="align_center">1683</td><td class="align_center">412</td><td class="align_center">0</td><td class="align_center">3068</td><td class="align_center">98</td></tr><tr><td class="align_left">Dueling network</td><td class="align_center">0</td><td class="align_center">4672</td><td class="align_center">588</td><td class="align_center">0</td><td class="align_center">2251</td><td class="align_center">497</td></tr><tr><td class="align_left">Gorila</td><td class="align_center">11.7</td><td class="align_center">605</td><td class="align_center"><b>1054</b></td><td class="align_center">4</td><td class="align_center">N/A</td><td class="align_center"><b>1245</b></td></tr><tr><td class="align_left">DQN Pop-Art</td><td class="align_center">33.4</td><td class="align_center">3469</td><td class="align_center">483</td><td class="align_center">0</td><td class="align_center">4544</td><td class="align_center">1172</td></tr><tr><td class="align_left">A3C+</td><td class="align_center">27.3</td><td class="align_center">507</td><td class="align_center">246</td><td class="align_center">142</td><td class="align_center">2175</td><td class="align_center">0</td></tr><tr><td class="align_left">TRPO+AE</td><td class="align_center">33.5</td><td class="align_center">5214</td><td class="align_center">482</td><td class="align_center">75</td><td class="align_center">4467</td><td class="align_center">445</td></tr><tr><td class="align_left">TRPO+BASS</td><td class="align_center">28.4</td><td class="align_center">3150</td><td class="align_center">604</td><td class="align_center"><b><i>238</i></b></td><td class="align_center">1201</td><td class="align_center">616</td></tr><tr><td class="align_left">TRPO+OURS</td><td class="align_center"><b><i>34</i></b></td><td class="align_center"><b><i>5537</i></b></td><td class="align_center"><i>712</i></td><td class="align_center">196</td><td class="align_center"><b><i>4860</i></b></td><td class="align_center"><i>983</i></td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Atari 2600: average total reward after training for 50 M time steps. Boldface numbers indicate best results. Italic numbers are the best among count-based exploration methods.</div>

Wireless Communications and Mobile Computing

tab1

Table 1

Table 1: Count-Based Exploration via Embedded State Space for Deep Reinforcement Learning