End-to-End Autonomous Exploration with Deep Reinforcement Learning and Intrinsic Motivation

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left">Environment</td><td class="align_center">Method</td><td class="align_center">Reward</td><td class="align_center">MER (%)</td><td class="align_center">IQRE</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="5">Maze-1</td><td class="align_center">TRPO</td><td class="align_center">327.36</td><td class="align_center">55.29</td><td class="align_center">N/A</td></tr><tr><td class="align_center">VIME</td><td class="align_center">321.14</td><td class="align_center">53.58</td><td class="align_center">N/A</td></tr><tr><td class="align_center">EX2</td><td class="align_center">489.27</td><td class="align_center">82.43</td><td class="align_center">N/A</td></tr><tr><td class="align_center">ICM</td><td class="align_center">584.59</td><td class="align_center">100.00</td><td class="align_center">7.93</td></tr><tr><td class="align_center">Ours</td><td class="align_center">586.32</td><td class="align_center">100.00</td><td class="align_center">4.72</td></tr><tr><td class="align_left" rowspan="5">Maze-2</td><td class="align_center">TRPO</td><td class="align_center">232.47</td><td class="align_center">41.02</td><td class="align_center">N/A</td></tr><tr><td class="align_center">VIME</td><td class="align_center">228.34</td><td class="align_center">39.98</td><td class="align_center">N/A</td></tr><tr><td class="align_center">EX2</td><td class="align_center">425.73</td><td class="align_center">74.56</td><td class="align_center">N/A</td></tr><tr><td class="align_center">ICM</td><td class="align_center">567.28</td><td class="align_center">100.00</td><td class="align_center">8.07</td></tr><tr><td class="align_center">Ours</td><td class="align_center">571.87</td><td class="align_center">100.00</td><td class="align_center">5.15</td></tr><tr><td class="align_left" rowspan="5">Maze-3</td><td class="align_center">TRPO</td><td class="align_center">243.49</td><td class="align_center">41.73</td><td class="align_center">N/A</td></tr><tr><td class="align_center">VIME</td><td class="align_center">276.54</td><td class="align_center">47.82</td><td class="align_center">N/A</td></tr><tr><td class="align_center">EX2</td><td class="align_center">339.62</td><td class="align_center">58.35</td><td class="align_center">N/A</td></tr><tr><td class="align_center">ICM</td><td class="align_center">532.27</td><td class="align_center">91.64</td><td class="align_center">N/A</td></tr><tr><td class="align_center">Ours</td><td class="align_center">579.65</td><td class="align_center">100.00</td><td class="align_center">6.54</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Experiment results of learning exploration from scratch.</div>

Computational Intelligence and Neuroscience

tab3

Table 3

Table 3: End-to-End Autonomous Exploration with Deep Reinforcement Learning and Intrinsic Motivation