End-to-End Autonomous Exploration with Deep Reinforcement Learning and Intrinsic Motivation

<table class="table-group" id="tab5"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left">Environment</td><td class="align_center">Method</td><td class="align_center">Reward</td><td class="align_center">MER (%)</td><td class="align_center">IQRE</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="4">Maze-1</td><td class="align_center">ICM + scratch</td><td class="align_center">584.59</td><td class="align_center">100.00</td><td class="align_center">7.93</td></tr><tr><td class="align_center">Ours + scratch</td><td class="align_center">586.32</td><td class="align_center">100.00</td><td class="align_center">4.72</td></tr><tr><td class="align_center">ICM + fine-tuning</td><td class="align_center">585.16</td><td class="align_center">100.00</td><td class="align_center">7.58</td></tr><tr><td class="align_center">Ours + fine-tuning</td><td class="align_center">585.45</td><td class="align_center">100.00</td><td class="align_center">5.14</td></tr><tr><td class="align_left" rowspan="4">Maze-2</td><td class="align_center">ICM + scratch</td><td class="align_center">567.28</td><td class="align_center">100.00</td><td class="align_center">8.07</td></tr><tr><td class="align_center">Ours + scratch</td><td class="align_center">571.87</td><td class="align_center">100.00</td><td class="align_center">5.15</td></tr><tr><td class="align_center">ICM + fine-tuning</td><td class="align_center">566.34</td><td class="align_center">100.00</td><td class="align_center">6.49</td></tr><tr><td class="align_center">Ours + fine-tuning</td><td class="align_center">568.25</td><td class="align_center">100.00</td><td class="align_center">4.81</td></tr><tr><td class="align_left" rowspan="4">Maze-3</td><td class="align_center">ICM + scratch</td><td class="align_center">532.27</td><td class="align_center">91.64</td><td class="align_center">N/A</td></tr><tr><td class="align_center">Ours + scratch</td><td class="align_center">579.65</td><td class="align_center">100.00</td><td class="align_center">6.54</td></tr><tr><td class="align_center">ICM + fine-tuning</td><td class="align_center">573.49</td><td class="align_center">100.00</td><td class="align_center">7.23</td></tr><tr><td class="align_center">Ours + fine-tuning</td><td class="align_center">572.86</td><td class="align_center">100.00</td><td class="align_center">4.73</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Experiment results of learning exploration with fine-tuning method (no extrinsic reward).</div>

Computational Intelligence and Neuroscience

tab5

Table 5

Table 5: End-to-End Autonomous Exploration with Deep Reinforcement Learning and Intrinsic Motivation