End-to-End Autonomous Exploration with Deep Reinforcement Learning and Intrinsic Motivation

<table class="table-group" id="tab7"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left">Environment</td><td class="align_center">Method</td><td class="align_center">Reward</td><td class="align_center">MER (%)</td><td class="align_center">IQRE</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="4">Maze-1</td><td class="align_center">ICM + scratch</td><td class="align_center">315.62</td><td class="align_center">53.86</td><td class="align_center">N/A</td></tr><tr><td class="align_center">Ours + scratch</td><td class="align_center">582.74</td><td class="align_center">100</td><td class="align_center">7.58</td></tr><tr><td class="align_center">ICM + fine-tuning</td><td class="align_center">374.52</td><td class="align_center">64.05</td><td class="align_center">N/A</td></tr><tr><td class="align_center">Ours + fine-tuning</td><td class="align_center">586.43</td><td class="align_center">100</td><td class="align_center">8.67</td></tr><tr><td class="align_left" rowspan="4">Maze-2</td><td class="align_center">ICM + scratch</td><td class="align_center">279.68</td><td class="align_center">48.71</td><td class="align_center">N/A</td></tr><tr><td class="align_center">Ours + scratch</td><td class="align_center">565.32</td><td class="align_center">100</td><td class="align_center">6.93</td></tr><tr><td class="align_center">ICM + fine-tuning</td><td class="align_center">317.54</td><td class="align_center">56.18</td><td class="align_center">N/A</td></tr><tr><td class="align_center">Ours + fine-tuning</td><td class="align_center">566.73</td><td class="align_center">100</td><td class="align_center">7.75</td></tr><tr><td class="align_left" rowspan="4">Maze-3</td><td class="align_center">ICM + scratch</td><td class="align_center">362.49</td><td class="align_center">63.28</td><td class="align_center">N/A</td></tr><tr><td class="align_center">Ours + scratch</td><td class="align_center">577.86</td><td class="align_center">100</td><td class="align_center">7.69</td></tr><tr><td class="align_center">ICM + fine-tuning</td><td class="align_center">305.47</td><td class="align_center">54.72</td><td class="align_center">N/A</td></tr><tr><td class="align_center">Ours + fine-tuning</td><td class="align_center">572.63</td><td class="align_center">100</td><td class="align_center">8.12</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Experiment results of “noisy-TV.”</div>

Computational Intelligence and Neuroscience

tab7

Table 7

Table 7: End-to-End Autonomous Exploration with Deep Reinforcement Learning and Intrinsic Motivation