Emergence of Prediction by Reinforcement Learning Using a Recurrent Neural Network

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td align="left"></td><td align="center" colspan="3">Range of the invisibility area</td><td align="center" rowspan="2">Ideal</td></tr><tr><td align="left"></td><td align="center">Random</td><td align="center">Nothing</td><td align="center">Maximum</td></tr><tr><td align="center" colspan="5"><hr/></td></tr><tr><td align="left">Average reward</td><td align="center">0.685</td><td align="center">0.685</td><td align="center">0.681</td><td align="center">0.742</td></tr><tr><td align="center" colspan="5"><hr/></td></tr><tr><td align="left">Percentage with which the agent gets the reward</td><td align="center">99.0</td><td align="center">98.4</td><td align="center">99.9</td><td align="center">100</td></tr><tr><td align="center" colspan="5"><hr/></td></tr><tr><td align="left">Relative distance between the agent and object when the agent chooses catch action</td><td align="center">0.270</td><td align="center">0.260</td><td align="center">0.296</td><td align="center">0.144</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

The agent’s ideal and actual performance after learning for three cases of invisibility area.

Journal of Robotics

tab1

Table 1

Table 1: Emergence of Prediction by Reinforcement Learning Using a Recurrent Neural Network