Efficient Actor-Critic Algorithm with Hierarchical Model Learning and Planning

<table class="figure-group"><tr class="fig-image" id="a"><td><object data="https://static.hindawi.com/articles/cin/volume-2016/4824072/figures/4824072.fig.004a.svgz" name="4824072.fig.004a" type="image/svg+xml"></object></td></tr><tr class="fig-caption"><td><b>(a) </b>Optimal policy of AC-HMLP learned after training</td></tr><tr class="fig-image" id="b"><td><object data="https://static.hindawi.com/articles/cin/volume-2016/4824072/figures/4824072.fig.004b.svgz" name="4824072.fig.004b" type="image/svg+xml"></object></td></tr><tr class="fig-caption"><td><b>(b) </b>Optimal value function of AC-HMLP learned after training</td></tr><tr class="fig-image" id="c"><td><object data="https://static.hindawi.com/articles/cin/volume-2016/4824072/figures/4824072.fig.004c.svgz" name="4824072.fig.004c" type="image/svg+xml"></object></td></tr><tr class="fig-caption"><td><b>(c) </b>Optimal policy of RAC-HMLP learned after training</td></tr><tr class="fig-image" id="d"><td><object data="https://static.hindawi.com/articles/cin/volume-2016/4824072/figures/4824072.fig.004d.svgz" name="4824072.fig.004d" type="image/svg+xml"></object></td></tr><tr class="fig-caption"><td><b>(d) </b>Optimal value function of RAC-HMLP learned after training</td></tr></table>

<div>Optimal policy and value function learned by AC-HMLP and RAC-HMLP.</div>

Computational Intelligence and Neuroscience

fig4

Figure 4

Figure 4: Efficient Actor-Critic Algorithm with Hierarchical Model Learning and Planning