AIBPO: Combine the Intrinsic Reward and Auxiliary Task for 3D Strategy Game

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr class="thead"><td class="align_left">NN1</td><td class="align_center">Parameter</td><td class="align_center">NN2</td><td class="align_center">Parameter</td><td class="align_center">NN3</td><td class="align_center">Parameter</td></tr><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr><td class="align_left">Conv</td><td class="align_center">Conv (64, 3, 3)</td><td class="align_center">Conv</td><td class="align_center">Conv (128,3,3)</td><td class="align_center">Conv</td><td class="align_center">Conv (64, 3, 3)</td></tr><tr><td class="align_left">Conv</td><td class="align_center">Conv (32, 3, 3)</td><td class="align_center">Conv</td><td class="align_center">Conv (32,3,3)</td><td class="align_center">Conv</td><td class="align_center">Conv (32, 3, 3)</td></tr><tr><td class="align_left">Active</td><td class="align_center">ReLU</td><td class="align_center">Active</td><td class="align_center">BN</td><td class="align_center">Fc</td><td class="align_center">Linear (64, 3), reward prediction</td></tr><tr><td class="align_left">Transform</td><td class="align_center">Flatten</td><td class="align_center">Active</td><td class="align_center">ReLU</td><td class="align_center">Fc</td><td class="align_center">Linear (64, 3), reward prediction</td></tr><tr><td class="align_left">Fc</td><td class="align_center">Linear (288, 256)</td><td class="align_center">Transform</td><td class="align_center">Flatten</td><td class="align_center">LSTM</td><td class="align_center">Hidden state 256, state value</td></tr><tr><td class="align_left">Fc</td><td class="align_center">Linear (256, 256)</td><td class="align_center">Fc</td><td class="align_center">Linear (288, 256)</td><td class="align_center">Fc</td><td class="align_center">Linear (256, 1), state value</td></tr><tr><td class="align_left">Actor</td><td class="align_center">Linear (256, 4), a</td><td class="align_center"> </td><td class="align_center"> </td><td class="align_center">LSTM</td><td class="align_center">Hidden state 256, action value</td></tr><tr><td class="align_left">Critic</td><td class="align_center">Linear (256, 1), r</td><td class="align_center"> </td><td class="align_center"> </td><td class="align_center">Fc</td><td class="align_center">Linear (256, 1), action value</td></tr><tr><td class="align_left">Critic</td><td class="align_center">Linear (256, 1), r</td><td class="align_center"> </td><td class="align_center"> </td><td class="align_center"> </td><td class="align_center"> </td></tr><tr class="table-tr"><td colspan="6"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

Complexity

tab1

Table 1

Table 1: AIBPO: Combine the Intrinsic Reward and Auxiliary Task for 3D Strategy Game