Performance Evaluation of Multiagent Reinforcement Learning Based Training Methods for Swarm Fighting

<table class="table-group" id="tab5"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td class="align_left" colspan="2">Type</td><td class="align_center">MARL</td><td class="align_center">MARL-BC</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left" rowspan="5">Hyperparameters</td><td class="align_center">Batch size</td><td class="align_center">1024</td><td class="align_center">1024</td></tr><tr><td class="align_center">Buffer size</td><td class="align_center">20480</td><td class="align_center">20480</td></tr><tr><td class="align_center">Learning rate</td><td class="align_center">0.0001</td><td class="align_center">0.0001</td></tr><tr><td class="align_center">Entropy bonus</td><td class="align_center">0.005</td><td class="align_center">0.005</td></tr><tr><td class="align_center">Num epoch</td><td class="align_center">3</td><td class="align_center">3</td></tr><tr><td class="align_center" colspan="4"><hr/></td></tr><tr><td class="align_left" rowspan="2">Network settings</td><td class="align_center">Hidden units</td><td class="align_center">512</td><td class="align_center">512</td></tr><tr><td class="align_center">Num layers</td><td class="align_center">3</td><td class="align_center">3</td></tr><tr><td class="align_center" colspan="4"><hr/></td></tr><tr><td class="align_left" rowspan="2">Reward signals</td><td class="align_center">Discount factor</td><td class="align_center">0.99</td><td class="align_center">0.99</td></tr><tr><td class="align_center">Strength</td><td class="align_center">1.0</td><td class="align_center">1.0</td></tr><tr><td class="align_center" colspan="4"><hr/></td></tr><tr><td class="align_left" rowspan="2">Behavior cloning</td><td class="align_center">Steps</td><td class="align_center">/</td><td class="align_center">100 M</td></tr><tr><td class="align_center">Strength</td><td class="align_center">0.5</td><td class="align_center">0.5</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Hyperparameters used for this experiment.</div>

Wireless Communications and Mobile Computing

tab5

Table 5

Table 5: Performance Evaluation of Multiagent Reinforcement Learning Based Training Methods for Swarm Fighting