EAQR: A Multiagent Q-Learning Algorithm for Coordination of Multiple Agents

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td class="align_left"></td><td class="align_center"><svg height="8.68572pt" id="M353" style="vertical-align:-0.0498209pt" version="1.1" viewbox="-0.0498162 -8.6359 7.31558 8.68572" width="7.31558pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M541 160L512 170C485 116 462 88 439 67C411 41 376 35 318 35C272 35 238 37 224 48C207 61 205 85 212 121L290 533C305 611 308 615 391 622L397 650H139L133 622C217 615 221 612 206 533L126 118C111 41 103 34 23 26L17 0H474C489 31 528 124 541 160Z" id="g113-77"></path></g></svg> = 100,000</td><td class="align_center"><svg height="8.68572pt" id="M354" style="vertical-align:-0.0498209pt" version="1.1" viewbox="-0.0498162 -8.6359 7.31558 8.68572" width="7.31558pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M541 160L512 170C485 116 462 88 439 67C411 41 376 35 318 35C272 35 238 37 224 48C207 61 205 85 212 121L290 533C305 611 308 615 391 622L397 650H139L133 622C217 615 221 612 206 533L126 118C111 41 103 34 23 26L17 0H474C489 31 528 124 541 160Z" id="g113-77"></path></g></svg> = 500,000</td><td class="align_center"><svg height="8.68572pt" id="M355" style="vertical-align:-0.0498209pt" version="1.1" viewbox="-0.0498162 -8.6359 7.31558 8.68572" width="7.31558pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M541 160L512 170C485 116 462 88 439 67C411 41 376 35 318 35C272 35 238 37 224 48C207 61 205 85 212 121L290 533C305 611 308 615 391 622L397 650H139L133 622C217 615 221 612 206 533L126 118C111 41 103 34 23 26L17 0H474C489 31 528 124 541 160Z" id="g113-77"></path></g></svg> = 1000,000</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left">Optimal</td><td class="align_center">1.71</td><td class="align_center">1.71</td><td class="align_center">1.71</td></tr><tr><td class="align_left">EAQR</td><td class="align_center"><b>2.53 ± 0.11</b></td><td class="align_center"><b>1.76 ± 0.03</b></td><td class="align_center"><b>1.74 ± 0.02</b></td></tr><tr><td class="align_left">WoLF-PHC</td><td class="align_center">2.83 ± 0.23</td><td class="align_center">2.24 ± 0.11</td><td class="align_center">1.99 ± 0.06</td></tr><tr><td class="align_left">EMA Q-learning</td><td class="align_center">4.53 ± 0.49</td><td class="align_center">3.66 ± 0.40</td><td class="align_center">3.47 ± 0.34</td></tr><tr><td class="align_left">Single-agent RL</td><td class="align_center">14.78 ± 0.60</td><td class="align_center">3.29 ± 0.14</td><td class="align_center">2.03 ± 0.06</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Average steps for 4-agent/12-vertex box-pushing (evaluation episodes = 50,000).</div>

Complexity

tab1

Table 1

Table 1: EAQR: A Multiagent Q-Learning Algorithm for Coordination of Multiple Agents