Intelligent Inventory Control via Ruminative Reinforcement Learning

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td align="left" rowspan="2">Line </td><td align="center"> </td><td align="center" colspan="5">Methods </td></tr><tr class="thead"><td align="center"> </td><td align="center"> SARSA </td><td align="center"> RSarsa </td><td align="center"> PRS </td><td align="center"> RSarsa.TD </td><td align="center"> PRS.Beta </td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td align="center" colspan="7">Relative computation time/epoch</td></tr><tr><td align="left">1</td><td align="center">P1</td><td align="center">1</td><td align="center">30</td><td align="center">26</td><td align="center">5</td><td align="center">30</td></tr><tr><td align="left">2</td><td align="center">P2</td><td align="center">1</td><td align="center">20</td><td align="center">21</td><td align="center">3</td><td align="center">19</td></tr><tr><td align="left">3</td><td align="center">P3</td><td align="center">1</td><td align="center">31</td><td align="center">29</td><td align="center">6</td><td align="center">31</td></tr><tr><td align="center" colspan="7"><hr/></td></tr><tr><td align="center" colspan="7">Average cost of early periods</td></tr><tr><td align="left">4</td><td align="center">P1</td><td align="center">8,421</td><td align="center">7,619 (W)</td><td align="center">8,379 (p0.43)</td><td align="center">7,597 (W)</td><td align="center">7,450 (W)</td></tr><tr><td align="left">5</td><td align="center">P2</td><td align="center">4,935</td><td align="center">4,606 (W)</td><td align="center">4,792 (p0.06)</td><td align="center">4,685 (W)</td><td align="center">4,411 (W)</td></tr><tr><td align="left">6</td><td align="center">P3</td><td align="center">10,502</td><td align="center">8,694 (W)</td><td align="center">9,958 (p0.20)</td><td align="center">9,390 (p0.07)</td><td align="center">8,472 (W)</td></tr><tr><td align="center" colspan="7"><hr/></td></tr><tr><td align="center" colspan="7">Average cost of later periods</td></tr><tr><td align="left">7</td><td align="center">P1</td><td align="center">7,214</td><td align="center">7,355 (p0.68)</td><td align="center">7,051 (W)</td><td align="center">7,110 (p0.11)</td><td align="center">7,010 (W)</td></tr><tr><td align="left">8</td><td align="center">P2</td><td align="center">4,308</td><td align="center">4,388 (p0.90)</td><td align="center">4,248 (p0.14)</td><td align="center">4,375 (p0.84)</td><td align="center">4,194 (W)</td></tr><tr><td align="left">9</td><td align="center">P3</td><td align="center">8,613</td><td align="center">8,139 (p0.29)</td><td align="center">8,312 (p0.37)</td><td align="center">8,486 (p0.43)</td><td align="center">7,664 (p0.18)</td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

Journal of Applied Mathematics

tab1

Table 1

Table 1: Intelligent Inventory Control via Ruminative Reinforcement Learning