Minimizing the Cost of Spatiotemporal Searches Based on Reinforcement Learning with Probabilistic States

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="9"><hr/></td></tr><tr class="thead"><td class="align_left">Start moment</td><td class="align_center">Training time</td><td class="align_center">8 : 00</td><td class="align_center">10 : 00</td><td class="align_center">12 : 00</td><td class="align_center">14 : 00</td><td class="align_center">16 : 00</td><td class="align_center">18 : 00</td><td class="align_center">20 : 00</td></tr><tr><td class="thead-hr" colspan="9"><hr/></td></tr><tr><td class="align_left"><i>α</i> =1.0,<i>γ</i> = 1</td><td class="align_center"><b>11.50</b> h</td><td class="align_center">32.81</td><td class="align_center">32.90</td><td class="align_center">34.85</td><td class="align_center">32.72</td><td class="align_center">34.06</td><td class="align_center">30.15</td><td class="align_center">34.97</td></tr><tr><td class="align_left"><i>α</i> = 0.5,<i>γ</i> = 1</td><td class="align_center"><b>30.36</b> h</td><td class="align_center">32.81</td><td class="align_center">32.90</td><td class="align_center">34.85</td><td class="align_center">32.72</td><td class="align_center">34.06</td><td class="align_center">30.15</td><td class="align_center">34.97</td></tr><tr><td class="align_left"><i>α</i> = 0.3,<i>γ</i> = 1</td><td class="align_center"><b>54.12</b> h</td><td class="align_center">32.81</td><td class="align_center">32.90</td><td class="align_center">34.85</td><td class="align_center">32.72</td><td class="align_center">34.06</td><td class="align_center">30.15</td><td class="align_center">34.97</td></tr><tr><td class="align_left"><i>α</i> = 0.1,<i>γ</i> = 1</td><td class="align_center"><b>98.34</b> h</td><td class="align_center">32.81</td><td class="align_center">32.90</td><td class="align_center">34.85</td><td class="align_center">32.72</td><td class="align_center">34.06</td><td class="align_center">30.15</td><td class="align_center">34.97</td></tr><tr class="table-tr"><td colspan="9"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Accumulative search cost of QDP with different learning rates.</div>

Wireless Communications and Mobile Computing

tab2

Table 2

Table 2: Minimizing the Cost of Spatiotemporal Searches Based on Reinforcement Learning with Probabilistic States