Reinforcement Learning in an Environment Synthetically Augmented with Digital Pheromones

<table><tr><td><table class="algorithm" id="alg1"><tr><td colspan="2">initialize all <svg height="15.0875" id="M30" style="vertical-align:-2.3205pt" version="1.1" viewbox="0 0 30.875 15.0875" width="30.875" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,12.138)"><path d="M730 650l-8 -28q-52 -4 -72 -18t-64 -77q-79 -113 -321 -539h-33l-119 541q-13 59 -29.5 73t-66.5 20l7 28h245l-8 -28l-28 -5q-33 -6 -40.5 -15.5t-0.5 -38.5l102 -450h2q191 320 246 430q21 42 15.5 56t-43.5 19l-31 4l7 28h240z" id="x1D449"></path></g><g transform="matrix(.017,-0,0,-.017,12.676,12.138)"><path d="M300 -147l-18 -23q-106 71 -159 185.5t-53 254.5v1q0 139 53 252.5t159 186.5l18 -24q-74 -62 -115.5 -173.5t-41.5 -242.5q0 -130 41.5 -242.5t115.5 -174.5z" id="x28"></path></g><g transform="matrix(.017,-0,0,-.017,18.557,12.138)"><path d="M352 391q0 -31 -27 -44q-14 -7 -24 6q-39 48 -84 48q-23 0 -39.5 -15t-16.5 -40q0 -43 73 -90q49 -32 70 -58t21 -57q0 -58 -62 -105.5t-129 -47.5q-40 0 -75.5 25t-35.5 52q0 28 32 46q7 4 15 3t11 -6q19 -31 48.5 -50.5t54.5 -19.5q34 0 54 19.5t20 42.5q0 43 -65 81
q-97 56 -97 123q0 50 51 96q19 17 58 32.5t62 15.5q37 0 61 -18t24 -39z" id="x1D460"></path></g><g transform="matrix(.017,-0,0,-.017,24.932,12.138)"><path d="M275 270q0 -296 -211 -440l-19 23q75 62 116.5 174t41.5 243t-42 243t-116 173l19 24q211 -144 211 -440z" id="x29"></path></g>
</svg> arbitrarily</td></tr><tr><td colspan="2">for all episodes</td></tr><tr><td colspan="2"> initialize <svg height="7.9499998" id="M31" style="vertical-align:-0.1638pt" version="1.1" viewbox="0 0 6.5 7.9499998" width="6.5" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,7.675)"><path d="M352 391q0 -31 -27 -44q-14 -7 -24 6q-39 48 -84 48q-23 0 -39.5 -15t-16.5 -40q0 -43 73 -90q49 -32 70 -58t21 -57q0 -58 -62 -105.5t-129 -47.5q-40 0 -75.5 25t-35.5 52q0 28 32 46q7 4 15 3t11 -6q19 -31 48.5 -50.5t54.5 -19.5q34 0 54 19.5t20 42.5q0 43 -65 81
q-97 56 -97 123q0 50 51 96q19 17 58 32.5t62 15.5q37 0 61 -18t24 -39z" id="x1D460"></path></g>
</svg></td></tr><tr><td colspan="2"> repeat</td></tr><tr><td colspan="2">    choose the next state <svg height="20.924999" id="M32" style="vertical-align:-0.1638pt" version="1.1" viewbox="0 0 10.2625 20.924999" width="10.2625" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,20.662)"><path d="M352 391q0 -31 -27 -44q-14 -7 -24 6q-39 48 -84 48q-23 0 -39.5 -15t-16.5 -40q0 -43 73 -90q49 -32 70 -58t21 -57q0 -58 -62 -105.5t-129 -47.5q-40 0 -75.5 25t-35.5 52q0 28 32 46q7 4 15 3t11 -6q19 -31 48.5 -50.5t54.5 -19.5q34 0 54 19.5t20 42.5q0 43 -65 81
q-97 56 -97 123q0 50 51 96q19 17 58 32.5t62 15.5q37 0 61 -18t24 -39z" id="x1D460"></path></g>
<g transform="matrix(.008,-0,0,-.008,6.438,6.8)"><path d="M227 744l-123 -338l-31 15l73 368q12 3 41.5 -8t36.5 -20z" id="x2032"></path></g>
</svg> using policy</td></tr><tr><td colspan="2">    observe <svg height="7.9499998" id="M33" style="vertical-align:-0.1638pt" version="1.1" viewbox="0 0 7.3000002 7.9499998" width="7.3000002" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,7.675)"><path d="M393 379q-9 -16 -28 -29q-15 -10 -23 -2q-19 19 -36 19q-21 0 -52 -38q-57 -72 -82 -126l-40 -197q-23 -3 -75 -18l-7 7q49 196 74 335q7 43 -2 43q-7 0 -30 -14.5t-47 -37.5l-16 23q37 42 82 73t67 31q41 0 15 -113l-11 -50h4q41 71 85 117t77 46q29 0 45 -26
q13 -21 0 -43z" id="x1D45F"></path></g>
</svg></td></tr><tr><td colspan="2">    <svg height="33.174999" id="M34" style="vertical-align:-9.78706pt" version="1.1" viewbox="0 0 254.4375 33.174999" width="254.4375" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,114.413,21.175)"><path d="M389 -694h-230v1928h230v-44l-51 -3q-30 -1 -45.5 -2.5t-30 -9.5t-19.5 -15t-9 -29.5t-4.5 -43.5t-0.5 -66v-1549q0 -31 0.5 -45.5t4.5 -31t9 -21.5t19.5 -11t30 -7.5t45.5 -2.5l51 -3v-44z" id="xF6064"></path></g><g transform="matrix(.017,-0,0,-.017,168.575,21.187)"><path d="M473 -672l-26 -29q-179 157 -267.5 409.5t-88.5 562.5v1q0 307 88.5 558.5t267.5 412.5l26 -29q-139 -141 -217 -394t-78 -549q0 -295 78.5 -548.5t216.5 -394.5z" id="xF6024"></path></g><g transform="matrix(.017,-0,0,-.017,178.1,20.925)"><path d="M352 391q0 -31 -27 -44q-14 -7 -24 6q-39 48 -84 48q-23 0 -39.5 -15t-16.5 -40q0 -43 73 -90q49 -32 70 -58t21 -57q0 -58 -62 -105.5t-129 -47.5q-40 0 -75.5 25t-35.5 52q0 28 32 46q7 4 15 3t11 -6q19 -31 48.5 -50.5t54.5 -19.5q34 0 54 19.5t20 42.5q0 43 -65 81
q-97 56 -97 123q0 50 51 96q19 17 58 32.5t62 15.5q37 0 61 -18t24 -39z" id="x1D460"></path></g><g transform="matrix(.017,-0,0,-.017,.062,20.925)"><path d="M730 650l-8 -28q-52 -4 -72 -18t-64 -77q-79 -113 -321 -539h-33l-119 541q-13 59 -29.5 73t-66.5 20l7 28h245l-8 -28l-28 -5q-33 -6 -40.5 -15.5t-0.5 -38.5l102 -450h2q191 320 246 430q21 42 15.5 56t-43.5 19l-31 4l7 28h240z" id="x1D449"></path></g><g transform="matrix(.017,-0,0,-.017,12.676,20.925)"><path d="M300 -147l-18 -23q-106 71 -159 185.5t-53 254.5v1q0 139 53 252.5t159 186.5l18 -24q-74 -62 -115.5 -173.5t-41.5 -242.5q0 -130 41.5 -242.5t115.5 -174.5z" id="x28"></path></g><g transform="matrix(.017,-0,0,-.017,18.557,20.925)"><path d="M352 391q0 -31 -27 -44q-14 -7 -24 6q-39 48 -84 48q-23 0 -39.5 -15t-16.5 -40q0 -43 73 -90q49 -32 70 -58t21 -57q0 -58 -62 -105.5t-129 -47.5q-40 0 -75.5 25t-35.5 52q0 28 32 46q7 4 15 3t11 -6q19 -31 48.5 -50.5t54.5 -19.5q34 0 54 19.5t20 42.5q0 43 -65 81
q-97 56 -97 123q0 50 51 96q19 17 58 32.5t62 15.5q37 0 61 -18t24 -39z" id="x1D460"></path></g><g transform="matrix(.017,-0,0,-.017,24.932,20.925)"><path d="M275 270q0 -296 -211 -440l-19 23q75 62 116.5 174t41.5 243t-42 243t-116 173l19 24q211 -144 211 -440z" id="x29"></path></g><g transform="matrix(.017,-0,0,-.017,35.522,20.925)"><path d="M885 230h-727l102 -147l-22 -15q-114 125 -185 187q71 62 185 187l22 -15l-102 -147h727v-50z" id="x2190"></path></g><g transform="matrix(.017,-0,0,-.017,56.464,20.925)"><path d="M730 650l-8 -28q-52 -4 -72 -18t-64 -77q-79 -113 -321 -539h-33l-119 541q-13 59 -29.5 73t-66.5 20l7 28h245l-8 -28l-28 -5q-33 -6 -40.5 -15.5t-0.5 -38.5l102 -450h2q191 320 246 430q21 42 15.5 56t-43.5 19l-31 4l7 28h240z" id="x1D449"></path></g><g transform="matrix(.017,-0,0,-.017,69.077,20.925)"><path d="M300 -147l-18 -23q-106 71 -159 185.5t-53 254.5v1q0 139 53 252.5t159 186.5l18 -24q-74 -62 -115.5 -173.5t-41.5 -242.5q0 -130 41.5 -242.5t115.5 -174.5z" id="x28"></path></g><g transform="matrix(.017,-0,0,-.017,74.959,20.925)"><path d="M352 391q0 -31 -27 -44q-14 -7 -24 6q-39 48 -84 48q-23 0 -39.5 -15t-16.5 -40q0 -43 73 -90q49 -32 70 -58t21 -57q0 -58 -62 -105.5t-129 -47.5q-40 0 -75.5 25t-35.5 52q0 28 32 46q7 4 15 3t11 -6q19 -31 48.5 -50.5t54.5 -19.5q34 0 54 19.5t20 42.5q0 43 -65 81
q-97 56 -97 123q0 50 51 96q19 17 58 32.5t62 15.5q37 0 61 -18t24 -39z" id="x1D460"></path></g><g transform="matrix(.017,-0,0,-.017,81.334,20.925)"><path d="M275 270q0 -296 -211 -440l-19 23q75 62 116.5 174t41.5 243t-42 243t-116 173l19 24q211 -144 211 -440z" id="x29"></path></g><g transform="matrix(.017,-0,0,-.017,90.989,20.925)"><path d="M535 230h-212v-233h-58v233h-213v50h213v210h58v-210h212v-50z" id="x2B"></path></g><g transform="matrix(.017,-0,0,-.017,104.741,20.925)"><path d="M545 106q-67 -118 -134 -118q-24 0 -40 37.5t-30 129.5h-2q-47 -72 -103 -119.5t-108 -47.5q-47 0 -76 45.5t-29 119.5q0 113 85 204t174 91q47 0 70 -33.5t43 -119.5h3q32 47 80 140l55 13l10 -9q-47 -80 -138 -201q17 -99 27.5 -136t22.5 -37q23 0 69 61zM333 204
q-14 98 -31 149.5t-50 51.5q-49 0 -94 -70t-45 -164q0 -55 15.5 -86t40.5 -31q70 0 164 150z" id="x1D6FC"></path></g><g transform="matrix(.017,-0,0,-.017,122.737,20.925)"><path d="M393 379q-9 -16 -28 -29q-15 -10 -23 -2q-19 19 -36 19q-21 0 -52 -38q-57 -72 -82 -126l-40 -197q-23 -3 -75 -18l-7 7q49 196 74 335q7 43 -2 43q-7 0 -30 -14.5t-47 -37.5l-16 23q37 42 82 73t67 31q41 0 15 -113l-11 -50h4q41 71 85 117t77 46q29 0 45 -26
q13 -21 0 -43z" id="x1D45F"></path></g><g transform="matrix(.017,-0,0,-.017,133.685,20.925)"><path d="M535 230h-212v-233h-58v233h-213v50h213v210h58v-210h212v-50z" id="x2B"></path></g><g transform="matrix(.017,-0,0,-.017,147.437,20.925)"><path d="M478 372q0 -39 -31 -97t-61 -98t-78 -98q-45 -55 -73 -102q-13 -79 -13 -197q-11 -11 -43.5 -25.5t-53.5 -15.5l-15 17q5 35 26 101.5t47 123.5q8 72 -1.5 174.5t-37.5 178.5q-14 37 -29 37q-20 0 -67 -65l-25 21q37 60 73 90.5t63 30.5q47 0 72 -112q13 -56 17.5 -141.5
t0.5 -143.5h2q155 193 155 297q0 26 -12 47q-5 8 -5 15q0 16 12.5 27t29.5 11q21 0 34 -21t13 -55z" id="x1D6FE"></path></g><g transform="matrix(.017,-0,0,-.017,155.953,20.925)"><path d="M730 650l-8 -28q-52 -4 -72 -18t-64 -77q-79 -113 -321 -539h-33l-119 541q-13 59 -29.5 73t-66.5 20l7 28h245l-8 -28l-28 -5q-33 -6 -40.5 -15.5t-0.5 -38.5l102 -450h2q191 320 246 430q21 42 15.5 56t-43.5 19l-31 4l7 28h240z" id="x1D449"></path></g>
<g transform="matrix(.008,-0,0,-.008,184.475,7.05)"><path d="M227 744l-123 -338l-31 15l73 368q12 3 41.5 -8t36.5 -20z" id="x2032"></path></g>
<g transform="matrix(.017,-0,0,-.017,188.238,21.188)"><path d="M469 271q0 -310 -88.5 -562.5t-267.5 -409.5l-26 29q138 141 216.5 394.5t78.5 548.5q0 296 -78 549t-217 394l26 29q179 -161 267.5 -412.5t88.5 -558.5v-1z" id="xF6034"></path></g><g transform="matrix(.017,-0,0,-.017,227.912,21.175)"><path d="M300 -147l-18 -23q-106 71 -159 185.5t-53 254.5v1q0 139 53 252.5t159 186.5l18 -24q-74 -62 -115.5 -173.5t-41.5 -242.5q0 -130 41.5 -242.5t115.5 -174.5z" id="x28"></path></g><g transform="matrix(.017,-0,0,-.017,233.787,20.925)"><path d="M352 391q0 -31 -27 -44q-14 -7 -24 6q-39 48 -84 48q-23 0 -39.5 -15t-16.5 -40q0 -43 73 -90q49 -32 70 -58t21 -57q0 -58 -62 -105.5t-129 -47.5q-40 0 -75.5 25t-35.5 52q0 28 32 46q7 4 15 3t11 -6q19 -31 48.5 -50.5t54.5 -19.5q34 0 54 19.5t20 42.5q0 43 -65 81
q-97 56 -97 123q0 50 51 96q19 17 58 32.5t62 15.5q37 0 61 -18t24 -39z" id="x1D460"></path></g><g transform="matrix(.017,-0,0,-.017,201.538,20.925)"><path d="M535 230h-483v50h483v-50z" id="x2212"></path></g><g transform="matrix(.017,-0,0,-.017,215.289,20.925)"><path d="M730 650l-8 -28q-52 -4 -72 -18t-64 -77q-79 -113 -321 -539h-33l-119 541q-13 59 -29.5 73t-66.5 20l7 28h245l-8 -28l-28 -5q-33 -6 -40.5 -15.5t-0.5 -38.5l102 -450h2q191 320 246 430q21 42 15.5 56t-43.5 19l-31 4l7 28h240z" id="x1D449"></path></g><g transform="matrix(.017,-0,0,-.017,240.163,21.175)"><path d="M275 270q0 -296 -211 -440l-19 23q75 62 116.5 174t41.5 243t-42 243t-116 173l19 24q211 -144 211 -440z" id="x29"></path></g><g transform="matrix(.017,-0,0,-.017,246.044,21.175)"><path d="M332 -694h-230v44l51 3q30 1 45.5 2.5t30 7.5t19.5 11t9 21.5t4.5 31t0.5 45.5v1549q0 45 -0.5 66t-4.5 43.5t-9 29.5t-19.5 15t-30 9.5t-45.5 2.5l-51 3v44h230v-1928z" id="xF6074"></path></g>
</svg></td></tr><tr><td colspan="2">    <svg height="20.924999" id="M35" style="vertical-align:-0.1638pt" version="1.1" viewbox="0 0 42.299999 20.924999" width="42.299999" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,20.662)"><path d="M352 391q0 -31 -27 -44q-14 -7 -24 6q-39 48 -84 48q-23 0 -39.5 -15t-16.5 -40q0 -43 73 -90q49 -32 70 -58t21 -57q0 -58 -62 -105.5t-129 -47.5q-40 0 -75.5 25t-35.5 52q0 28 32 46q7 4 15 3t11 -6q19 -31 48.5 -50.5t54.5 -19.5q34 0 54 19.5t20 42.5q0 43 -65 81
q-97 56 -97 123q0 50 51 96q19 17 58 32.5t62 15.5q37 0 61 -18t24 -39z" id="x1D460"></path></g><g transform="matrix(.017,-0,0,-.017,11.146,20.662)"><path d="M885 230h-727l102 -147l-22 -15q-114 125 -185 187q71 62 185 187l22 -15l-102 -147h727v-50z" id="x2190"></path></g><g transform="matrix(.017,-0,0,-.017,32.088,20.662)"><path d="M352 391q0 -31 -27 -44q-14 -7 -24 6q-39 48 -84 48q-23 0 -39.5 -15t-16.5 -40q0 -43 73 -90q49 -32 70 -58t21 -57q0 -58 -62 -105.5t-129 -47.5q-40 0 -75.5 25t-35.5 52q0 28 32 46q7 4 15 3t11 -6q19 -31 48.5 -50.5t54.5 -19.5q34 0 54 19.5t20 42.5q0 43 -65 81
q-97 56 -97 123q0 50 51 96q19 17 58 32.5t62 15.5q37 0 61 -18t24 -39z" id="x1D460"></path></g>
<g transform="matrix(.008,-0,0,-.008,38.475,6.8)"><path d="M227 744l-123 -338l-31 15l73 368q12 3 41.5 -8t36.5 -20z" id="x2032"></path></g>
</svg></td></tr><tr><td colspan="2"> until <svg height="7.9499998" id="M36" style="vertical-align:-0.1638pt" version="1.1" viewbox="0 0 6.5 7.9499998" width="6.5" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,7.675)"><path d="M352 391q0 -31 -27 -44q-14 -7 -24 6q-39 48 -84 48q-23 0 -39.5 -15t-16.5 -40q0 -43 73 -90q49 -32 70 -58t21 -57q0 -58 -62 -105.5t-129 -47.5q-40 0 -75.5 25t-35.5 52q0 28 32 46q7 4 15 3t11 -6q19 -31 48.5 -50.5t54.5 -19.5q34 0 54 19.5t20 42.5q0 43 -65 81
q-97 56 -97 123q0 50 51 96q19 17 58 32.5t62 15.5q37 0 61 -18t24 -39z" id="x1D460"></path></g>
</svg> is terminal state</td></tr><tr><td colspan="2">  where <svg height="15.0875" id="M37" style="vertical-align:-2.3205pt" version="1.1" viewbox="0 0 30.875 15.0875" width="30.875" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,12.138)"><path d="M730 650l-8 -28q-52 -4 -72 -18t-64 -77q-79 -113 -321 -539h-33l-119 541q-13 59 -29.5 73t-66.5 20l7 28h245l-8 -28l-28 -5q-33 -6 -40.5 -15.5t-0.5 -38.5l102 -450h2q191 320 246 430q21 42 15.5 56t-43.5 19l-31 4l7 28h240z" id="x1D449"></path></g><g transform="matrix(.017,-0,0,-.017,12.676,12.138)"><path d="M300 -147l-18 -23q-106 71 -159 185.5t-53 254.5v1q0 139 53 252.5t159 186.5l18 -24q-74 -62 -115.5 -173.5t-41.5 -242.5q0 -130 41.5 -242.5t115.5 -174.5z" id="x28"></path></g><g transform="matrix(.017,-0,0,-.017,18.557,12.138)"><path d="M352 391q0 -31 -27 -44q-14 -7 -24 6q-39 48 -84 48q-23 0 -39.5 -15t-16.5 -40q0 -43 73 -90q49 -32 70 -58t21 -57q0 -58 -62 -105.5t-129 -47.5q-40 0 -75.5 25t-35.5 52q0 28 32 46q7 4 15 3t11 -6q19 -31 48.5 -50.5t54.5 -19.5q34 0 54 19.5t20 42.5q0 43 -65 81
q-97 56 -97 123q0 50 51 96q19 17 58 32.5t62 15.5q37 0 61 -18t24 -39z" id="x1D460"></path></g><g transform="matrix(.017,-0,0,-.017,24.932,12.138)"><path d="M275 270q0 -296 -211 -440l-19 23q75 62 116.5 174t41.5 243t-42 243t-116 173l19 24q211 -144 211 -440z" id="x29"></path></g>
</svg> is the value of being in state <svg height="7.9499998" id="M38" style="vertical-align:-0.1638pt" version="1.1" viewbox="0 0 6.5 7.9499998" width="6.5" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,7.675)"><path d="M352 391q0 -31 -27 -44q-14 -7 -24 6q-39 48 -84 48q-23 0 -39.5 -15t-16.5 -40q0 -43 73 -90q49 -32 70 -58t21 -57q0 -58 -62 -105.5t-129 -47.5q-40 0 -75.5 25t-35.5 52q0 28 32 46q7 4 15 3t11 -6q19 -31 48.5 -50.5t54.5 -19.5q34 0 54 19.5t20 42.5q0 43 -65 81
q-97 56 -97 123q0 50 51 96q19 17 58 32.5t62 15.5q37 0 61 -18t24 -39z" id="x1D460"></path></g>
</svg> and <svg height="23.612499" id="M39" style="vertical-align:-2.3205pt" version="1.1" viewbox="0 0 34.650002 23.612499" width="34.650002" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,20.662)"><path d="M730 650l-8 -28q-52 -4 -72 -18t-64 -77q-79 -113 -321 -539h-33l-119 541q-13 59 -29.5 73t-66.5 20l7 28h245l-8 -28l-28 -5q-33 -6 -40.5 -15.5t-0.5 -38.5l102 -450h2q191 320 246 430q21 42 15.5 56t-43.5 19l-31 4l7 28h240z" id="x1D449"></path></g><g transform="matrix(.017,-0,0,-.017,12.676,20.662)"><path d="M300 -147l-18 -23q-106 71 -159 185.5t-53 254.5v1q0 139 53 252.5t159 186.5l18 -24q-74 -62 -115.5 -173.5t-41.5 -242.5q0 -130 41.5 -242.5t115.5 -174.5z" id="x28"></path></g><g transform="matrix(.017,-0,0,-.017,18.557,20.662)"><path d="M352 391q0 -31 -27 -44q-14 -7 -24 6q-39 48 -84 48q-23 0 -39.5 -15t-16.5 -40q0 -43 73 -90q49 -32 70 -58t21 -57q0 -58 -62 -105.5t-129 -47.5q-40 0 -75.5 25t-35.5 52q0 28 32 46q7 4 15 3t11 -6q19 -31 48.5 -50.5t54.5 -19.5q34 0 54 19.5t20 42.5q0 43 -65 81
q-97 56 -97 123q0 50 51 96q19 17 58 32.5t62 15.5q37 0 61 -18t24 -39z" id="x1D460"></path></g>
<g transform="matrix(.008,-0,0,-.008,24.938,6.8)"><path d="M227 744l-123 -338l-31 15l73 368q12 3 41.5 -8t36.5 -20z" id="x2032"></path></g>
<g transform="matrix(.017,-0,0,-.017,28.7,20.662)"><path d="M275 270q0 -296 -211 -440l-19 23q75 62 116.5 174t41.5 243t-42 243t-116 173l19 24q211 -144 211 -440z" id="x29"></path></g>
</svg> is the value estimate</td></tr><tr><td colspan="2">   of the resultant state <svg height="20.924999" id="M40" style="vertical-align:-0.1638pt" version="1.1" viewbox="0 0 10.2625 20.924999" width="10.2625" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,20.662)"><path d="M352 391q0 -31 -27 -44q-14 -7 -24 6q-39 48 -84 48q-23 0 -39.5 -15t-16.5 -40q0 -43 73 -90q49 -32 70 -58t21 -57q0 -58 -62 -105.5t-129 -47.5q-40 0 -75.5 25t-35.5 52q0 28 32 46q7 4 15 3t11 -6q19 -31 48.5 -50.5t54.5 -19.5q34 0 54 19.5t20 42.5q0 43 -65 81
q-97 56 -97 123q0 50 51 96q19 17 58 32.5t62 15.5q37 0 61 -18t24 -39z" id="x1D460"></path></g>
<g transform="matrix(.008,-0,0,-.008,6.438,6.8)"><path d="M227 744l-123 -338l-31 15l73 368q12 3 41.5 -8t36.5 -20z" id="x2032"></path></g>
</svg>, <svg height="12.175" id="M41" style="vertical-align:-3.56265pt" version="1.1" viewbox="0 0 8.6374998 12.175" width="8.6374998" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,7.675)"><path d="M478 372q0 -39 -31 -97t-61 -98t-78 -98q-45 -55 -73 -102q-13 -79 -13 -197q-11 -11 -43.5 -25.5t-53.5 -15.5l-15 17q5 35 26 101.5t47 123.5q8 72 -1.5 174.5t-37.5 178.5q-14 37 -29 37q-20 0 -67 -65l-25 21q37 60 73 90.5t63 30.5q47 0 72 -112q13 -56 17.5 -141.5
t0.5 -143.5h2q155 193 155 297q0 26 -12 47q-5 8 -5 15q0 16 12.5 27t29.5 11q21 0 34 -21t13 -55z" id="x1D6FE"></path></g>
</svg> is the discount rate, and <svg height="7.9499998" id="M42" style="vertical-align:-0.1638pt" version="1.1" viewbox="0 0 9.7749996 7.9499998" width="9.7749996" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,7.675)"><path d="M545 106q-67 -118 -134 -118q-24 0 -40 37.5t-30 129.5h-2q-47 -72 -103 -119.5t-108 -47.5q-47 0 -76 45.5t-29 119.5q0 113 85 204t174 91q47 0 70 -33.5t43 -119.5h3q32 47 80 140l55 13l10 -9q-47 -80 -138 -201q17 -99 27.5 -136t22.5 -37q23 0 69 61zM333 204
q-14 98 -31 149.5t-50 51.5q-49 0 -94 -70t-45 -164q0 -55 15.5 -86t40.5 -31q70 0 164 150z" id="x1D6FC"></path></g>
</svg> is the learning rate.</td></tr></table></td></tr></table>

Temporal difference learning algorithm (adapted from [<a href="/journals/aai/2014/932485/#B7">7</a>]).

Advances in Artificial Intelligence

alg1

Algorithm 1

Algorithm 1: Reinforcement Learning in an Environment Synthetically Augmented with Digital Pheromones