Intelligent Online Multiconstrained Reentry Guidance Based on Hindsight Experience Replay

<table class="table-group" id="tab4"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td class="align_left">Hyperparameter</td><td class="align_center">DDPG</td><td class="align_center">PPO</td><td class="align_center">DDPG+HER</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left">Discount factor <svg height="9.49473pt" id="M269" style="vertical-align:-0.2063999pt" version="1.1" viewbox="-0.0498162 -9.28833 7.30254 9.49473" width="7.30254pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M529 97L508 118C475 75 449 58 438 58C428 58 421 66 415 104C393 234 374 403 364 496C345 670 307 712 254 712C220 712 174 691 153 669L161 645C176 653 194 658 206 658C237 658 261 640 278 562C287 522 290 483 293 434C223 269 110 105 23 9L32 -12C59 -6 85 0 108 7C152 64 251 252 300 366C307 297 315 221 337 82C346 24 363 -12 393 -12C425 -12 475 13 529 97Z"></path></g></svg></td><td class="align_center">0.99</td><td class="align_center">0.99</td><td class="align_center">0.99</td></tr><tr><td class="align_left">Batch size</td><td class="align_center">64</td><td class="align_center">64</td><td class="align_center">64</td></tr><tr><td class="align_left">Replay buffer size</td><td class="align_center">20000</td><td class="align_center">—</td><td class="align_center">20000</td></tr><tr><td class="align_left">Actor learning rate</td><td class="align_center">10<sup>−4</sup></td><td class="align_center">10<sup>−3</sup></td><td class="align_center">10<sup>−4</sup></td></tr><tr><td class="align_left">Critic learning rate</td><td class="align_center">10<sup>−3</sup></td><td class="align_center">10<sup>−3</sup></td><td class="align_center">10<sup>−3</sup></td></tr><tr><td class="align_left">Target update rate <svg height="6.1673pt" id="M270" style="vertical-align:-0.2063904pt" version="1.1" viewbox="-0.0498162 -5.96091 6.40217 6.1673" width="6.40217pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M471 456L444 459C426 433 414 430 388 430C324 430 270 434 216 434C103 434 51 374 23 338L43 317C96 366 146 380 221 375L154 109C149 86 147 68 147 52C147 4 168 -12 197 -12C240 -12 291 25 334 71L320 96C295 75 268 58 252 58C238 58 227 79 238 138C251 211 272 296 292 372C310 372 332 368 350 368C391 368 421 369 434 371C444 388 455 413 471 456Z"></path></g></svg></td><td class="align_center">0.001</td><td class="align_center">—</td><td class="align_center">0.001</td></tr><tr><td class="align_left">Maximum number of steps</td><td class="align_center">1000</td><td class="align_center">1000</td><td class="align_center">1000</td></tr><tr><td class="align_left">Exploration policy</td><td class="align_center">OU</td><td class="align_center">—</td><td class="align_center"><span style="width: 50.8853ptpx;"><svg height="11.5564pt" id="M271" style="vertical-align:-2.45076pt" version="1.1" viewbox="-0.0498162 -9.10564 50.8853 11.5564" width="50.8853pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M569 131C584 203 591 291 596 391C603 524 609 615 622 658L609 669C545 642 461 523 357 312C267 129 194 14 119 14C104 14 91 21 88 36H91C96 33 101 32 107 32C134 32 149 54 149 77C149 104 128 128 97 128C65 128 38 101 38 62C38 19 71 -15 118 -15C207 -15 274 84 391 315C446 423 501 518 534 563L535 562C518 501 511 401 508 297C504 160 495 63 476 -13H496C588 65 656 224 712 363C783 536 828 621 863 640H866C866 608 894 595 913 595C937 595 956 613 956 641C956 670 935 687 904 687C875 687 853 675 830 650C782 596 735 496 692 394C649 290 605 184 570 131H569Z"></path></g><g transform="matrix(.013,0,0,-0.013,14.789,.183)"><path d="M300 -147C201 -63 143 98 143 270S200 602 300 686L282 710C136 610 70 450 70 271V270C70 89 136 -72 282 -170L300 -147Z"></path></g><g transform="matrix(.013,0,0,-0.013,19.304,0)"><path d="M241 635C89 635 35 457 35 312C35 153 89 -12 240 -12C390 -12 443 166 443 312C443 466 390 635 241 635ZM238 602C329 602 354 454 354 312C354 172 330 22 240 22C152 22 124 173 124 313S148 602 238 602Z"></path></g><g transform="matrix(.013,0,0,-0.013,25.544,0)"><path d="M95 130C70 130 46 113 46 88C46 72 54 64 59 64C93 55 121 33 121 -3C121 -41 93 -68 44 -88L55 -117C117 -98 186 -56 186 22C186 91 131 130 95 130Z"></path></g><g transform="matrix(.013,0,0,-0.013,30.687,0)"><path d="M241 635C89 635 35 457 35 312C35 153 89 -12 240 -12C390 -12 443 166 443 312C443 466 390 635 241 635ZM238 602C329 602 354 454 354 312C354 172 330 22 240 22C152 22 124 173 124 313S148 602 238 602Z"></path></g><g transform="matrix(.013,0,0,-0.013,36.927,0)"><path d="M113 -12C146 -12 170 11 170 46C170 78 146 103 114 103S58 78 58 46C58 11 82 -12 113 -12Z"></path></g><g transform="matrix(.013,0,0,-0.013,39.891,0)"><path d="M384 0V27C293 34 287 42 287 114V635C232 613 172 594 109 583V559L157 557C201 555 205 550 205 499V114C205 42 199 34 109 27V0H384Z"></path></g><g transform="matrix(.013,0,0,-0.013,46.131,.183)"><path d="M275 270C275 450 212 609 64 710L45 686C145 604 203 442 203 270S147 -63 45 -147L64 -170C213 -68 275 89 275 270Z"></path></g></svg></span></td></tr><tr><td class="align_left">GAE factor</td><td class="align_center">—</td><td class="align_center">0.98</td><td class="align_center">—</td></tr><tr><td class="align_left">Clip factor</td><td class="align_center">—</td><td class="align_center">0.2</td><td class="align_center">—</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The hyperparameters in the training.</div>

International Journal of Aerospace Engineering

tab4

Table 4

Table 4: Intelligent Online Multiconstrained Reentry Guidance Based on Hindsight Experience Replay