논문 정보

APA

Dong, X. ; Zhang, J. ; Cheng, L. ; Xu, W. ; Su, H. ; Mei, T. (2022). A policy gradient algorithm integrating long and short-term rewards for soft continuum arm control. Science China Technological Sciences. https://doi.org/10.1007/s11431-022-2063-8

BibTeX

@article{Dong_2022, title={A policy gradient algorithm integrating long and short-term rewards for soft continuum arm control}, volume={65}, ISSN={1869-1900}, url={http://dx.doi.org/10.1007/s11431-022-2063-8}, DOI={10.1007/s11431-022-2063-8}, number={10}, journal={Science China Technological Sciences}, publisher={Springer Science and Business Media LLC}, author={Dong, Xiang and Zhang, Jing and Cheng, Long and Xu, WenJun and Su, Hang and Mei, Tao}, year={2022}, month=jul, pages={2409–2419} }

초록

소프트 연속체 팔은 우수한 안전성과 유연성으로 산업 생산과 인간 생활에 광범위한 응용 가능성을 가진다. 강화학습은 시스템 모델을 알 수 없는 상황에서도 효과적인 제어 정책을 학습할 수 있어 소프트 팔 연속 제어 문제를 해결하는 강력한 기법이다. 그러나 높은 샘플 복잡도와 대량 데이터 요구로 인해 소프트 팔 제어에서 효율성이 제한된다. 본 논문은 이를 극복하기 위해 장·단기 보상을 통합한 개선된 정책경사법 PGLS를 제안한다. 단기 보상은 정책학습에 더 동역학 인지적인 탐색 방향을 제공하여 탐색 효율을 높이고, 장기 보상은 보상 변동을 줄여 학습 안정성을 향상시킨다. 또한 모든 시점의 이득을 활용하기 위해 새로운 가치함수를 도입해 학습 효율을 높인다. 시뮬레이션과 실제 소프트 연속체 팔 실험 결과는 제안 방법이 샘플 효율을 개선하고 더 높은 정확도와 안정성을 달성함을 보여준다.

문제 상황

제안하는 방법

저자들은 장기 보상과 단기 보상을 통합한 정책경사 알고리즘(PGLS)을 제안해, 탐색 효율과 학습 안정성을 함께 개선합니다.