A policy gradient algorithm integrating long and short-term rewards for soft continuum arm control (2022)

논문 정보

출간 연도: 2022
출간 저널/학회: Science China Technological Sciences
citation 수: 9
DOI: 10.1007/s11431-022-2063-8

APA

Dong, X. ; Zhang, J. ; Cheng, L. ; Xu, W. ; Su, H. ; Mei, T. (2022). A policy gradient algorithm integrating long and short-term rewards for soft continuum arm control. Science China Technological Sciences. https://doi.org/10.1007/s11431-022-2063-8

BibTeX

@article{Dong_2022, title={A policy gradient algorithm integrating long and short-term rewards for soft continuum arm control}, volume={65}, ISSN={1869-1900}, url={http://dx.doi.org/10.1007/s11431-022-2063-8}, DOI={10.1007/s11431-022-2063-8}, number={10}, journal={Science China Technological Sciences}, publisher={Springer Science and Business Media LLC}, author={Dong, Xiang and Zhang, Jing and Cheng, Long and Xu, WenJun and Su, Hang and Mei, Tao}, year={2022}, month=jul, pages={2409â€“2419} }

초록

소프트 연속체 팔은 우수한 안전성과 유연성으로 산업 생산과 인간 생활에 광범위한 응용 가능성을 가진다. 강화학습은 시스템 모델을 알 수 없는 상황에서도 효과적인 제어 정책을 학습할 수 있어 소프트 팔 연속 제어 문제를 해결하는 강력한 기법이다. 그러나 높은 샘플 복잡도와 대량 데이터 요구로 인해 소프트 팔 제어에서 효율성이 제한된다. 본 논문은 이를 극복하기 위해 장·단기 보상을 통합한 개선된 정책경사법 PGLS를 제안한다. 단기 보상은 정책학습에 더 동역학 인지적인 탐색 방향을 제공하여 탐색 효율을 높이고, 장기 보상은 보상 변동을 줄여 학습 안정성을 향상시킨다. 또한 모든 시점의 이득을 활용하기 위해 새로운 가치함수를 도입해 학습 효율을 높인다. 시뮬레이션과 실제 소프트 연속체 팔 실험 결과는 제안 방법이 샘플 효율을 개선하고 더 높은 정확도와 안정성을 달성함을 보여준다.

문제 상황

소프트 연속체 팔 제어는 비선형성 때문에 강화학습이 유효하지만, 샘플 복잡도가 높아 학습 데이터 요구량이 큽니다.
기존 정책경사법은 탐색 효율과 학습 안정성 사이의 균형이 어려워 수렴 속도와 정확도에 제약이 생깁니다.
실제 로봇 적용을 위해서는 데이터 효율, 제어 안정성, 추적 정확도를 동시에 개선할 방법이 필요합니다.

제안하는 방법

저자들은 장기 보상과 단기 보상을 통합한 정책경사 알고리즘(PGLS)을 제안해, 탐색 효율과 학습 안정성을 함께 개선합니다.

1. 보상 구조 분리
- 입력: 에피소드 상호작용 데이터
- 처리: 단기 보상(국소 동역학 반영)과 장기 보상(목표 누적 성과) 분리 설계
- 출력: 이중 보상 신호
1. 장·단기 보상 통합 정책경사
- 입력: 이중 보상 신호
- 처리: 정책 업데이트 시 단기 보상으로 탐색 방향 강화, 장기 보상으로 업데이트 안정화
- 출력: 개선된 정책 갱신 규칙
1. 새로운 가치함수 도입
- 입력: 전 시점 이득 정보
- 처리: 모든 타임스텝의 유효 정보를 반영해 가치추정 효율 향상
- 출력: 데이터 효율이 강화된 학습 신호