소연속 팔은 우수한 안전성 및 유연성으로 인해 산업 생산 및 인간 생활 전반에 걸쳐 광범위하게 적용되고 있다. 강화학습은 시스템 모델이 알려지지 않은 상태에서도 효과적인 제어 정책을 학습할 수 있는 강력한 기법으로, 소연속 팔의 연속 제어 문제 해결에 활용된다. 그러나 강화학습은 샘플 복잡도가 높고 학습에 대량의 데이터가 필요하여 소연속 팔 제어에 있어 효율성이 제한되는 경우가 많다. 본 논문에서는 이러한 문제를 극복하기 위해 장기·단기 보상을 통합한 정책 기울기 방법인 PGLS(Policy Gradient integrating Long and Short-term rewards)를 제안한다. 단기 보상은 정책 학습에 보다 동적 인식을 반영한 탐색 방향을 제공함으로써 알고리즘의 탐색 효율성을 향상시킨다. PGLS는 딥 결정적 정책 기울기(DDPG)와 같은 기존 정책 기울기 알고리즘에 통합될 수 있다. 전체 제어 프레임워크는 동역학 시뮬레이션 환경에서 구현 및 검증되었다. 시뮬레이션 결과는 본 접근법이 소연속 팔을 목표 위치에 도달시키고 추적하도록 효과적으로 제어함을 보여준다. DDPG 및 기타 모델 프리 강화학습 알고리즘과 비교했을 때, 제안된 PGLS 알고리즘은 수렴 속도와 성능 면에서 크게 향상된 것으로 나타났다. 또한 본 논문에서는 유압 구동 소연속 매니퓰레이터를 설계·제작했으며, 이를 통해 향후 실제 실험에서 제안된 PGLS 알고리즘을 검증할 수 있을 것으로 기대한다.
알고리즘 제안
Cosserat rod + PyElastica
제공해주신 두 번째 논문 "A policy gradient algorithm integrating long and short-term rewards for soft continuum arm control" (Dong 등, 2022)에 대한 정리 내용입니다. 이 논문은 소프트 로봇 팔의 제어를 위해 기존 강화학습의 데이터 효율성 문제를 개선한 PGLS 알고리즘을 제안합니다.
**연구 목적**: 소프트 연속체 로봇 팔(Soft Continuum Arm)의 고차원 연속 제어 문제를 해결하기 위해, 샘플 복잡성(Sample Complexity)을 줄이고 학습 효율을 높인 알고리즘을 개발함.
**핵심 제안**: 기존의 장기적 보상(Long-term rewards)에 더해, 환경 모델을 통해 예측된 **단기적 보상(Short-term rewards)**의 기울기를 정책 업데이트에 통합한 **PGLS(Policy Gradient integrating Long and Short-term rewards)** 알고리즘을 제안함.
**주요 기여**: 소프트 로봇의 복잡한 비선형 동역학을 고려한 탐색 방향을 제시하여 DDPG 등 기존 알고리즘보다 빠른 수렴 속도와 우수한 성능을 달성함.
**소프트 로봇의 복잡성**: 소프트 로봇은 무한한 자유도와 비선형 변형 특성을 지니고 있어 전통적인 모델 기반 제어가 매우 어려움.
**강화학습의 한계(샘플 복잡성)**: DDPG와 같은 모델 프리(Model-free) 강화학습은 연속 제어에 효과적이지만, 최적의 정책을 찾기 위해 방대한 양의 학습 데이터와 계산 자원이 필요함.
**탐색 효율 저하**: 고차원 상태 및 행동 공간에서 단순한 보상 지표만으로는 효율적인 탐색 방향을 잡기 어려워 학습 속도가 느려짐.