Towards Adaptive Continuous Control of Soft Robotic Manipulator using Reinforcement Learning (2022)

논문 정보

출간 연도: 2022
출간 저널/학회: 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)
citation 수: 26
DOI: 10.1109/iros47612.2022.9981335

APA

Li, Y. ; Wang, X. ; Kwok, K. (2022). Towards Adaptive Continuous Control of Soft Robotic Manipulator using Reinforcement Learning. 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). https://doi.org/10.1109/iros47612.2022.9981335

BibTeX

@inproceedings{Li_2022, title={Towards Adaptive Continuous Control of Soft Robotic Manipulator using Reinforcement Learning}, url={http://dx.doi.org/10.1109/iros47612.2022.9981335}, DOI={10.1109/iros47612.2022.9981335}, booktitle={2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)}, publisher={IEEE}, author={Li, Yingqi and Wang, Xiaomei and Kwok, Ka-Wai}, year={2022}, month=oct, pages={7074â€“7081} }

초록

소프트 로봇이 정교하고 안전한 조작에서 인기를 얻고 있음에도 정확한 동작 제어는 아직 탐구가 필요한 미해결 문제이다. 최근 연구들은 강화학습(RL)이 유망한 해결책임을 시사하지만 Sim2Real 전이 또는 환경 변화에 대한 효율적 적응성이 부족하다. 본 논문은 소프트 로봇의 연속 작업공간 조작을 위한 DDPG 기반 제어 시스템을 제시한다. 시뮬레이션에서는 빠른 제어 정책 초기화를 위해 도메인 랜덤화를 적용하고, 점진 학습을 위해 제어기 파라미터를 갱신하는 오프라인 재학습 전략을 사용한다. 실험은 제안한 RL 제어기가 이동 표적을 정확히 추적할 수 있고(RMSE 1.26 mm), 외부 가변 하중에도 효과적으로 적응할 수 있음을 보여준다(재학습 후 RMSE 약 30% 감소). 추가 말단 하중 처리에서 제안 RL 제어기와 다른 지도학습 기반 제어기를 비교한 결과도 제시하였다. 결과는 특히 외란과 작동 중복성이 있는 경우, 수동 데이터 처리 개입 없이 자동 학습이 가능하다는 점에서 본 RL 방법의 적합성을 뒷받침한다.

문제 상황

소프트 매니퓰레이터는 고비선형 재료/구동 특성으로 정밀 제어가 어렵고, 외부 하중/외란이 있으면 기존 모델 기반 제어 성능이 급격히 저하됩니다.
지도학습 기반 제어는 데이터 품질과 전처리에 강하게 의존해 수동 개입 비용이 크며, 작동 중복성 때문에 데이터 불균형 문제도 발생합니다.
이산 행동 중심 Q-learning 계열은 연속 제어 해상도와 고차원 적용성에 한계가 있어 연속 작업공간 제어에 제약이 있습니다.

제안하는 방법

저자들은 연속 작업공간 제어를 위해 DDPG 기반 RL 제어기를 제안하고, 도메인 랜덤화로 초기 정책을 빠르게 만들고 오프라인 재학습으로 환경 변화(특히 하중 변화)에 적응시키는 절차를 제시합니다.

1. 시뮬레이션 기반 초기 정책 학습
- 입력: 소프트 팔 상태/목표, 액추에이션 명령 공간
- 처리: DDPG(actor-critic)로 연속 상태-행동 정책 학습
- 출력: 연속 제어 가능한 초기 정책
1. 도메인 랜덤화 적용
- 입력: 시뮬레이션 파라미터 변이(환경/모델 조건)
- 처리: 다양한 도메인에서 정책을 학습해 Sim2Real 격차 완화
- 출력: 초기 전이 성능이 개선된 정책
1. 오프라인 재학습(점진 학습)
- 입력: 실제 환경 데이터(외부 하중 포함)
- 처리: 기존 제어기의 Q/정책 파라미터를 추가 데이터로 갱신
- 출력: 환경 변화에 적응한 업데이트 정책