Model-Based Reinforcement Learning for Closed-Loop Dynamic Control of Soft Robotic Manipulators (2019)

논문 정보

출간 연도: 2019
출간 저널/학회: IEEE Transactions on Robotics
citation 수: 387
DOI: 10.1109/tro.2018.2878318

APA

Thuruthel, T. ; Falotico, E. ; Renda, F. ; Laschi, C. (2019). Model-Based Reinforcement Learning for Closed-Loop Dynamic Control of Soft Robotic Manipulators. IEEE Transactions on Robotics. https://doi.org/10.1109/tro.2018.2878318

BibTeX

@article{Thuruthel_2019, title={Model-Based Reinforcement Learning for Closed-Loop Dynamic Control of Soft Robotic Manipulators}, volume={35}, ISSN={1941-0468}, url={http://dx.doi.org/10.1109/tro.2018.2878318}, DOI={10.1109/tro.2018.2878318}, number={1}, journal={IEEE Transactions on Robotics}, publisher={Institute of Electrical and Electronics Engineers (IEEE)}, author={Thuruthel, Thomas George and Falotico, Egidio and Renda, Federico and Laschi, Cecilia}, year={2019}, month=feb, pages={124â€“134} }

초록

소프트 로봇 매니퓰레이터의 동적 제어는 아직 충분히 탐구되고 분석되지 않은 열린 문제이다. 현재 소프트 로봇 매니퓰레이터의 대부분의 응용은 운동학 모델 또는 관절 공간의 선형성에 기반한 정적 또는 준동적 제어기를 사용한다. 그러나 이러한 접근은 소프트 바디 시스템의 풍부한 동역학을 진정으로 활용하지 못한다. 이 논문에서 우리는 소프트 로봇 매니퓰레이터의 폐루프 예측 제어를 위한 모델 기반 정책 학습 알고리즘을 제시한다. 순방향 동역학 모델은 순환 신경망을 사용해 표현한다. 폐루프 정책은 궤적 최적화와 지도학습을 사용해 도출된다. 이 접근은 먼저 케이블 구동 언더액추에이티드 소프트 매니퓰레이터의 시뮬레이션된 조각별 상수 변형률 모델에서 검증된다. 더 나아가 우리는 가변 주파수 제어와 모델링되지 않은 외부 하중을 수용할 수 있는 폐루프 제어 정책을 소프트 공압 구동 매니퓰레이터에서 실험적으로 입증한다.

문제 상황

소프트 매니퓰레이터는 연속체 특성과 강한 비선형성 때문에, 기존 강체 로봇 제어처럼 단순한 관절공간 모델로는 동적 거동을 정확히 다루기 어렵습니다.
기존 접근의 다수는 정적/준동적 제어에 머물러 고속 동작, 효율, 도달 가능 영역 측면에서 한계를 보입니다.
동적 제어로 가려면 정확한 동역학 모델이 필요하지만, 소프트 로봇의 모델링 복잡도 때문에 실시간 폐루프 제어 가능한 형태로 만들기가 어렵습니다.
특히 외란(예: 외부 하중)과 제어 주파수 변화가 있는 실제 환경에서, 모델 불일치까지 견딜 수 있는 정책 학습 방식이 필요합니다.

제안하는 방법

저자들은 소프트 매니퓰레이터의 폐루프 동적 제어를 위해, 순환신경망(RNN) 기반 순방향 동역학 모델과 궤적 최적화, 그리고 지도학습을 결합한 모델 기반 강화학습 파이프라인을 제안합니다. 핵심은 예측 가능한 모델 위에서 제어 시퀀스를 먼저 계산하고, 이를 정책으로 증류해 실시간 폐루프 제어기로 사용하는 것입니다.

1. 데이터 수집 및 상태-행동 표현 정의
- 입력: 매니퓰레이터 상태(형상/속도 등), 구동 입력(케이블 장력 또는 공압 입력), 목표 궤적/목표점
- 처리: 시뮬레이션/실험에서 시계열 데이터를 수집해 동역학 학습용 데이터셋 구성
- 출력: 시간 의존성을 보존한 상태-행동-다음상태 전이 샘플
1. RNN 기반 순방향 동역학 모델 학습
- 입력: 과거 상태·입력 시퀀스
- 처리: RNN이 내부 메모리로 히스테리시스/지연 등 소프트 로봇의 동적 특성을 근사하도록 학습
- 출력: 주어진 제어 입력 시 미래 상태를 예측하는 모델
- 조건/예외: 모델 오차가 큰 구간은 정책 학습 시 재계획 빈도 증가나 피드백 보정을 통해 완화