Towards Safe Control of Continuum Manipulator Using Shielded Multiagent Reinforcement Learning (2021)

논문 정보

출간 연도: 2021
출간 저널/학회: IEEE Robotics and Automation Letters
citation 수: 46
DOI: 10.1109/lra.2021.3097660

APA

Ji, G. ; Yan, J. ; Du, J. ; Yan, W. ; Chen, J. ; Lu, Y. ; Rojas, J. ; Cheng, S. (2021). Towards Safe Control of Continuum Manipulator Using Shielded Multiagent Reinforcement Learning. IEEE Robotics and Automation Letters. https://doi.org/10.1109/lra.2021.3097660

BibTeX

@article{Ji_2021, title={Towards Safe Control of Continuum Manipulator Using Shielded Multiagent Reinforcement Learning}, volume={6}, ISSN={2377-3774}, url={http://dx.doi.org/10.1109/lra.2021.3097660}, DOI={10.1109/lra.2021.3097660}, number={4}, journal={IEEE Robotics and Automation Letters}, publisher={Institute of Electrical and Electronics Engineers (IEEE)}, author={Ji, Guanglin and Yan, Junyan and Du, Jingxin and Yan, Wanquan and Chen, Jibiao and Lu, Yongkang and Rojas, Juan and Cheng, Shing Shin}, year={2021}, month=oct, pages={7461â€“7468} }

초록

연속체 로봇 매니퓰레이터는 최소침습수술에서 점점 더 많이 채택되고 있다. 그러나 특히 외부 상호작용을 받을 때 비선형 거동을 정확히 모델링하기가 어려워 제어 성능 저하로 이어질 수 있다. 본 논문에서는 2자유도 케이블 구동 연속체 수술 매니퓰레이터를 제어하기 위해 모델 프리 멀티에이전트 강화학습, 즉 MADQN의 적용 가능성을 조사한다. 학습 효율을 높이기 위해 로봇 제어를 MADQN 프레임워크에서 1자유도-1에이전트 문제로 정식화한다. 행동 집합 경계를 동적으로 변화시키는 실딩(shielding) 기법과 결합하면 MADQN은 효율적이면서도 더 안전한 제어를 가능하게 한다. 실드드 MADQN은 외부 하중, 연성 장애물, 강체 충돌(수술 매니퓰레이터에서 흔한 상호작용 시나리오) 하에서 점 및 궤적 추적을 서브밀리미터 RMS 오차로 수행하게 했다. 이 제어기는 구조 비선형성이 높은 소형 연속체 로봇에서도 효과적임이 입증되었고, 외부 페이로드 하에서도 서브밀리미터 정확도의 궤적 추적을 달성했다.

문제 상황

연속체 수술 로봇은 구조 변형, 조직 상호작용, 충돌, 히스테리시스 때문에 정확한 모델 기반 제어가 어렵습니다.
외부 하중/접촉이 있는 실제 수술 조건에서 기존 제어기의 안전성과 추적 정밀도 보장이 어렵습니다.
동시에 고차원 제어 문제에서 학습 효율과 안전 제약을 함께 만족해야 합니다.

제안하는 방법

저자들은 2-DoF 케이블 구동 연속체 매니퓰레이터 제어를 위해 MADQN 기반 멀티에이전트 RL에 실딩(shielding) 기법을 결합했습니다. 핵심은 1-DoF당 1에이전트로 분해해 학습을 단순화하고, 상태에 따라 행동 경계를 동적으로 제한해 안전하지 않은 행동을 차단하는 것입니다.

1. 문제 분해
- 입력: 2-DoF 로봇 상태 및 목표
- 처리: 1-DoF, 1-agent 형태로 제어 문제를 분해
- 출력: 학습 효율을 높인 멀티에이전트 구조
1. MADQN 학습
- 입력: 각 에이전트 상태, 보상, 행동공간
- 처리: DQN 계열 업데이트로 DoF별 정책 학습
- 출력: 점/궤적 추적 가능한 협조 제어 정책
1. 실딩 기법 적용
- 입력: 현재 상태와 안전 제약
- 처리: 행동 집합 경계를 동적으로 조정해 위험 행동 배제
- 출력: 안전성이 강화된 선택 가능한 행동 집합