논문 정보

APA

Ji, G. ; Yan, J. ; Du, J. ; Yan, W. ; Chen, J. ; Lu, Y. ; Rojas, J. ; Cheng, S. (2021). Towards Safe Control of Continuum Manipulator Using Shielded Multiagent Reinforcement Learning. IEEE Robotics and Automation Letters. https://doi.org/10.1109/lra.2021.3097660

BibTeX

@article{Ji_2021, title={Towards Safe Control of Continuum Manipulator Using Shielded Multiagent Reinforcement Learning}, volume={6}, ISSN={2377-3774}, url={http://dx.doi.org/10.1109/lra.2021.3097660}, DOI={10.1109/lra.2021.3097660}, number={4}, journal={IEEE Robotics and Automation Letters}, publisher={Institute of Electrical and Electronics Engineers (IEEE)}, author={Ji, Guanglin and Yan, Junyan and Du, Jingxin and Yan, Wanquan and Chen, Jibiao and Lu, Yongkang and Rojas, Juan and Cheng, Shing Shin}, year={2021}, month=oct, pages={7461–7468} }

초록

연속체 로봇 매니퓰레이터는 최소침습수술에서 점점 더 많이 채택되고 있다. 그러나 특히 외부 상호작용을 받을 때 비선형 거동을 정확히 모델링하기가 어려워 제어 성능 저하로 이어질 수 있다. 본 논문에서는 2자유도 케이블 구동 연속체 수술 매니퓰레이터를 제어하기 위해 모델 프리 멀티에이전트 강화학습, 즉 MADQN의 적용 가능성을 조사한다. 학습 효율을 높이기 위해 로봇 제어를 MADQN 프레임워크에서 1자유도-1에이전트 문제로 정식화한다. 행동 집합 경계를 동적으로 변화시키는 실딩(shielding) 기법과 결합하면 MADQN은 효율적이면서도 더 안전한 제어를 가능하게 한다. 실드드 MADQN은 외부 하중, 연성 장애물, 강체 충돌(수술 매니퓰레이터에서 흔한 상호작용 시나리오) 하에서 점 및 궤적 추적을 서브밀리미터 RMS 오차로 수행하게 했다. 이 제어기는 구조 비선형성이 높은 소형 연속체 로봇에서도 효과적임이 입증되었고, 외부 페이로드 하에서도 서브밀리미터 정확도의 궤적 추적을 달성했다.

문제 상황

제안하는 방법

저자들은 2-DoF 케이블 구동 연속체 매니퓰레이터 제어를 위해 MADQN 기반 멀티에이전트 RL에 실딩(shielding) 기법을 결합했습니다. 핵심은 1-DoF당 1에이전트로 분해해 학습을 단순화하고, 상태에 따라 행동 경계를 동적으로 제한해 안전하지 않은 행동을 차단하는 것입니다.