Gan, Y. ; Li, P. ; Jiang, H. ; Wang, G. ; Jin, Y. ; Chen, X. ; Ji, J. (2022). A Reinforcement Learning Method for Motion Control With Constraints on an HPN Arm. IEEE Robotics and Automation Letters. https://doi.org/10.1109/lra.2022.3196789
@article{Gan_2022, title={A Reinforcement Learning Method for Motion Control With Constraints on an HPN Arm}, volume={7}, ISSN={2377-3774}, url={http://dx.doi.org/10.1109/lra.2022.3196789}, DOI={10.1109/lra.2022.3196789}, number={4}, journal={IEEE Robotics and Automation Letters}, publisher={Institute of Electrical and Electronics Engineers (IEEE)}, author={Gan, Yinghao and Li, Peijin and Jiang, Hao and Wang, Gaotian and Jin, Yusong and Chen, Xiaoping and Ji, Jianmin}, year={2022}, month=oct, pages={12006–12013} }
소프트 로봇 팔은 무한 수동 자유도와 고유한 안전성 때문에 인간의 일상생활 응용에 큰 잠재력을 보여 왔다. 일상에는 물컵을 전달하는 것처럼 로봇의 동작이 특정 자세 제약을 만족해야 하는 과제가 있으며, 이는 아직 소프트 팔로 구현되지 않았다. 소프트 팔의 작업공간은 하중이나 상호작용에 의해 영향을 받기 때문에, 모션 플래닝 방법으로 이 과제를 구현하기는 어렵다. 본 논문에서는 플래닝 없이 하중 및 상호작용 하에서 자세 제약을 만족하는 동작 제어를 직접 달성하기 위해 Q-learning 기반 접근을 제안한다. 먼저 환경과 상호작용이 없고 하중이 없는 조건에서 자세 제약을 만족하며 팔을 구동할 수 있는 Q-learning 기반 제어기를 생성한다. 그런 다음 제어기의 해당 Q 값을 조정하는 과정을 도입하여, 알려지지 않은 하중이나 상호작용이 있을 때에도 자세 제약을 여전히 만족하며 팔을 구동할 수 있도록 한다. 우리는 제안 접근을 Honeycomb Pneumatic Network(HPN) Arm에 구현했다. 실험 결과, 팔이 학습되지 않은 상황이나 상호작용 하에서 작업공간을 넘어선 경우에도 접근이 효과적임을 보인다.
저자들은 HPN 소프트 팔의 제약 포함 동작 제어를 위해, Q-learning으로 기본 제어기를 먼저 학습한 뒤, 미지 하중·상호작용 상황에 맞춰 Q값을 조정하는 2단계 제어 절차를 제안합니다. 핵심은 경로를 미리 고정하지 않고 현재 상황에서 바로 행동가치를 업데이트해 자세 제약을 유지하는 것입니다.