A Reinforcement Learning Method for Motion Control With Constraints on an HPN Arm (2022)

논문 정보

출간 연도: 2022
출간 저널/학회: IEEE Robotics and Automation Letters
citation 수: 10
DOI: 10.1109/lra.2022.3196789

APA

Gan, Y. ; Li, P. ; Jiang, H. ; Wang, G. ; Jin, Y. ; Chen, X. ; Ji, J. (2022). A Reinforcement Learning Method for Motion Control With Constraints on an HPN Arm. IEEE Robotics and Automation Letters. https://doi.org/10.1109/lra.2022.3196789

BibTeX

@article{Gan_2022, title={A Reinforcement Learning Method for Motion Control With Constraints on an HPN Arm}, volume={7}, ISSN={2377-3774}, url={http://dx.doi.org/10.1109/lra.2022.3196789}, DOI={10.1109/lra.2022.3196789}, number={4}, journal={IEEE Robotics and Automation Letters}, publisher={Institute of Electrical and Electronics Engineers (IEEE)}, author={Gan, Yinghao and Li, Peijin and Jiang, Hao and Wang, Gaotian and Jin, Yusong and Chen, Xiaoping and Ji, Jianmin}, year={2022}, month=oct, pages={12006â€“12013} }

초록

소프트 로봇 팔은 무한 수동 자유도와 고유한 안전성 때문에 인간의 일상생활 응용에 큰 잠재력을 보여 왔다. 일상에는 물컵을 전달하는 것처럼 로봇의 동작이 특정 자세 제약을 만족해야 하는 과제가 있으며, 이는 아직 소프트 팔로 구현되지 않았다. 소프트 팔의 작업공간은 하중이나 상호작용에 의해 영향을 받기 때문에, 모션 플래닝 방법으로 이 과제를 구현하기는 어렵다. 본 논문에서는 플래닝 없이 하중 및 상호작용 하에서 자세 제약을 만족하는 동작 제어를 직접 달성하기 위해 Q-learning 기반 접근을 제안한다. 먼저 환경과 상호작용이 없고 하중이 없는 조건에서 자세 제약을 만족하며 팔을 구동할 수 있는 Q-learning 기반 제어기를 생성한다. 그런 다음 제어기의 해당 Q 값을 조정하는 과정을 도입하여, 알려지지 않은 하중이나 상호작용이 있을 때에도 자세 제약을 여전히 만족하며 팔을 구동할 수 있도록 한다. 우리는 제안 접근을 Honeycomb Pneumatic Network(HPN) Arm에 구현했다. 실험 결과, 팔이 학습되지 않은 상황이나 상호작용 하에서 작업공간을 넘어선 경우에도 접근이 효과적임을 보인다.

문제 상황

소프트 팔은 하중과 환경 상호작용에 따라 작업공간과 동작-출력 매핑이 크게 변해, 사전 경로계획 기반 제어가 쉽게 비가용(불가능 경로) 상태가 됩니다.
물컵 운반처럼 말단 위치뿐 아니라 자세 제약(예: 컵 수평 유지)을 동시에 만족해야 하는 과제는 기존 방법으로 안정적으로 수행하기 어렵습니다.
특히 외력/접촉이 미지인 실환경에서는 미리 계산한 경로의 유효성이 보장되지 않아, 플래닝 없이 즉시 대응 가능한 제어 방식이 필요합니다.

제안하는 방법

저자들은 HPN 소프트 팔의 제약 포함 동작 제어를 위해, Q-learning으로 기본 제어기를 먼저 학습한 뒤, 미지 하중·상호작용 상황에 맞춰 Q값을 조정하는 2단계 제어 절차를 제안합니다. 핵심은 경로를 미리 고정하지 않고 현재 상황에서 바로 행동가치를 업데이트해 자세 제약을 유지하는 것입니다.

1. 무하중·무상호작용 조건에서 기준 Q-제어기 학습
- 입력: HPN 팔의 상태, 목표 위치/자세 제약, 가능한 행동 집합
- 처리: Q-learning으로 상태-행동 가치함수를 학습
- 출력: 기본 작업공간 내에서 제약을 만족하는 기준 제어기
1. 제약 포함 보상 설계로 행동 선호 유도
- 입력: 목표 도달 오차 + 자세 제약 위반 정도
- 처리: 제약 위반에 페널티를 부여하고 제약 만족 상태를 보상하는 방식으로 Q 업데이트
- 출력: 위치 성능과 제약 만족을 동시에 반영한 행동가치
1. 미지 하중/상호작용 대응 Q값 조정 프로세스
- 입력: 실행 중 관측되는 오차/상태 변화, 기존 Q 테이블(또는 대응 구조)
- 처리: 상황 변화에 맞춰 대응하는 상태-행동의 Q값을 보정해 정책을 재적응
- 출력: 외력/접촉이 있는 조건에서도 유효한 수정 제어기
- 조건/예외: 작업공간이 축소·변형된 경우에도 제약 만족 행동을 우선 선택