Learning to Locomote with Artificial Neural-Network and CPG-based Control in a Soft Snake Robot (2020)

논문 정보

출간 연도: 2020
출간 저널/학회: 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)
citation 수: 34
DOI: 10.1109/iros45743.2020.9340763

APA

Liu, X. ; Gasoto, R. ; Jiang, Z. ; Onal, C. ; Fu, J. (2020). Learning to Locomote with Artificial Neural-Network and CPG-based Control in a Soft Snake Robot. 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). https://doi.org/10.1109/iros45743.2020.9340763

BibTeX

@inproceedings{Liu_2020, title={Learning to Locomote with Artificial Neural-Network and CPG-based Control in a Soft Snake Robot}, url={http://dx.doi.org/10.1109/iros45743.2020.9340763}, DOI={10.1109/iros45743.2020.9340763}, booktitle={2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)}, publisher={IEEE}, author={Liu, Xuan and Gasoto, Renato and Jiang, Ziyi and Onal, Cagdas and Fu, Jie}, year={2020}, month=oct, pages={7758â€“7765} }

초록

본 논문에서는 소프트 로봇 뱀을 위한 새로운 이동 제어 방법을 제시한다. 생물학적 뱀에서 영감을 받아, 우리의 제어 아키텍처는 두 가지 핵심 모듈로 구성된다: 변하는 목표에 대해 적응적인 목표 추적 행동을 달성하기 위한 강화학습(RL) 모듈과, 안정적이고 다양한 이동 패턴을 생성하기 위한 Matsuoka 오실레이터 기반의 중앙 패턴 생성기(CPG) 시스템이다. 두 모듈은 폐루프 시스템으로 상호 연결된다: 척추동물의 중뇌에 위치한 이동 영역에 비유되는 RL 모듈은 로봇의 상태 피드백이 주어졌을 때 CPG 시스템으로의 입력을 조절한다. 이후 CPG 시스템의 출력은 소프트 뱀 로봇의 공압 액추에이터에 대한 압력 입력으로 변환된다. Matsuoka 오실레이터의 진동 주파수와 파형 진폭이 서로 다른 시간 스케일에서 독립적으로 제어될 수 있다는 사실에 기반하여, 우리는 최적성과 데이터 효율성으로 측정되는 학습 성능을 개선하기 위해 option-critic 프레임워크를 추가로 적용한다. 제안된 제어기의 성능은 시뮬레이션과 실제 소프트 뱀 로봇 모두에서 실험적으로 검증된다.

문제 상황

소프트 연속체 로봇은 본질적으로 무한 자유도에 가까운 변형 특성과 비선형·지연·확률적 액추에이터 응답을 가지므로, 기존 강체 로봇용 궤적추종 제어를 그대로 적용하기 어렵습니다.
기존 생체모사 CPG 제어는 주로 강체 로봇에서 성공했지만, 소프트 로봇에서는 저수준 추종기가 동일 성능을 재현하지 못해 목표 추적 품질이 크게 저하됩니다.
또한 다수 연구가 고정 목표나 제한된 지형에 집중해, 목표가 계속 바뀌는 상황에서의 적응적 목표 추적 능력이 부족했습니다.
따라서 소프트 뱀 로봇에서 목표 변화·환경 변화에 적응하면서도 안정적 주기운동을 유지하는 지능형 폐루프 제어 구조가 필요합니다.

제안하는 방법

저자들은 RL 모듈과 CPG 모듈을 폐루프로 결합해, 고수준 의사결정은 학습으로 담당하고 저수준 리듬 생성은 신경 오실레이터가 담당하는 계층형 제어를 제안합니다. 핵심은 RL이 CPG의 자극/주파수 관련 입력을 상황별로 조절해 목표 추적 적응성을 확보하고, CPG가 물리적으로 부드럽고 연속적인 구동 파형을 생성해 실제 소프트 액추에이터에 직접 연결하는 점입니다.

1. 상태 인식 및 목표 조건 통합
- 입력: 로봇 상태 피드백(자세/진행 방향/구동 상태) + 목표 위치 정보
- 처리: RL 모듈이 현재 목표 대비 오차와 운동 맥락을 반영한 상태 표현을 구성
- 출력: CPG 조절에 사용할 고수준 제어 신호
1. RL 모듈의 CPG 조절 신호 생성
- 입력: 상태 표현, 목표 추적 보상 구조
- 처리: RL이 CPG의 신경 자극 입력과 주파수 비율 등 상위 파라미터를 선택
- 출력: 시점별 CPG modulation command
- 조건/예외: 목표가 변경되면 정책이 재적응해 조절 신호를 갱신