A Novel Sample-Efficient Deep Reinforcement Learning with Episodic Policy Transfer for PID-Based Control in Robotic Catheter System (2024)

논문 정보

출간 연도: 2024
출간 저널/학회: 2024 IEEE International Conference on Robotics and Biomimetics (ROBIO)
citation 수: 3
DOI: 10.1109/robio64047.2024.10907735

APA

Omisore, O. ; Akinyemi, T. ; Duan, W. ; Du, W. ; Wang, L. (2024). A Novel Sample-Efficient Deep Reinforcement Learning with Episodic Policy Transfer for PID-Based Control in Robotic Catheter System. 2024 IEEE International Conference on Robotics and Biomimetics (ROBIO). https://doi.org/10.1109/robio64047.2024.10907735

BibTeX

@inproceedings{Omisore_2024, title={A Novel Sample-Efficient Deep Reinforcement Learning with Episodic Policy Transfer for PID-Based Control in Robotic Catheter System}, url={http://dx.doi.org/10.1109/robio64047.2024.10907735}, DOI={10.1109/robio64047.2024.10907735}, booktitle={2024 IEEE International Conference on Robotics and Biomimetics (ROBIO)}, publisher={IEEE}, author={Omisore, Olatunji Mumini and Akinyemi, Toluwanimi Oluwadara and Duan, Wenke and Du, Wenjing and Wang, Lei}, year={2024}, month=dec, pages={2068â€“2073} }

초록

로봇 카테터시술은 오늘날 일반적으로 경피적 관상동맥 중재술 절차에 사용되며, 관상동맥의 폐색을 개방하기 위해 유연한 혈관내 도구를 조향하는 과정을 포함한다. 본 연구에서는 처음으로 완전 적응형 PID 튜닝 전략을 갖춘 로봇 카테터시술 중 운동 제어에 에피소드 정책 전이를 포함한 샘플 효율적 심층 강화학습을 사용하였다. 강화 모델은 에이전트가 환경과의 상호작용으로부터 지속적으로 학습하고 혈관내 도구의 축 방향 내비게이션을 위해 PID 제어 게인을 적응적으로 튜닝하도록 돕는다. 제안 모델은 혈관내 카테터시술을 위해 설계된 로봇 시스템의 축 방향 운동 제어에 대해 검증되었다. 모델 적용을 검증하기 위해 시뮬레이션과 실험 시험을 수행했으며, 얻어진 결과는 해당 모델이 로봇 카테터 시스템의 운동 제어를 위해 PID 게인을 적절히 자기 튜닝할 수 있음을 보여준다. 기존 방법과의 성능 비교(평균 10회 시험)에서 에이전트는 0.003 mm 오차로 게인을 더 잘 조정하였다. 따라서 제안 모델은 로봇 카테터시술에서 보다 안정적인 설정값 운동 제어를 제공할 수 있다.

문제 상황

로봇 카테터 조작은 혈관의 굴곡·마찰·동적 변화 때문에 축 방향 전진 제어에서 비선형성과 불확실성이 매우 크며, 고정 PID 게인으로는 안정성과 정밀도를 동시에 확보하기 어렵습니다.
임상적 맥락에서 카테터 제어 오차는 시술 시간 증가 및 안전성 저하로 이어질 수 있어, 상황 변화에 따라 제어기를 실시간으로 보정하는 적응형 제어가 필요합니다.
기존 수동 튜닝/규칙기반 튜닝은 샘플 효율이 낮고 일반화가 제한되어, 실제 시스템에 적용 가능한 데이터 효율적 학습형 PID 튜닝 전략이 요구됩니다.

제안하는 방법

저자들은 카테터 축 방향 운동 제어 문제를 심층 강화학습 기반의 적응형 PID 게인 조정 문제로 재정의하고, 에피소드 단위 정책 전이(episodic policy transfer)를 결합해 적은 샘플로도 안정적으로 학습되는 폐루프 제어 파이프라인을 제안합니다. 핵심은 RL 에이전트가 상태-행동 상호작용을 통해 PID 파라미터를 지속적으로 업데이트하고, 이전 에피소드에서 얻은 유용한 정책 정보를 다음 학습에 전이해 수렴 속도와 제어 정밀도를 동시에 높이는 점입니다.

1. 상태 관측 및 제어 목표 정식화
- 입력: 카테터 축 방향 위치/속도/오차 등 로봇 시스템 상태와 목표 set-point
- 처리: RL 에이전트가 PID 튜닝에 필요한 상태 표현을 구성
- 출력: 현재 시점의 제어 성능을 반영한 학습 상태 벡터
1. 심층 강화학습 기반 PID 게인 결정
- 입력: 상태 벡터와 보상 함수(추적 오차/안정성 중심)
- 처리: 에이전트가 행동으로 PID 게인(또는 게인 보정량)을 선택
- 출력: 시점별 적응형 PID 파라미터
- 조건/예외: 환경 변화가 발생하면 동일 정책 내에서 게인을 재조정
1. 에피소드 정책 전이(Episodic Policy Transfer)
- 입력: 이전 에피소드에서 학습된 정책/가치 정보
- 처리: 유효했던 정책 지식을 다음 에피소드 초기 학습에 이전
- 출력: 탐색 비용 감소 및 샘플 효율 개선된 초기 정책
- 조건/예외: 성능이 낮은 정책은 전이 비중을 줄여 부정적 전이를 완화