A Novel Sample-efficient Deep Reinforcement Learning with Episodic Policy Transfer for PID-Based Control in Robotic Catheter System

로봇 카테터 시술은 현재 경피적 관상동맥 중재술(PCI) 절차에 일반적으로 사용되며, 관상동맥의 폐색을 개방하기 위해 유연한 혈관내 도구를 조종하는 과정을 포함한다. 본 연구에서는 샘플 효율적인 심층 강화 학습과 에피소드 정책 전이를 최초로 로봇 카테터 시술 중 동작 제어에 적용하고, 완전 적응형 PID 튜닝 전략을 도입하였다. 강화 학습 모델은 에이전트가 환경과의 상호작용으로부터 지속적으로 학습하고, 혈관내 도구의 축방향 내비게이션을 위해 PID 제어 이득을 적응적으로 조정하도록 지원한다. 이 모델은 혈관내 카테터 시술을 위해 설계된 로봇 시스템의 축방향 운동 제어에 대해 검증되었다. 모델의 적용성을 검증하기 위해 시뮬레이션 및 실험적 시험을 수행했으며, 얻어진 결과는 로봇 카테터 시스템의 운동 제어를 위해 PID 이득을 적절히 자체 튜닝할 수 있음을 보여준다. 10회 평균 실험에서 기존 방법과의 성능 비교 결과, 에이전트가 0.003 mm의 오차로 이득을 보다 정확하게 조정함을 확인하였다. 따라서 제안된 모델은 보다 안정적인 설정점 운동 제어를 제공하는 로봇 카테터 시술에 기여할 수 있다.

제공해주신 논문 **"A Novel Sample-Efficient Deep Reinforcement Learning with Episodic Policy Transfer for PID-Based Control in Robotic Catheter System"**에 대한 분석 결과입니다. 이 논문은 혈관 내 수술에 사용되는 로봇 카테터 시스템(RCS)의 정밀한 제어를 위해 에피소드 정책 전이(Episodic Policy Transfer) 기반의 **심층 강화학습(DRL)**을 활용하여 PID 게인을 적응적으로 튜닝하는 방법을 제안합니다.

1. 이 논문의 개요

**연구 목적**: 로봇 카테터 시스템(RCS)의 축 방향 항행(axial navigation) 시, 비선형적인 환경에서도 안정적이고 정밀한 제어를 수행하기 위해 스스로 PID 게인을 최적화하는 모델을 개발함.

**핵심 제안**: 샘플 효율적인 DRL 알고리즘과 에피소드 간 지식을 공유하는 **정책 전이(Policy Transfer)** 기법을 결합하여, 수동 설정 없이도 환경에 맞춰 PID 게인을 실시간으로 조정함.

**주요 성과**: 기존의 고정 게인 PID나 퍼지(Fuzzy)-PID 방식보다 낮은 오차($0.003$ mm)와 높은 안정성을 입증함.

2. 이 논문이 제안하는 문제 상황

**전통적 제어의 한계**: 기존의 PID 제어기는 고정된 게인을 사용하기 때문에, 혈관과 같이 불확실하고 복잡한 환경에서 발생하는 **이력 현상(Hysteresis)**이나 **백래시(Backlash)**에 대응하기 어려움.

**지능형 제어의 복잡성**: 기존의 적응형 PID(예: Fuzzy-PID)는 게인 튜닝을 위해 사람이 직접 복잡한 규칙(Rules)이나 데이터를 정의해야 하며, 이는 설계자의 편향이 개입될 여지가 큼.

**정밀도 부족에 따른 위험**: 카테터의 위치 제어가 정확하지 않을 경우 혈관 벽 손상, 천공 또는 혈전 형성 등 치명적인 부작용을 초래할 수 있음.

3. 제안하는 방법 (상세)

RL Task의 입출력 (State, Action, Reward)

이 모델은 로봇 카테터의 움직임을 마르코프 결정 과정(MDP)으로 모델링합니다.

**상태 (State, $s_t$)**: 로봇 카테터의 현재 축 방향 **변위(displacement)**와 **속도(velocity)** 정보를 포함함.

**행동 (Action, $k_t^j$)**: PID 제어기의 세 가지 게인인 **$K_p$, $K_i$, $K_d$ 값**을 결정함.

- 두 개의 액터(Actor) 네트워크를 사용하여, 하나는 게인을 예측하고 다른 하나는 게인이 특정 범위를 벗어나지 않도록 제한(Bounding)함.