Omisore, O. ; Akinyemi, T. ; Duan, W. ; Du, W. ; Wang, L. (2024). A Novel Sample-Efficient Deep Reinforcement Learning with Episodic Policy Transfer for PID-Based Control in Robotic Catheter System. 2024 IEEE International Conference on Robotics and Biomimetics (ROBIO). https://doi.org/10.1109/robio64047.2024.10907735
@inproceedings{Omisore_2024, title={A Novel Sample-Efficient Deep Reinforcement Learning with Episodic Policy Transfer for PID-Based Control in Robotic Catheter System}, url={http://dx.doi.org/10.1109/robio64047.2024.10907735}, DOI={10.1109/robio64047.2024.10907735}, booktitle={2024 IEEE International Conference on Robotics and Biomimetics (ROBIO)}, publisher={IEEE}, author={Omisore, Olatunji Mumini and Akinyemi, Toluwanimi Oluwadara and Duan, Wenke and Du, Wenjing and Wang, Lei}, year={2024}, month=dec, pages={2068–2073} }
로봇 카테터시술은 오늘날 일반적으로 경피적 관상동맥 중재술 절차에 사용되며, 관상동맥의 폐색을 개방하기 위해 유연한 혈관내 도구를 조향하는 과정을 포함한다. 본 연구에서는 처음으로 완전 적응형 PID 튜닝 전략을 갖춘 로봇 카테터시술 중 운동 제어에 에피소드 정책 전이를 포함한 샘플 효율적 심층 강화학습을 사용하였다. 강화 모델은 에이전트가 환경과의 상호작용으로부터 지속적으로 학습하고 혈관내 도구의 축 방향 내비게이션을 위해 PID 제어 게인을 적응적으로 튜닝하도록 돕는다. 제안 모델은 혈관내 카테터시술을 위해 설계된 로봇 시스템의 축 방향 운동 제어에 대해 검증되었다. 모델 적용을 검증하기 위해 시뮬레이션과 실험 시험을 수행했으며, 얻어진 결과는 해당 모델이 로봇 카테터 시스템의 운동 제어를 위해 PID 게인을 적절히 자기 튜닝할 수 있음을 보여준다. 기존 방법과의 성능 비교(평균 10회 시험)에서 에이전트는 0.003 mm 오차로 게인을 더 잘 조정하였다. 따라서 제안 모델은 로봇 카테터시술에서 보다 안정적인 설정값 운동 제어를 제공할 수 있다.
저자들은 카테터 축 방향 운동 제어 문제를 심층 강화학습 기반의 적응형 PID 게인 조정 문제로 재정의하고, 에피소드 단위 정책 전이(episodic policy transfer)를 결합해 적은 샘플로도 안정적으로 학습되는 폐루프 제어 파이프라인을 제안합니다. 핵심은 RL 에이전트가 상태-행동 상호작용을 통해 PID 파라미터를 지속적으로 업데이트하고, 이전 에피소드에서 얻은 유용한 정책 정보를 다음 학습에 전이해 수렴 속도와 제어 정밀도를 동시에 높이는 점입니다.