Sim-to-Real Gentle Manipulation of Deformable and Fragile Objects with Stress-Guided Reinforcement Learning

변형 가능하고 깨지기 쉬운 물체에 대한 로봇 조작은 과도한 응력이 물체에 돌이킬 수 없는 손상을 초래할 수 있기 때문에 상당한 도전을 제기한다. 기존 솔루션은 정확한 물체 모델이나 특수 센서 및 그리퍼에 의존하는데, 이는 복잡성을 증가시키고 일반화가 부족한 경우가 많다. 이러한 문제를 해결하기 위해 우리는 물체 손상을 명시적으로 억제하기 위해 스트레스 패널티 보상을 포함하는 비전 기반 강화 학습 접근법을 제시한다. 또한 학습을 부트스트랩하기 위해 오프라인 시연과 강체 프록시에서 변형 가능한 물체로 진행되는 설계된 커리큘럼을 도입한다. 제안된 방법을 시뮬레이션 및 실제 환경 모두에서 평가했으며, 시뮬레이션에서 학습된 정책이 제로샷 방식으로 실제 세계에 전이되어 두부를 집어 올리거나 밀어내는 작업을 수행할 수 있음을 보여준다. 우리의 결과는 학습된 정책이 손상 인식형, 부드러운 조작 행동을 나타내며, 기존의 일반 강화 학습 정책에 비해 작업 목표를 달성하면서 깨지기 쉬운 물체에 가해지는 응력을 36.5 % 감소시켜 그 효과성을 입증한다.

소프트 그리퍼는 아니긴 한데 비전으로 → 변형체를 인식해서 → 보상하는 강화 학습 매커니즘?

본 연구에서는 이러한 격차를 메우기 위해 DFOM(Deformable and Fragile Object Manipulation) 작업에 특화된 스트레스 기반 강화학습(RL) 프레임워크를 제안한다(Fig. 1). 이 프레임워크는 표준 오프‑폴리시 RL 방법[14]에 구현된다. 정책은 RGB‑D 카메라로부터 얻은 포인트 클라우드 관측값을 이용해 학습되며, 이는 객체의 형상 및 변형을 시뮬‑투‑리얼 전이(sim‑to‑real transfer)에 적합한 형태로 포착한다. 따라서 정밀한 객체 모델이나 추가 센서(예: 촉각 센서)를 필요로 하지 않는다. 취약성을 명시적으로 고려하기 위해 시뮬레이션에서 계산되는 스트레스 페널티 보상을 설계했으며, 이는 손상을 초래할 가능성이 있는 행동에 페널티를 부여함으로써 부드러운 조작 행동을 장려한다. 이 보상이 안전 제약을 포함하고는 있지만, 본질적으로 작업 성공과 상충하여 기존(RL) 정책이 수렴 속도가 느리거나 전혀 수렴하지 못하는 문제를 야기한다. 이를 해결하기 위해 두 가지 메커니즘을 도입한다: (i) 강체 프록시에서 변형 가능한 객체로 진행되는 커리큘럼, 그리고 (ii) 정책 부트스트래핑을 위한 오프라인 시연 데이터의 활용. 우리는 제안 방법을 시뮬레이션 및 실제 환경 모두에서 포괄적으로 평가하였다. 실험 결과, 제안된 방법은 기존의 베이직 RL 정책에 비해 취약한 객체에 가해지는 스트레스를 36.5 % 감소시키면서도 조작 작업을 성공적으로 수행하는 강력한 효과를 입증하였다.

→ 시각 기반이니까, 변형체의 파라미터가 다양해도 → 관측만 충분히 된 상태면 적응형 제어를 수행할듯?

시뮬레이터: Taichi 기반의 소프트 바디 물리 엔진이 내장된 Genesis 시뮬레이션 환경을 활용했습니다.