Sim-to-Real Reinforcement Learning for Deformable Object Manipulation

우리는 강체 물체 조작에서 최근 많은 진전을 목격했지만, 변형 가능한 물체와의 상호작용은 현저히 뒤처져 있다. 변형 가능한 물체의 큰 구성 공간 때문에 전통적인 모델링 접근법을 사용하는 해결책은 상당한 엔지니어링 작업을 요구한다. 따라서 명시적인 모델링을 생략하고 대신 제어를 엔드‑투‑엔드 방식으로 학습하는 것이 더 나은 접근법이 될 수 있을까? 엔드‑투‑엔드 로봇 학습 접근법에 대한 관심이 증가하고 있음에도 불구하고, 변형 가능한 물체 조작에 대한 적용 가능성에 초점을 맞춘 연구는 소수에 불과하다. 또한 이러한 엔드‑투‑엔드 솔루션을 학습하는 데 필요한 대량의 데이터 때문에, 시뮬레이션에서 제어 정책을 학습한 뒤 실제 세계로 전이하는 것이 떠오르는 추세이다. 현재까지 변형 가능한 물체 정책을 학습하고 전이할 수 있는지에 대한 연구는 이루어지지 않았다. 우리는 시뮬‑투‑리얼 방법이 더욱 활용되려면 강체 물체뿐만 아니라 다양한 물체와의 상호작용을 학습할 수 있어야 한다고 믿는다. 본 연구에서는 최신 딥 강화학습 알고리즘을 결합하여 변형 가능한 물체(특히 천)의 조작 문제를 해결한다. 우리는 세 가지 작업—표시까지 수건을 접는 것, 얼굴 수건을 대각선으로 접는 것, 그리고 옷걸이에 천 조각을 걸치는 것—에 대해 접근법을 평가한다. 우리의 에이전트는 도메인 랜덤화를 적용한 시뮬레이션에서 완전히 학습된 후, 실제 변형 가능한 물체를 전혀 보지 않은 상태에서 실제 세계에 성공적으로 배치되었다.

Sim-to-Real Deformable Manipulation

시뮬레이터: PyBullet 물리 엔진을 기반으로 OpenAI Gym API를 구현하여 학습 환경을 구축했습니다

본 연구는 강성 물체 조작에 비해 발전이 늦어진 변형 가능한 물체(천, 수건 등) 조작 문제를 다룹니다. 변형 가능한 물체는 구성 공간(Configuration space)이 매우 넓고 거동 모델링이 어렵기 때문에 전통적인 모델링 방식으로는 해결하기 까다롭습니다. 저자들은 복잡한 명시적 모델링을 거치지 않고, 강화 학습(RL)을 통해 시뮬레이션에서 정책을 학습시킨 후 이를 실제 세계로 전이(Sim-to-Real Transfer)하는 엔드 투 엔드(End-to-End) 접근법을 제안합니다.

4. 가상 환경 시뮬레이션 및 학습 활용 (핵심 섹션) 변형 가능한 물체의 복잡성을 가상 환경에서 학습에 활용하기 위해 다음과 같은 시뮬레이션 전략을 사용했습니다.

물리적 한계 극복 (Anchors): PyBullet의 기본 소프트 바디 시뮬레이션으로는 안정적인 파지를 유지하기 어려웠습니다. 이를 해결하기 위해 천의 노드와 그리퍼 핑거 사이에 **다중 앵커(Anchors)**를 생성하는 '가짜 파지(Fake grasp)' 메커니즘을 구현했습니다. 파지 생성은 확률적으로(5% 실패율) 설정하여 실패 시나리오에도 대응하게 했습니다.
도메인 랜덤화 (Domain Randomization): 시뮬레이션과 현실의 간극을 줄이기 위해 환경의 시각적 요소를 무작위화했습니다.
- Perlin 노이즈를 사용한 텍스처 무작위화, 물체 및 배경 색상, 조명 위치 및 색상 등을 매 에피소드마다 변경했습니다.
- 카메라의 위치, 방향, 내부 파라미터(Intrinsics)를 지면 실측 추정치 주변의 가우시안 분포에서 샘플링하여 무작위화했습니다.
Reset to Demonstration: 에피소드가 끝날 때 낮은 확률로 시연 데이터 중 임의의 상태에서 다시 시작하게 하여, 보상을 받기 쉬운 상태(작업의 후반부 등)에서 하위 작업을 먼저 학습하도록 유도했습니다.

우리는 천 노드와 그리퍼 손가락 사이에 일련의 앵커를 설정하여 가짜 그립을 구현함으로써만 문제를 해결할 수 있었다.

천 위에 많은 가상 앵커를 생성하고 → 그리퍼가 이거랑 닿으면 붙도록 설계한 듯

그래서, 물리 시뮬레이션에서 “진짜로 집는” 행동이 아니라, 그렇게 되도록 유도한듯

→ 물리적 충실도 부족 (Simulation Fidelity): 실제 천은 시뮬레이션상의 모델보다 훨씬 더 뻣뻣(stiffer)했습니다. 이로 인해 시뮬레이션에서는 허용되던 부정확한 움직임이 실제로는 천을 뭉쳐버리게(crumpling) 만들었고, 에이전트는 이를 복구하지 못했습니다.