논문 정보

APA

본문 확인 필요

BibTeX

본문 확인 필요

초록

Sim-to-real 불일치는 학습 기반 정책이 실제 세계에서 고정밀 작업을 달성하는 것을 방해한다. Domain Randomization(DR)은 이 간극을 메우기 위해 일반적으로 사용되지만, 종종 휴리스틱에 의존하며 적절히 조정되지 않으면 성능 저하를 동반한 과도하게 보수적인 정책으로 이어질 수 있다. System Identification(Sys-ID)은 목표 지향적 접근을 제공하지만, 표준 기법은 미분 가능한 동역학 및/또는 직접 토크 측정에 의존하는데, 이러한 가정은 접촉이 풍부한 다리형 시스템에서는 드물게 성립한다. 이를 위해 우리는 SPI-Active(Sampling-based Parameter Identification with Active Exploration)를 제시하는데, 이는 다리형 로봇의 물리 파라미터를 추정하여 sim-to-real 간극을 최소화하는 2단계 프레임워크이다. SPI-Active는 대규모 병렬 샘플링을 통해 핵심 물리 파라미터를 강건하게 식별하며, 시뮬레이션 궤적과 실제 궤적 사이의 상태 예측 오차를 최소화한다. 수집 데이터의 정보성을 더 높이기 위해, 우리는 탐색 정책의 입력 명령을 최적화함으로써 수집된 실제 궤적의 Fisher Information을 최대화하는 능동 탐색 전략을 도입한다. 이 표적화된 탐색은 정확한 식별과 다양한 과업 전반의 더 나은 일반화로 이어진다. 실험은 SPI-Active가 학습된 정책의 정밀한 sim-to-real 전이를 실제 세계에서 가능하게 하며, 다양한 보행 과업에서 기준선 대비 42−63% 더 우수함을 보여준다.

문제 상황

제안하는 방법

SPI-Active는 “병렬 샘플링 기반 파라미터 식별”과 “Fisher Information 기반 능동 탐색”을 결합한 2단계 파이프라인으로, 미분 가능한 시뮬레이터나 특수 센서 없이도 다리형 로봇의 구조적 물리 파라미터를 정밀 추정해 sim-to-real 간극을 줄이는 것을 목표로 합니다.