Sampling-Based System Identification with Active Exploration for Legged Robot Sim2Real Learning (2026)

논문 정보

제목: Sampling-Based System Identification with Active Exploration for Legged Robot Sim2Real Learning
저자: Nikhil Sobanbabu, Guanqi He, Tairan He, Yuxiang Yang, Guanya Shi
출간 연도: 2025
출간 저널/학회: 본문 확인 필요
citation 수: 본문 확인 필요
DOI: 본문 확인 필요

APA

본문 확인 필요

BibTeX

본문 확인 필요

초록

Sim-to-real 불일치는 학습 기반 정책이 실제 세계에서 고정밀 작업을 달성하는 것을 방해한다. Domain Randomization(DR)은 이 간극을 메우기 위해 일반적으로 사용되지만, 종종 휴리스틱에 의존하며 적절히 조정되지 않으면 성능 저하를 동반한 과도하게 보수적인 정책으로 이어질 수 있다. System Identification(Sys-ID)은 목표 지향적 접근을 제공하지만, 표준 기법은 미분 가능한 동역학 및/또는 직접 토크 측정에 의존하는데, 이러한 가정은 접촉이 풍부한 다리형 시스템에서는 드물게 성립한다. 이를 위해 우리는 SPI-Active(Sampling-based Parameter Identification with Active Exploration)를 제시하는데, 이는 다리형 로봇의 물리 파라미터를 추정하여 sim-to-real 간극을 최소화하는 2단계 프레임워크이다. SPI-Active는 대규모 병렬 샘플링을 통해 핵심 물리 파라미터를 강건하게 식별하며, 시뮬레이션 궤적과 실제 궤적 사이의 상태 예측 오차를 최소화한다. 수집 데이터의 정보성을 더 높이기 위해, 우리는 탐색 정책의 입력 명령을 최적화함으로써 수집된 실제 궤적의 Fisher Information을 최대화하는 능동 탐색 전략을 도입한다. 이 표적화된 탐색은 정확한 식별과 다양한 과업 전반의 더 나은 일반화로 이어진다. 실험은 SPI-Active가 학습된 정책의 정밀한 sim-to-real 전이를 실제 세계에서 가능하게 하며, 다양한 보행 과업에서 기준선 대비 42−63% 더 우수함을 보여준다.

문제 상황

다리형 로봇에서 sim-to-real 간극은 질량·관성·마찰·접촉 상호작용의 작은 불일치만으로도 실제 성능을 크게 저하시킵니다.
DR은 실용적이지만 파라미터 범위 설정이 휴리스틱에 크게 의존해, 과도하면 보수적 정책이 되고 부족하면 일반화가 무너집니다.
기존 Sys-ID 다수는 미분 가능한 동역학, 토크 센서 같은 특수 계측, 혹은 제한된 파라미터 추정 가정에 기대어 범용 다리형 시스템에 적용이 어렵습니다.
또한 식별 성능은 데이터의 정보량에 좌우되는데, 수작업 모션 스크립트 기반 수집은 결합된 하이브리드 보행 동역학을 충분히 여기시키지 못합니다.

제안하는 방법

SPI-Active는 “병렬 샘플링 기반 파라미터 식별”과 “Fisher Information 기반 능동 탐색”을 결합한 2단계 파이프라인으로, 미분 가능한 시뮬레이터나 특수 센서 없이도 다리형 로봇의 구조적 물리 파라미터를 정밀 추정해 sim-to-real 간극을 줄이는 것을 목표로 합니다.