Learning to Control an Octopus Arm with Gaussian Process Temporal Difference Methods (2005)

논문 정보

출간 연도: 2005
출간 저널/학회: Advances in Neural Information Processing Systems (NeurIPS)
citation 수: 본문 확인 필요
DOI: 본문 확인 필요

APA

Engel, Y., Szabo, P., & Volkinshtein, D. (2005). Learning to Control an Octopus Arm with Gaussian Process Temporal Difference Methods. In Advances in Neural Information Processing Systems.

BibTeX

@inproceedings{engel2005octopus,

title={Learning to Control an Octopus Arm with Gaussian Process Temporal Difference Methods},

author={Engel, Yaakov and Szabo, Peter and Volkinshtein, Dmitry},

booktitle={Advances in Neural Information Processing Systems},

year={2005}

}

초록

문어 팔은 매우 다재다능하고 복잡한 팔다리이다. 문어가 이러한 초과잉 자유도 팔(여덟 개의 팔은 말할 것도 없이)을 어떻게 제어하는지는 아직 알려져 있지 않다. 같은 기계적 원리에 기반한 로봇 팔은 현재의 로봇 팔을 구식으로 만들 수 있다. 본 논문에서는 Gaussian process temporal difference(GPTD) 학습으로 알려진 정책 평가의 베이지안 접근에 기반한 온라인 강화학습 알고리즘을 사용해 이 제어 문제를 다룬다. 실제 팔의 대체물로 2차원 문어 팔 모델의 컴퓨터 시뮬레이션을 사용한다. 이 모델에 내재한 단순화에도 불구하고 우리가 마주하는 상태공간은 고차원이다. 우리는 GPTD 기반 알고리즘을 이 도메인에 적용하고, 난이도가 서로 다른 여러 학습 과제에서 그 동작을 보인다.

문제 상황

문어 팔은 사실상 무한 자유도와 연속 변형을 가지며, 기존 강체 매니퓰레이터 가정으로는 제어 모델링이 어렵습니다.
10-segment 모델에서도 상태 변수가 매우 커 고차원 연속 상태공간 학습 문제가 발생합니다.
이런 영역에서는 표본 효율성과 불확실성 처리를 동시에 만족하는 가치추정 방식이 필요합니다.