논문 정보

APA

Engel, Y., Szabo, P., & Volkinshtein, D. (2005). Learning to Control an Octopus Arm with Gaussian Process Temporal Difference Methods. In Advances in Neural Information Processing Systems.

BibTeX

@inproceedings{engel2005octopus,

title={Learning to Control an Octopus Arm with Gaussian Process Temporal Difference Methods},

author={Engel, Yaakov and Szabo, Peter and Volkinshtein, Dmitry},

booktitle={Advances in Neural Information Processing Systems},

year={2005}

}

초록

문어 팔은 매우 다재다능하고 복잡한 팔다리이다. 문어가 이러한 초과잉 자유도 팔(여덟 개의 팔은 말할 것도 없이)을 어떻게 제어하는지는 아직 알려져 있지 않다. 같은 기계적 원리에 기반한 로봇 팔은 현재의 로봇 팔을 구식으로 만들 수 있다. 본 논문에서는 Gaussian process temporal difference(GPTD) 학습으로 알려진 정책 평가의 베이지안 접근에 기반한 온라인 강화학습 알고리즘을 사용해 이 제어 문제를 다룬다. 실제 팔의 대체물로 2차원 문어 팔 모델의 컴퓨터 시뮬레이션을 사용한다. 이 모델에 내재한 단순화에도 불구하고 우리가 마주하는 상태공간은 고차원이다. 우리는 GPTD 기반 알고리즘을 이 도메인에 적용하고, 난이도가 서로 다른 여러 학습 과제에서 그 동작을 보인다.

문제 상황