Introduction강화학습 (RL)은 일반적으로 보상 함수와 전이 함수가 알려지지 않은 MDP에서 기대 수익을 최대화하는 최적의 정책을 찾는 것을 목표로 한다. 이런 함수들이 주어졌다면 이론적으로 환경과 상호작용 없이 최적 정책을 계산이 가능하다. 그와 대조적으로 환경이 알려지지 않은 상황에서의 학습은 exploration과 exploitation의 trade-off를 요구한다. 이런 trade-off를 조절하는 것은 학습 중 기대 수익을 최대화하는 데 핵심을 담당한다. Bayes-최적 정책은 이런 trade-off를 최적화하고 환경 상태뿐만 아니라 현재 MDP에 대한 에이전트 자신의 불확실성에도 조건화된 행동을 수행한다. 이런 정책은 BAMDP 프레임워크를 통해 정의할 수 있으며 여기서 에이전트는 ..