Introductionmeta-RL은 궁극적으로 많은 태스크를 학습하려는 목표를 가질 때, RL 알고리즘의 높은 샘플 복잡성을 해결하기 위한 유망한 전략으로 떠올랐다. 메타 훈련 중 태스크 간 공유 구조를 활용하여 학습 비용을 분산시키고 적은 경험만으로 새로운 태스크에 빠르게 적응하게 한다. meta-RL은 수백만 건의 온라인 환경 상호작용 데이터 수집 능력을 가정하지만 이는 지도 학습에서 많은 소스에서 데이터를 모아 단일 모델을 훈련하는 것처럼 오프라인 데이터를 대규모로 활용하는 것과 반대된다. 그렇기에 오프라인 meta-RL 문제 설정을 제안하며 오직 훈련 태스크들로 얻은 오프라인 경험만을 사용하여 새로운 태스크로의 효율적인 전이를 가능하게 하는 설정의 알고리즘을 제안한다(그림 1 참조). 오프라인..