2025/05 4

[논문 정리] VariBAD : A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

Introduction강화학습 (RL)은 일반적으로 보상 함수와 전이 함수가 알려지지 않은 MDP에서 기대 수익을 최대화하는 최적의 정책을 찾는 것을 목표로 한다. 이런 함수들이 주어졌다면 이론적으로 환경과 상호작용 없이 최적 정책을 계산이 가능하다. 그와 대조적으로 환경이 알려지지 않은 상황에서의 학습은 exploration과 exploitation의 trade-off를 요구한다. 이런 trade-off를 조절하는 것은 학습 중 기대 수익을 최대화하는 데 핵심을 담당한다. Bayes-최적 정책은 이런 trade-off를 최적화하고 환경 상태뿐만 아니라 현재 MDP에 대한 에이전트 자신의 불확실성에도 조건화된 행동을 수행한다. 이런 정책은 BAMDP 프레임워크를 통해 정의할 수 있으며 여기서 에이전트는 ..

[논문 정리] Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

Introduction강력한 비선형 함수 근사기와 강화학습의 결합은 순차적 의사결정 문제에서 다양한 발전을 가져왔다. 그러나 기존의 RL 방법들은 각 과제마다 별도의 정책을 학습하며, 이는 종종 환경과의 수백만 회에 이르는 상호작용을 필요로 하며 비용적으로 부담이 발생한다. 다행히 우리가 자율 에이전트에게 해결하도록 원하는 많은 과제들은 공통된 구조를 공유한다. 예를 들어 병뚜껑을 돌려서 닫는 일과 문손잡이를 돌리는 일은 모두 물체를 손에 움켜쥐고 손목을 회전시키는 동작을 포함한다. 메타러닝 방법들은 방대한 경험을 활용하여 이런 구조를 경험적으로 학습한다. 학습이 완료되면 이 방법들은 적은 양의 경험만으로 새로운 과제에 빠르게 적응이 가능하다. 메타러닝으로 학습된 정책들은 소수의 시도만으로 새로운 과제..

ARC-AGI의 문제 정리 - part 1

ARC-AGI를 해결할 아이디어를 얻기 위해, 많은 문제들을 우선 스스로 풀어보고자 한다. 그리고 최대한 이해하기 쉽게 해당 문제가 어떤 것을 요구하는 지 한 문장으로 표현하고 문제를 내가 해결할 때 어떠한 방법을 사용했는지까지 같이 기록하고자 한다. ARC의 문제 풀이는 GIST 김선동 교수님의 O2ARC 홈페이지에서 진행했으며 사용한 방법도 여기서 사용이 가능한 action들만 이용하여 기록했다. 문제의 그림에 대해서는 1개 혹은 2개의 예시로 파악이 가능한 문제일 경우 해당 개수의 그림만 첨부하였으며 만약 예시 그림이 전부 있어야 풀 수 있는 문제의 경우 모든 예시를 첨부했다. https://o2arc.com/ O2ARCA puzzle game based on ARC tasko2arc.com ARC..

논문/아이디어 2025.05.13

[논문 정리] Offline Meta-Reinforcement Learning with Advantage Weighting

Introductionmeta-RL은 궁극적으로 많은 태스크를 학습하려는 목표를 가질 때, RL 알고리즘의 높은 샘플 복잡성을 해결하기 위한 유망한 전략으로 떠올랐다. 메타 훈련 중 태스크 간 공유 구조를 활용하여 학습 비용을 분산시키고 적은 경험만으로 새로운 태스크에 빠르게 적응하게 한다. meta-RL은 수백만 건의 온라인 환경 상호작용 데이터 수집 능력을 가정하지만 이는 지도 학습에서 많은 소스에서 데이터를 모아 단일 모델을 훈련하는 것처럼 오프라인 데이터를 대규모로 활용하는 것과 반대된다. 그렇기에 오프라인 meta-RL 문제 설정을 제안하며 오직 훈련 태스크들로 얻은 오프라인 경험만을 사용하여 새로운 태스크로의 효율적인 전이를 가능하게 하는 설정의 알고리즘을 제안한다(그림 1 참조). 오프라인..