전체 글 39

[논문 정리] ARC-NCA: Towards Developmental Solutions to the Abstraction and Reasoning Corpus

IntroductionAGI 발전을 위해서는 추상화, 일반화, 추론 능력을 평가하는 벤치마크가 중요하며 Chollet(2019)의 ARC가 대표적인 예시이다. ARC는 소수의 입출력 예시로 정의되는 시각적 패턴 변환 과제의 모음으로, 각 테스트는 두 가지 요소로 구성되어 있다: 입력 그리드 : 30 x 30의 크기까지 나타나는 사각형의 배열, 각 셀은 10가지 고유한 값 중 하나를 가짐출력 그리드 : 입력 그리드의 속성과 구조로부터 파생그림 1에서 하나의 예시를 확인할 수 있다. 과제의 목표는 주어진 몇 가지 예시 쌍을 통해 문제 해결의 본질을 파악하고 새로운 테스트 입력에 대한 정확한 출력 그리드를 생성하는 것이다. ARC의 각 과제는 인간 설계자가 독특한 논리 구조를 담아 직접 제작하기 때문에 AI가..

[논문 정리] VariBAD : A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

Introduction강화학습 (RL)은 일반적으로 보상 함수와 전이 함수가 알려지지 않은 MDP에서 기대 수익을 최대화하는 최적의 정책을 찾는 것을 목표로 한다. 이런 함수들이 주어졌다면 이론적으로 환경과 상호작용 없이 최적 정책을 계산이 가능하다. 그와 대조적으로 환경이 알려지지 않은 상황에서의 학습은 exploration과 exploitation의 trade-off를 요구한다. 이런 trade-off를 조절하는 것은 학습 중 기대 수익을 최대화하는 데 핵심을 담당한다. Bayes-최적 정책은 이런 trade-off를 최적화하고 환경 상태뿐만 아니라 현재 MDP에 대한 에이전트 자신의 불확실성에도 조건화된 행동을 수행한다. 이런 정책은 BAMDP 프레임워크를 통해 정의할 수 있으며 여기서 에이전트는 ..

[논문 정리] Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

Introduction강력한 비선형 함수 근사기와 강화학습의 결합은 순차적 의사결정 문제에서 다양한 발전을 가져왔다. 그러나 기존의 RL 방법들은 각 과제마다 별도의 정책을 학습하며, 이는 종종 환경과의 수백만 회에 이르는 상호작용을 필요로 하며 비용적으로 부담이 발생한다. 다행히 우리가 자율 에이전트에게 해결하도록 원하는 많은 과제들은 공통된 구조를 공유한다. 예를 들어 병뚜껑을 돌려서 닫는 일과 문손잡이를 돌리는 일은 모두 물체를 손에 움켜쥐고 손목을 회전시키는 동작을 포함한다. 메타러닝 방법들은 방대한 경험을 활용하여 이런 구조를 경험적으로 학습한다. 학습이 완료되면 이 방법들은 적은 양의 경험만으로 새로운 과제에 빠르게 적응이 가능하다. 메타러닝으로 학습된 정책들은 소수의 시도만으로 새로운 과제..

ARC-AGI의 문제 정리 - part 1

ARC-AGI를 해결할 아이디어를 얻기 위해, 많은 문제들을 우선 스스로 풀어보고자 한다. 그리고 최대한 이해하기 쉽게 해당 문제가 어떤 것을 요구하는 지 한 문장으로 표현하고 문제를 내가 해결할 때 어떠한 방법을 사용했는지까지 같이 기록하고자 한다. ARC의 문제 풀이는 GIST 김선동 교수님의 O2ARC 홈페이지에서 진행했으며 사용한 방법도 여기서 사용이 가능한 action들만 이용하여 기록했다. 문제의 그림에 대해서는 1개 혹은 2개의 예시로 파악이 가능한 문제일 경우 해당 개수의 그림만 첨부하였으며 만약 예시 그림이 전부 있어야 풀 수 있는 문제의 경우 모든 예시를 첨부했다. https://o2arc.com/ O2ARCA puzzle game based on ARC tasko2arc.com ARC..

논문/아이디어 2025.05.13

[논문 정리] Offline Meta-Reinforcement Learning with Advantage Weighting

Introductionmeta-RL은 궁극적으로 많은 태스크를 학습하려는 목표를 가질 때, RL 알고리즘의 높은 샘플 복잡성을 해결하기 위한 유망한 전략으로 떠올랐다. 메타 훈련 중 태스크 간 공유 구조를 활용하여 학습 비용을 분산시키고 적은 경험만으로 새로운 태스크에 빠르게 적응하게 한다. meta-RL은 수백만 건의 온라인 환경 상호작용 데이터 수집 능력을 가정하지만 이는 지도 학습에서 많은 소스에서 데이터를 모아 단일 모델을 훈련하는 것처럼 오프라인 데이터를 대규모로 활용하는 것과 반대된다. 그렇기에 오프라인 meta-RL 문제 설정을 제안하며 오직 훈련 태스크들로 얻은 오프라인 경험만을 사용하여 새로운 태스크로의 효율적인 전이를 가능하게 하는 설정의 알고리즘을 제안한다(그림 1 참조). 오프라인..

Meta-Reinforcement Learning: Applications & Open Problems

Applicationsmeta-RL은 실제 많은 응용 분야에서 보지 못했던 상황에 빠르게 적응하는 것이 매우 중요하다. meta-RL은 관련된 태스크 세트에서 메타학습하여 이러한 분야에서 유망한 해결책을 제공한다. 그림 17에서 확인이 가능하다. meta-RL이 유망한 해결책으로 간주되는 응용 분야의 예시는 아래와 같다:교통 신호 제어빌딩 에너지 제어교육에서의 자동 코드 채점meta-RL은 학습 중에 발생하는 비정상성 문제를 해결하는 데 기여하기도 하며 커리큘럼 학습 및 비지도 환경 설계는 meta-RL agent나 다른 적응형 agent를 위한 태스크 분포를 제공하는 데 사용된다.Robotics로보틱스는 meta-RL의 중요한 응용 분야 중 하나이다. 왜냐하면 로봇은 배포 시점에 다양한 태스크와 환경..

Meta-Reinforcement Learning: Many-Shot Meta-RL

이 파트에서는 Many-Shot Meta-RL에 대해 소개할 것이다. 이 설정에서는 new task에 대해 수천 번 이상의 업데이트를 거치며 학습해야 하는 경우를 고려한다. 목표는 실제로 널리 사용되는 알고리즘과 유사한, new task에 대해수천 스텝 학습하여 잘 풀 수 있는 범용적인 RL 알고리즘 자체를 학습하는 것입니다. few-shot 설정 서로 비교되는 차이점은 아래와 같다:원칙적으로는 trial 길이 $H$가 길어지는 것 외에 설정이 달라지는 것은 아니지만, 실제로는 다루는 문제 유형과 사용하는 방법이 다르다few-shot예시 : MuJoCo 환경에서 목표 위치 내비게이션, 환경은 동일하고 목표/보상만 달라지는 경우한계점 : task 간 관계가 약하고 복잡한 task 분포에서는 성능이 떨어짐m..

Meta-Reinforcement Learning: Few-Shot Meta-RL (part 4)

이번 파트에서는 few-shot 적응 문제를 다룰 것이다. 이 설정에서는 agent가 다양한 task에 대해 meta-learning을 수행하고 meta-test 시점에서 새롭지만 유사한 task에 대해 몇 번의 에피소드만에 적응해야 한다. 하나의 예시로 전 글에서 다뤘던 로봇 요리사를 다시 가져와보자. 각 사용자의 집에서 새로운 요리 policy를 강화학습으로 처음부터 학습한다면 각 부엌에서의 많은 샘플을 요구할 것이며, 이는 요리에 대한 일반적인 지식은 공유될 수 있기에 비효율적이다. 특히 로봇이 고객의 부엌을 손상시킬 수 있는 행동을 하는 상황에서 데이터 낭비는 실질적으로 받아들일 수 없는 일일 수도 있다. Meta-RL은 새로운 부엌의 차이점에 적응할 수 있는 절차를 데이터로부터 자동적으로 학습할..

Meta-Reinforcement Learning: Few-Shot Meta-RL (part 3)

이번 파트에서는 few-shot 적응 문제를 다룰 것이다. 이 설정에서는 agent가 다양한 task에 대해 meta-learning을 수행하고 meta-test 시점에서 새롭지만 유사한 task에 대해 몇 번의 에피소드만에 적응해야 한다. 하나의 예시로 전 글에서 다뤘던 로봇 요리사를 다시 가져와보자. 각 사용자의 집에서 새로운 요리 policy를 강화학습으로 처음부터 학습한다면 각 부엌에서의 많은 샘플을 요구할 것이며, 이는 요리에 대한 일반적인 지식은 공유될 수 있기에 비효율적이다. 특히 로봇이 고객의 부엌을 손상시킬 수 있는 행동을 하는 상황에서 데이터 낭비는 실질적으로 받아들일 수 없는 일일 수도 있다. Meta-RL은 새로운 부엌의 차이점에 적응할 수 있는 절차를 데이터로부터 자동적으로 학습할..

Meta-Reinforcement Learning: Few-Shot Meta-RL (part 2)

이번 파트에서는 few-shot 적응 문제를 다룰 것이다. 이 설정에서는 agent가 다양한 task에 대해 meta-learning을 수행하고 meta-test 시점에서 새롭지만 유사한 task에 대해 몇 번의 에피소드만에 적응해야 한다. 하나의 예시로 전 글에서 다뤘던 로봇 요리사를 다시 가져와보자. 각 사용자의 집에서 새로운 요리 policy를 강화학습으로 처음부터 학습한다면 각 부엌에서의 많은 샘플을 요구할 것이며, 이는 요리에 대한 일반적인 지식은 공유될 수 있기에 비효율적이다. 특히 로봇이 고객의 부엌을 손상시킬 수 있는 행동을 하는 상황에서 데이터 낭비는 실질적으로 받아들일 수 없는 일일 수도 있다. Meta-RL은 새로운 부엌의 차이점에 적응할 수 있는 절차를 데이터로부터 자동적으로 학습할..