2025/04 19

Meta-Reinforcement Learning: Applications & Open Problems

Applicationsmeta-RL은 실제 많은 응용 분야에서 보지 못했던 상황에 빠르게 적응하는 것이 매우 중요하다. meta-RL은 관련된 태스크 세트에서 메타학습하여 이러한 분야에서 유망한 해결책을 제공한다. 그림 17에서 확인이 가능하다. meta-RL이 유망한 해결책으로 간주되는 응용 분야의 예시는 아래와 같다:교통 신호 제어빌딩 에너지 제어교육에서의 자동 코드 채점meta-RL은 학습 중에 발생하는 비정상성 문제를 해결하는 데 기여하기도 하며 커리큘럼 학습 및 비지도 환경 설계는 meta-RL agent나 다른 적응형 agent를 위한 태스크 분포를 제공하는 데 사용된다.Robotics로보틱스는 meta-RL의 중요한 응용 분야 중 하나이다. 왜냐하면 로봇은 배포 시점에 다양한 태스크와 환경..

Meta-Reinforcement Learning: Many-Shot Meta-RL

이 파트에서는 Many-Shot Meta-RL에 대해 소개할 것이다. 이 설정에서는 new task에 대해 수천 번 이상의 업데이트를 거치며 학습해야 하는 경우를 고려한다. 목표는 실제로 널리 사용되는 알고리즘과 유사한, new task에 대해수천 스텝 학습하여 잘 풀 수 있는 범용적인 RL 알고리즘 자체를 학습하는 것입니다. few-shot 설정 서로 비교되는 차이점은 아래와 같다:원칙적으로는 trial 길이 $H$가 길어지는 것 외에 설정이 달라지는 것은 아니지만, 실제로는 다루는 문제 유형과 사용하는 방법이 다르다few-shot예시 : MuJoCo 환경에서 목표 위치 내비게이션, 환경은 동일하고 목표/보상만 달라지는 경우한계점 : task 간 관계가 약하고 복잡한 task 분포에서는 성능이 떨어짐m..

Meta-Reinforcement Learning: Few-Shot Meta-RL (part 4)

이번 파트에서는 few-shot 적응 문제를 다룰 것이다. 이 설정에서는 agent가 다양한 task에 대해 meta-learning을 수행하고 meta-test 시점에서 새롭지만 유사한 task에 대해 몇 번의 에피소드만에 적응해야 한다. 하나의 예시로 전 글에서 다뤘던 로봇 요리사를 다시 가져와보자. 각 사용자의 집에서 새로운 요리 policy를 강화학습으로 처음부터 학습한다면 각 부엌에서의 많은 샘플을 요구할 것이며, 이는 요리에 대한 일반적인 지식은 공유될 수 있기에 비효율적이다. 특히 로봇이 고객의 부엌을 손상시킬 수 있는 행동을 하는 상황에서 데이터 낭비는 실질적으로 받아들일 수 없는 일일 수도 있다. Meta-RL은 새로운 부엌의 차이점에 적응할 수 있는 절차를 데이터로부터 자동적으로 학습할..

Meta-Reinforcement Learning: Few-Shot Meta-RL (part 3)

이번 파트에서는 few-shot 적응 문제를 다룰 것이다. 이 설정에서는 agent가 다양한 task에 대해 meta-learning을 수행하고 meta-test 시점에서 새롭지만 유사한 task에 대해 몇 번의 에피소드만에 적응해야 한다. 하나의 예시로 전 글에서 다뤘던 로봇 요리사를 다시 가져와보자. 각 사용자의 집에서 새로운 요리 policy를 강화학습으로 처음부터 학습한다면 각 부엌에서의 많은 샘플을 요구할 것이며, 이는 요리에 대한 일반적인 지식은 공유될 수 있기에 비효율적이다. 특히 로봇이 고객의 부엌을 손상시킬 수 있는 행동을 하는 상황에서 데이터 낭비는 실질적으로 받아들일 수 없는 일일 수도 있다. Meta-RL은 새로운 부엌의 차이점에 적응할 수 있는 절차를 데이터로부터 자동적으로 학습할..

Meta-Reinforcement Learning: Few-Shot Meta-RL (part 2)

이번 파트에서는 few-shot 적응 문제를 다룰 것이다. 이 설정에서는 agent가 다양한 task에 대해 meta-learning을 수행하고 meta-test 시점에서 새롭지만 유사한 task에 대해 몇 번의 에피소드만에 적응해야 한다. 하나의 예시로 전 글에서 다뤘던 로봇 요리사를 다시 가져와보자. 각 사용자의 집에서 새로운 요리 policy를 강화학습으로 처음부터 학습한다면 각 부엌에서의 많은 샘플을 요구할 것이며, 이는 요리에 대한 일반적인 지식은 공유될 수 있기에 비효율적이다. 특히 로봇이 고객의 부엌을 손상시킬 수 있는 행동을 하는 상황에서 데이터 낭비는 실질적으로 받아들일 수 없는 일일 수도 있다. Meta-RL은 새로운 부엌의 차이점에 적응할 수 있는 절차를 데이터로부터 자동적으로 학습할..

Meta-Reinforcement Learning: Few-Shot Meta-RL (part 1)

이번 파트에서는 few-shot 적응 문제를 다룰 것이다. 이 설정에서는 agent가 다양한 task에 대해 meta-learning을 수행하고 meta-test 시점에서 새롭지만 유사한 task에 대해 몇 번의 에피소드만에 적응해야 한다. 하나의 예시로 전 글에서 다뤘던 로봇 요리사를 다시 가져와보자. 각 사용자의 집에서 새로운 요리 policy를 강화학습으로 처음부터 학습한다면 각 부엌에서의 많은 샘플을 요구할 것이며, 이는 요리에 대한 일반적인 지식은 공유될 수 있기에 비효율적이다. 특히 로봇이 고객의 부엌을 손상시킬 수 있는 행동을 하는 상황에서 데이터 낭비는 실질적으로 받아들일 수 없는 일일 수도 있다. Meta-RL은 새로운 부엌의 차이점에 적응할 수 있는 절차를 데이터로부터 자동적으로 학습할..

Meta-Reinforcement Learning - Intro

메타 강화학습에 대해 공부를 하기 위해 "A Survey of Meta-Reinforcement Learning"이라는 논문을 참고하여 정리를 진행할 예정이다. 분량이 많기에 나눠서 정리를 진행하고자 한다.IntroductionMeta-reinforcement learning(meta-RL)은 '강화학습을 학습하는' 메타러닝의 한 형태이다. 즉, meta-RL은 샘플효율성이 낮은 ML을 이용하여 샘플 효율성이 높은 RL 알고리즘을 학습하는 것이다. meta-RL은 meta-learning에서도 특별한 경우이며 학습하는 알고리즘이 RL이기 때문이다. Meta-RL은 오랫동안 하나의 머신러닝 문제로 다뤄졌으며 최근 연구에서는 meta-RL과 유사한 작동 방식에 뇌 속에서 관찰되었다는 결과도 있다. Meta-..

[논문 정리] Combining Induction and Transduction For Abstract Reasoning

Introduction적은 예시로부터 강력한 일반화를 적용하는 것은 AI가 사람같은 지능을 가지기 위해서 가장 중요한 길이다. 많은 최근 연구들이 이러한 일반화를 추상적 추론의 형태로 보고 있으며, 입력-출력과 테스트 입력을 받았을 때 올바른 테스트 출력을 예측하는 전략을 사용하고 있다. analogical reasoning이나 chain-of-thought, inductive program synthesis, transductivve prediction과 같은 방식들이다. Abstraction and Reasoning Corpus, 줄여서 ARC는 적은 예시만으로 새로운 능력을 획득할 수 있는 능력을 평가하는 지표이다. 각 ARC 문제는 색깔의 그리드가 있는 입력-출력 쌍이 주어지고 길찾기, 충돌, 대..

[AGI] ARC Prize 2024 : Technical Report

ARC 문제는 매년 Kaggle에서 대회가 열린다. 거기에는 다양한 팀들이 참여하기에 오늘은 이 리포트를 분석하여 팀들이 어떤 방식으로 ARC 문제를 해결했는지를 알아보고자 한다.Introduction: ARC-AGIFrancois Chollet는 딥러닝의 한계를 2017년에 깨닫고, 2019년 그만의 AGI에 대한 새로운 정의를 제안했다. 그는 AGI를 사전 학습 없이 새로운 기술을 효율적으로 정의하는 시스템이라고 정의했다. 이러한 정의를 통해 Chollet는 Abstraction and Reasoning Corpus(ARC)라는 AI의 지능을 측정할 수 있는 벤치마크를 제안했다. 그림 1을 보면 ARC는 독립적인 문제로 되어 있고, 각 문제는 2개 이상의 예시 쌍과 하나의 테스트 입력이 주어진다. 각..

[논문 정리] Unraveling the ARC Puzzle: Mimicking Human Solutions with Object-Centric Decision Transformer

Introduction딥러닝의 발전으로 AI 모델은 다양한 작업에서 사람의 성능을 능가한다. 그러나 이런 모델들은 적응력이 낮고 아직 보지 못한 상황을 마주했을 때 능력이 떨어지는 한계점이 있다. 이런 문제를 해결하기 위해 Chollet은 AI의 추상화와 추론 능력을 평가하는 Abstraction and Reasoning Corpus(ARC)를 만들었다. ARC는 2-5개의 예시 문제(입력-출력)과 1개의 테스트 문제로 이뤄져 있다. 모든 문제들은 객체 관계, 숫자, 대칭, 정렬, 색상 등의 핵심 내용을 포함하고 있다. 사람은 이런 문제를 직관적으로 해결할 수 있지만 아직 AI에서 제일 높은 것은 30퍼센트에 불과하다(2023기준). 현재 존재하는 높은 성능의 AI들은 하드-코딩이거나 무작위 탐색 방법에..