전체 글 40

Meta-Reinforcement Learning: Few-Shot Meta-RL (part 2)

이번 파트에서는 few-shot 적응 문제를 다룰 것이다. 이 설정에서는 agent가 다양한 task에 대해 meta-learning을 수행하고 meta-test 시점에서 새롭지만 유사한 task에 대해 몇 번의 에피소드만에 적응해야 한다. 하나의 예시로 전 글에서 다뤘던 로봇 요리사를 다시 가져와보자. 각 사용자의 집에서 새로운 요리 policy를 강화학습으로 처음부터 학습한다면 각 부엌에서의 많은 샘플을 요구할 것이며, 이는 요리에 대한 일반적인 지식은 공유될 수 있기에 비효율적이다. 특히 로봇이 고객의 부엌을 손상시킬 수 있는 행동을 하는 상황에서 데이터 낭비는 실질적으로 받아들일 수 없는 일일 수도 있다. Meta-RL은 새로운 부엌의 차이점에 적응할 수 있는 절차를 데이터로부터 자동적으로 학습할..

Meta-Reinforcement Learning: Few-Shot Meta-RL (part 1)

이번 파트에서는 few-shot 적응 문제를 다룰 것이다. 이 설정에서는 agent가 다양한 task에 대해 meta-learning을 수행하고 meta-test 시점에서 새롭지만 유사한 task에 대해 몇 번의 에피소드만에 적응해야 한다. 하나의 예시로 전 글에서 다뤘던 로봇 요리사를 다시 가져와보자. 각 사용자의 집에서 새로운 요리 policy를 강화학습으로 처음부터 학습한다면 각 부엌에서의 많은 샘플을 요구할 것이며, 이는 요리에 대한 일반적인 지식은 공유될 수 있기에 비효율적이다. 특히 로봇이 고객의 부엌을 손상시킬 수 있는 행동을 하는 상황에서 데이터 낭비는 실질적으로 받아들일 수 없는 일일 수도 있다. Meta-RL은 새로운 부엌의 차이점에 적응할 수 있는 절차를 데이터로부터 자동적으로 학습할..

Meta-Reinforcement Learning - Intro

메타 강화학습에 대해 공부를 하기 위해 "A Survey of Meta-Reinforcement Learning"이라는 논문을 참고하여 정리를 진행할 예정이다. 분량이 많기에 나눠서 정리를 진행하고자 한다.IntroductionMeta-reinforcement learning(meta-RL)은 '강화학습을 학습하는' 메타러닝의 한 형태이다. 즉, meta-RL은 샘플효율성이 낮은 ML을 이용하여 샘플 효율성이 높은 RL 알고리즘을 학습하는 것이다. meta-RL은 meta-learning에서도 특별한 경우이며 학습하는 알고리즘이 RL이기 때문이다. Meta-RL은 오랫동안 하나의 머신러닝 문제로 다뤄졌으며 최근 연구에서는 meta-RL과 유사한 작동 방식에 뇌 속에서 관찰되었다는 결과도 있다. Meta-..

[논문 정리] Combining Induction and Transduction For Abstract Reasoning

Introduction적은 예시로부터 강력한 일반화를 적용하는 것은 AI가 사람같은 지능을 가지기 위해서 가장 중요한 길이다. 많은 최근 연구들이 이러한 일반화를 추상적 추론의 형태로 보고 있으며, 입력-출력과 테스트 입력을 받았을 때 올바른 테스트 출력을 예측하는 전략을 사용하고 있다. analogical reasoning이나 chain-of-thought, inductive program synthesis, transductivve prediction과 같은 방식들이다. Abstraction and Reasoning Corpus, 줄여서 ARC는 적은 예시만으로 새로운 능력을 획득할 수 있는 능력을 평가하는 지표이다. 각 ARC 문제는 색깔의 그리드가 있는 입력-출력 쌍이 주어지고 길찾기, 충돌, 대..

[AGI] ARC Prize 2024 : Technical Report

ARC 문제는 매년 Kaggle에서 대회가 열린다. 거기에는 다양한 팀들이 참여하기에 오늘은 이 리포트를 분석하여 팀들이 어떤 방식으로 ARC 문제를 해결했는지를 알아보고자 한다.Introduction: ARC-AGIFrancois Chollet는 딥러닝의 한계를 2017년에 깨닫고, 2019년 그만의 AGI에 대한 새로운 정의를 제안했다. 그는 AGI를 사전 학습 없이 새로운 기술을 효율적으로 정의하는 시스템이라고 정의했다. 이러한 정의를 통해 Chollet는 Abstraction and Reasoning Corpus(ARC)라는 AI의 지능을 측정할 수 있는 벤치마크를 제안했다. 그림 1을 보면 ARC는 독립적인 문제로 되어 있고, 각 문제는 2개 이상의 예시 쌍과 하나의 테스트 입력이 주어진다. 각..

[논문 정리] Unraveling the ARC Puzzle: Mimicking Human Solutions with Object-Centric Decision Transformer

Introduction딥러닝의 발전으로 AI 모델은 다양한 작업에서 사람의 성능을 능가한다. 그러나 이런 모델들은 적응력이 낮고 아직 보지 못한 상황을 마주했을 때 능력이 떨어지는 한계점이 있다. 이런 문제를 해결하기 위해 Chollet은 AI의 추상화와 추론 능력을 평가하는 Abstraction and Reasoning Corpus(ARC)를 만들었다. ARC는 2-5개의 예시 문제(입력-출력)과 1개의 테스트 문제로 이뤄져 있다. 모든 문제들은 객체 관계, 숫자, 대칭, 정렬, 색상 등의 핵심 내용을 포함하고 있다. 사람은 이런 문제를 직관적으로 해결할 수 있지만 아직 AI에서 제일 높은 것은 30퍼센트에 불과하다(2023기준). 현재 존재하는 높은 성능의 AI들은 하드-코딩이거나 무작위 탐색 방법에..

[논문 정리] From Generation to Selection: Findings of Converting Analogical Problem-Solving into Multiple-Choice Questions

IntroductionARC는 AI의 추론능력을 평가하기 위해 설계된 벤치마크이다. 각 문제는 2-5개의 예시 쌍이 주어지고 테스트 문제로 입력만이 주어진다. 입력과 출력 그리드는 작게는 1 x 1부터 크게는 30 x 30까지 가능하고 최대 10개의 색상으로 채워져 있다. ARC의 강점은 사전 지식이나 데이터에 대한 의존을 최소화하고, 순수한 추론 능력만을 평가할 수 있다는 점이다. 그러나 이런 ARC에도 한계가 있는데 그것은 다양한 추론을 요구하는 어려운 벤치마크라는 것이다. Bloom's Taxonomy에서는 교육 이론에 따르면 인지능력은 6단계로 나뉜다 : 기억, 이해, 적용, 분석, 평가, 생성. 이 관점에서 보면 ARC는 가장 최상위 단계인 생성만을 평가하며 추론 과정이 맞아서 작은 오류가 있으..

[논문 정리] Abductive Symbolic Solver on Abstraction and Reasoning Corpus

Introduction인공지능은 많은 도메인에서 문제를 해결하는데 사용되고 있다. 그들은 좋은 도움을 제공하지만 아직 지능이 있다고 부르기는 힘든 상태이다. 그중에서 특히 퍼즐 테스트나 추론 문제같은 경우 AI 모델과 사람의 성능차이가 가장 심하게 나타난다. 이를 향상시키기 위해 Visual Reasoning tasks라는 다양한 데이터셋들이 등장했다. IQ 테스트는 사람의 지능을 측정하는 대표적인 도구로, Abstraction and Reasoning Corpus(ARC)는 Francois Chollet가 AI의 지능을 측정하기 위해 만들었다. 그림 1에서 예시를 확인 가능하다. ARC의 모든 문제들은 1) 객체성, 2) 목표 지향성, 3) 숫자와 셈, 4) 기본 기하학의 핵심 내용을 포함하고 있다. ..

[AGI] ARC-AGI Without Pretraining(by Isaac Liao)

Before we begin...이번에 정리할 내용은 Isaac Liao의 ARC-AGI 접근법이다. 그는 사전 학습(pretraining) 없이 문제를 해결했으며, 운 좋게도 그의 발표를 직접 들을 기회가 있었다. 다만 발표 내용을 한 번에 이해하긴 어려워서, 복습을 위해 그의 블로그를 참고해보려 한다.https://iliao2345.github.io/blog_posts/arc_agi_without_pretraining/arc_agi_without_pretraining.html ARC-AGI Without PretrainingBy Isaac Liao and Albert Gu In this blog post, we aim to answer a simple yet fundamental question: C..

[논문 정리] Graphs, Constraints, and Search for the Abstraction and Reasoning Corpus

Why This Paper?전 논문에서 실험할 때 비교했던 모델이 ARGA였는데 그게 바로 이 논문이다. ARC를 찾아봤을 때, 이 논문이 인용 수가 제일 많았던 것으로 기억나고 그렇기에 이 논문을 읽어보기로 결정했다.Introduction기계학습과 인간 학습 간의 격차를 측정하기 위해 Chollet이 2019년 이미지 기반 추론 과제 Abstraction and Reasoning Corpus(ARC)를 개발했다. 각 과제는 입력 이미지가 주어졌을 때 이에 대한 출력 이미지를 생성하는 문제로 각 과제는 입력-출력 쌍의 훈련 데이터 2~5개를 제공한다. 몇 가지 예시는 그림 1에서 확인할 수 있다. ARC를 해결하기 위한 Kaggle대회(2020)에는 900개 이상의 팀이 참가했지만 최대 20%의 정확도밖..