2025/04 19

[논문 정리] From Generation to Selection: Findings of Converting Analogical Problem-Solving into Multiple-Choice Questions

IntroductionARC는 AI의 추론능력을 평가하기 위해 설계된 벤치마크이다. 각 문제는 2-5개의 예시 쌍이 주어지고 테스트 문제로 입력만이 주어진다. 입력과 출력 그리드는 작게는 1 x 1부터 크게는 30 x 30까지 가능하고 최대 10개의 색상으로 채워져 있다. ARC의 강점은 사전 지식이나 데이터에 대한 의존을 최소화하고, 순수한 추론 능력만을 평가할 수 있다는 점이다. 그러나 이런 ARC에도 한계가 있는데 그것은 다양한 추론을 요구하는 어려운 벤치마크라는 것이다. Bloom's Taxonomy에서는 교육 이론에 따르면 인지능력은 6단계로 나뉜다 : 기억, 이해, 적용, 분석, 평가, 생성. 이 관점에서 보면 ARC는 가장 최상위 단계인 생성만을 평가하며 추론 과정이 맞아서 작은 오류가 있으..

[논문 정리] Abductive Symbolic Solver on Abstraction and Reasoning Corpus

Introduction인공지능은 많은 도메인에서 문제를 해결하는데 사용되고 있다. 그들은 좋은 도움을 제공하지만 아직 지능이 있다고 부르기는 힘든 상태이다. 그중에서 특히 퍼즐 테스트나 추론 문제같은 경우 AI 모델과 사람의 성능차이가 가장 심하게 나타난다. 이를 향상시키기 위해 Visual Reasoning tasks라는 다양한 데이터셋들이 등장했다. IQ 테스트는 사람의 지능을 측정하는 대표적인 도구로, Abstraction and Reasoning Corpus(ARC)는 Francois Chollet가 AI의 지능을 측정하기 위해 만들었다. 그림 1에서 예시를 확인 가능하다. ARC의 모든 문제들은 1) 객체성, 2) 목표 지향성, 3) 숫자와 셈, 4) 기본 기하학의 핵심 내용을 포함하고 있다. ..

[AGI] ARC-AGI Without Pretraining(by Isaac Liao)

Before we begin...이번에 정리할 내용은 Isaac Liao의 ARC-AGI 접근법이다. 그는 사전 학습(pretraining) 없이 문제를 해결했으며, 운 좋게도 그의 발표를 직접 들을 기회가 있었다. 다만 발표 내용을 한 번에 이해하긴 어려워서, 복습을 위해 그의 블로그를 참고해보려 한다.https://iliao2345.github.io/blog_posts/arc_agi_without_pretraining/arc_agi_without_pretraining.html ARC-AGI Without PretrainingBy Isaac Liao and Albert Gu In this blog post, we aim to answer a simple yet fundamental question: C..

[논문 정리] Graphs, Constraints, and Search for the Abstraction and Reasoning Corpus

Why This Paper?전 논문에서 실험할 때 비교했던 모델이 ARGA였는데 그게 바로 이 논문이다. ARC를 찾아봤을 때, 이 논문이 인용 수가 제일 많았던 것으로 기억나고 그렇기에 이 논문을 읽어보기로 결정했다.Introduction기계학습과 인간 학습 간의 격차를 측정하기 위해 Chollet이 2019년 이미지 기반 추론 과제 Abstraction and Reasoning Corpus(ARC)를 개발했다. 각 과제는 입력 이미지가 주어졌을 때 이에 대한 출력 이미지를 생성하는 문제로 각 과제는 입력-출력 쌍의 훈련 데이터 2~5개를 제공한다. 몇 가지 예시는 그림 1에서 확인할 수 있다. ARC를 해결하기 위한 Kaggle대회(2020)에는 900개 이상의 팀이 참가했지만 최대 20%의 정확도밖..

[AGI] Program Synthesis - 4

프로그램 작성자는 specification과 프로그램을 연결하는 역할이다. 이번에는 어떻게 LLM이 다른 분야에서 보편적인 프로그램 작성자가 되는지를 설명할 것이다.a menagerie of synthesizerssynthesizer는 매우 어려운 일을 수행한다. 그것은 프로그램이 무엇을 해야하는지(semantics)를 입력으로 받아 프로그램이 어떻게 생겨야 하는지(syntax)를 출력으로 만드는 작업이다. 즉, 인터프리터를 거꾸로 실행하는 작업이다.어려운 문제가 주어졌을 때, 모든 문제 도메인마다 도메인 맞춤 synthesizer가 있어야하는 것은 당연하다고 생각이 들 수 있습니다. 실제로 그런 경우가 있는데 아래는 글 작성자의 작업물의 구조들입니다.저것들은 좋아보이지만, 아래와 같은 상당한 수작업 엔..

[AGI] Program Synthesis - 3

2장의 간단한 recap과 함께 시작한다.The problem풀을 안쪽에, 버섯을 바깥쪽에 놓는 사각형을 그리는 것이 문제이다. 이 문제는 입력-출력, spec의 specification으로 표현된다.The ground-truth distributionspec이 주어졌을 때 meaning matrix에서의 행 M[spec, :]를 보자. 모든 사각형(프로그램)에서 이 행은 우리의 spec이 옳은지 틀린지를 나타낸다. 주어진 spec에 대해 program synthesis의 정답 분포(ground-truth distribution)은 아래와 같이 정의한다:올바른 프로그램의 개수(N)을 센 다음, 각 올바른 프로그램에 1/N의 가중치를 부여하는 것이다.$$ P_{ground-truth}(prog\mid sp..

[AGI] Program Synthesis - 2

이번에는 간단한 예시를 들어볼 것이다. program synthesis를 진행하기 위해서는 당연히 풀어야할 문제를 정의해야 한다. Grass turtle and mushrooms너가 거북이를 감싸는 사각형을 6x6 그리드 위에 그리고 싶다고 생각을 해보자. 너는 풀은 사각형 안쪽에, 그리고 버섯은 사각형 바깥쪽에 놓고 싶다.필드가 주어졌을 때, 너는 어떤 방식으로 빠르게 사각형을 그릴 것인가?Modeling programmingprogram synthesis는 프로그래밍과 함께 시작한다. 그리고 프로그래밍은 interpreter와 함께 시작한다.Program프로그램은 하나의 데이터 구조로 볼 수 있다. 여기서 프로그램은 top, down, left, right로 구성된 사각형의 구조이다.# the rec..

[AGI] Program Synthesis - 1

Program Synthesis란, 입력-출력 쌍이 주어졌을 때, 이를 만족하는 프로그램(또는 알고리즘)을 자동으로 생성하는 과정을 의미한다. 수업시간에 Program Synthesis와 관련해서 읽어보면 좋은 블로그를 교수님께서 소개해주셨다. 오늘은 그 블로그의 글들을 하나씩 정리해보고자 한다.Programming컴퓨터 이전, 사람들은 무엇을 하던 스스로 해야했고 이는 굉장히 피곤한 일이다.프로그래밍은 사람이 컴퓨터에게 무언가를 해달라고 요청하는 것이다. 이메일을 만드는 것도, 블로그를 세팅하는 것도 프로그래밍이다. 프로그래밍은 항상 아래의 3가지를 고려해야 한다:프로그래머 : 문제를 프로그램으로 만듬프로그램 : 인터프리터가 이해하는 것인터프리터 : 프로그램을 받아 일을 하는 것프로그래밍을 하는 것은 ..

[논문 정리] Program Synthesis using Inductive Logic Programming for the Abstraction and Reasoning Corpus

Introduction머신러닝과 딥러닝의 발전으로 AI의 성능은 사람의 성능을 능가했다. 그러나 특정 task에만 집중되어 있는 task-specific이기 때문에 다른 task에 적용할 경우 실패하는 경향이 있다. LLMs의 경우 기계와 사람 지능간의 차이를 좁혔지만 여전히 굉장히 많은 양의 데이터를 필요로 하고 추론 능력이 부족하다는 단점이 존재한다. ARC 챌린지는 Francois Chollet가 범용 인공지능을 측정하기 위해 만든 벤치마크이다. 2019년에 나왔지만 아직까지도 어려운 챌린지이며 LLMs도 풀지 못했다. 400개의 다른 특징을 요구하는 테스트 셋이 있고 심지어는 공개되지 않은 private한 200개의 테스트 셋도 추가로 존재한다. Objectness는 인간의 핵심 사전 지식 중 하..