GIST/Artificial General Intelligence

[AGI] ARC Prize 2024 : Technical Report

bengal3636 2025. 4. 11. 16:31

ARC 문제는 매년 Kaggle에서 대회가 열린다. 거기에는 다양한 팀들이 참여하기에 오늘은 이 리포트를 분석하여 팀들이 어떤 방식으로 ARC 문제를 해결했는지를 알아보고자 한다.


Introduction: ARC-AGI

Francois Chollet는 딥러닝의 한계를 2017년에 깨닫고, 2019년 그만의 AGI에 대한 새로운 정의를 제안했다. 그는 AGI를 사전 학습 없이 새로운 기술을 효율적으로 정의하는 시스템이라고 정의했다. 이러한 정의를 통해 Chollet는 Abstraction and Reasoning Corpus(ARC)라는 AI의 지능을 측정할 수 있는 벤치마크를 제안했다. 그림 1을 보면 ARC는 독립적인 문제로 되어 있고, 각 문제는 2개 이상의 예시 쌍과 하나의 테스트 입력이 주어진다. 각 그리드의 크기는 최대 30 x 30이며 10개의 값을 가질 수 있고 이 값은 고유한 색상을 의미한다. 테스트는 각 입력데 대해 최대 2번의 시도만 허용된다.

 

벤치마크의 핵심 특징은 작업에 대한 사전 준비가 불가능하게 설계되었다는 것이다. 모든 문제는 다른 논리를 사용하며 다양한 사람들에 의해 만들어졌다. ARC-AGI 문제는 구체적인 지식과 언어를 요구하지 않고 인간이 가진 4가지의 핵심 지식 : 1) 객체성, 2) 기초 위상, 3) 기초 정수 산술 등의 지식만 요구한다. ARC-AGI-1은 이런 핵심 지식을 바탕으로 문제를 해결할 수 있도록 설계되어 있다.

그림 1. ARC-AGI 작업의 예시

 

Dataset Composition

ARC-AGI-1은 1,000개의 문제가 아래 4개 종류로 분리되어 있다:

  • Public training tasks(400개, 쉬움) : ARC-AGI 문제 형식을 익히고 핵심 지식을 학습할 수 있도록 설계됨
  • Public evaluation tasks(400개, 어려움) : 연구자들이 로컬 환경에서 자신의 모델을 평가할 수 있도록 제공됨
  • Semi-private evaluation tasks(100개, 어려움) : 공개된 상용 API를 사용하는 타사 접근 방식을 평가하기 위해 사용됨
  • Private evaluation tasks(100개, 어려움) : 완전히 비공개된 데이터, 독립적인 접근 방식을 평가하는 데 사용됨

State-of-the-art 점수는 오직 private evaluation task에만 기록되며 과적합과 데이터 오염을 줄이기 위해서이다. 다른 중요한 ARC-AGI의 특징은 AI 시스템에게 어렵지만 사람에게는 쉽다는 것이다. 2명의 사람에게 테스트한 결과 각각 97%와 98%를 기록했고 합쳐서는 전부 풀었다. 또 다른 연구에서는 10명을 배정한 결과 공개 평가 문제의 99%는 최소 한 명에 의해 정답이 도출되었다는 사실이 보고 되었다.


Pre-2024 Progress

ARC-AGI는 ARC Prize 2024 전에 3개의 대회가 있었다:

  • 2020 : Frist ARC-AGI Kaggle competition
  • 2022 : ARCathon 1
  • 2023 : ARCathon 2

ARC-AGI-1에 대해 순수 딥러닝 방식들은 좋지 않은 성적을 거뒀고 그 이유는 기존 딥러닝 모델들이 훈련 시점에 보았던 사례들과 새로운 상황을 단순히 연결시키는 방식 때문이다. 딥러닝은 새로운 문제에 대응하지 못한다. 첫 Kaggle competition에서는 딥러닝 방식이 모두 1% 이하의 성적을 기록했고 GPT-3모델은 0%의 성적을 기록했다. 이것은 ARC가 LLM이 등장하기 전부터 만들어졌음에도 2022~2024년의 LLM 열풍에도 흔들리지 않았다는 것을 보여준다.

 

첫 번째 competition에서 가장 높은 점수는 20%였으며 4년이 지난 후 가장 높은 점수도 33%에 불과했다. ARC-AGI에 대한 느린 진척도는 ARC-AGI가 AGI에 가기위해 어렵다는 것을 아려준다. 2020년부터 2024년초까지 AI 연구자들은 딥러닝 시스템의 크기를 키우고자 했으며 이것은 general intelligence보다는 task specific한 결과를 낳았다. 우리의 관점에서 이 시기는 AGI에 대한 진전이 정체된 시기였다. AI 시스템은 커지고 많은 데이터를 외우고 있지만 일반화 능력은 발전하지 못했다.


ARC Prize 2024 Results

Kaggle Leaderboard

2024년 초 최첨단 AI 시스템에 나타난 ARC-AGI에서 저조한 성능은 AGI의 발전을 막는 개념적 한계를 보여주는 증거였다. 이것을 해결하기 위해 우리는 ARC Prize를 열어 연구자들이 새로운 아이디어를 서로 공유하게 만들었다. 대부분의 프론티어 AI 연구는 더이상 산업 연구소에 활발히 공개되지 않기 때문에 ARC Prize는 연구자들이 코드를 공개하고 연구 결과를 나누도록 하는 구조를 가지고 있다.

 

ACR Prize 2024는 6월 11일에 진행되어 11월 10일까지 진행되었다. 대회는 kaggle과 arcprize.org에서 진행되었다. 2024년의 승자는 표 1에 나타나며 모든 점수는 arcprize.org에서 확인이 가능하다.

 

참가자들은 Kaggle을 통해 제출한 솔루션을 바탕으로 100개의 private evaluation 문제를 인터넷 없이 단일 P100 GPU가 탑재된 가상머신에서 12시간 내에 푸는 방식으로 평가 받았다. 자신의 솔루션을 공개해야 수상이 가능했기에 55.5%를 기록했지만 공개하지 않은 MindsAI는 수상 자격이 박탈되었다.

표 1. ARC Prize 2024의 승자


Public Leaderboard

ARC Prize는 Kaggle 리더보드에 이어 ARC-AGI-Pub이라는 리더보드를 운영했다. 이것은 닫힌 프론티어 모델의 성능을 평가하기 위해 인터넷 접속과 높은 컴퓨팅 자원을 허용하는 것이다. 데이터 유출의 위험때문에 작업은 private evaluation으로 평가되지 않고 대신 semi-private로 평가된다. 또한 과적합을 방지하기 위해 각 참가자의 성능은 public evaluation set의 결과와 함께 보고되었다. 두 가지의 점수가 10$이상 차이날 경우 과적합이라고 판단한다.

표 2. ARC-AGI-Pub 리더보드

 

이 리더보드는 참가자들에게 Kaggle보다 약 1,000배 더 많은 컴퓨팅을 제공했다. ARC-AGI-Pub 항목은 최대 $10,000의 API 크레딧을 사용할 수 있었지만 Kaggle은 항목당 $10 상당의 컴퓨팅만 사용할 수 있었습니다. ARC Prizer가 API 수수료를 부담했다. 최종 2024 점수는 표 2에서 확인이 가능하며 "pass@1"의 결과는 모든 모델에 대해 동일한 공개 프롬프트 방식을 사용한 결과이다. 놀랍게도 competition과 두번째 leaderboard의 상위권 점수는 비슷했다. 이것은 단순히 연산 자원을 늘리는 것이 아닌, AGI를 향한 알고리즘적 발전 자체가 중요한 역할을 하고 있음을 시사한다.


Paper Awards

ARC Prize 2024는 모델의 성능과 무관하게 새로운 아이디어의 창의성을 평가하는 "Paper Awards" 부문도 함께 운영되었다. 아래의 논문들이 상을 받았고 논문들의 코드는 arcprize.org에서 볼 수 있다.

  • First place: Li et al., “Combining Induction and Transduction for Abstract Reasoning”
  • Second place: Akyürek et al., “The Surprising Effectiveness of Test-Time Training for Abstract Reasoning”
  • Third place: Bonnet and Macfarlane, “Searching Latent Program Spaces”
  • Runners up:
    • Franzen et al., (the ARChitects): “The LLM ARChitect: Solving ARC-AGI Is A Matter of Per spective”
    • Barbadillo, “Omni-ARC"
    •  Fletcher-Hill, “Mini-ARC: Solving Abstraction and Reasoning Puzzles with Small Transformer Models”
    • Ouellette, “Towards Efficient Neurally-Guided Program Induction for ARC-AGI”
    • Puget, “A 2D nGPT Model For ARC Prize”

이번 대회에는 1430개의 팀이 17,789개의 엔트리를 제출했다. ARC-AGI와 관련된 많은 스타트업도 출범했다(7개의 회사가 있다고 들었다). 추가적으로 많은 대형 연구실이 ARC-AGI에 진출했다. 우리가 진짜 AGI로 가는 과정은 아직 멀지만 ARC Prize는 Test-Time Training과 같은 새로운 AGI 추론 접근법을 촉진시켰다는 점에서 의미가 크다.


Top Approaches

2024년 이전에 성과를 낸 ARC-AGI 방법들은 이산적 프로그램 탐색에 의존했으며 이것은 2020년 승자로부터 시작되었다. 이 방식은 브루트-포스 프로그램 탐색을 이용하여 private evaluation에서 20%를 달성했다.

 

이후 4년간 ARC-AGI 성능 향상은 매우 완만하게 진행되었다. LLM의 발전에도 불구하고 이것을 ARC-AGI에 사용하고자 하는 시스템들은 성공적이지 못했다. 오히려 능력의 향상은 DSL로부터 왔으며 Michael Hodel이 이를 이용하여 프로그램 탐색 과정의 성능을 향상시키는데 성공했다.

 

ARC Prize 2024를 계기로 세 가지 새로운 접근법이 등장하면서 다시 빠르게 진전이 이뤄졌다:

  • Deep learning-guided program synthesis : 코드 생성에 특화된 LLM 등의 딥러닝 모델을 활용하여 문제 해결용 프로그램을 직접 생성하거나, 탐색 과정을 효율적으로 안내하는 방식
  • Test-time training(TTT) for transductive models : 각 ARC-AGI 작업에 대해 LLM을 작업 수준에서 미세조정하여, 기존 LLM의 사전 지식을 새로운 문제 해결에 맞게 재조합 및 적응
  • Combining program synthesis together with transductive models : 위 두 가지 접근을 결합하여, 각 방식이 잘 해결하는 문제 유형이 다르다는 관찰을 바탕으로 상호 보완적 방식으로 사용

첫 번째 주목할만한 성과는 Ryan Greenblatt에 의해 발견되었고 LLM 기반 프로그램 탐색 방식을 이용하여 ARC-AGI-Pub 리더보드에서 42%의 정확도를 달성했다. 그의 솔루션은 GPT-4o를 수천개의 파이썬 프로그램을 탐색에 사용하여 성공적으로 입력/출력을 매핑하는 프로그램을 찾는 것이었다.

 

5달의 콘테스트 기간동안 높은 점수를 기록했던 팀 중 하나는 MindsAI로 55.5%의 정확도를 기록했다. MindsAI는 test-time training을 2023년부터  TTT 기법을 가장 먼저 도입한 팀 중 하나이지만 그러나 그들의 TTT를 공유하지 않았다. 그럼에도 불구하고 많은 팀에게 영감을 주어 다양한 팀들이 TTT 접근 방식을 개발하는 계기가 되었다.

 

ARC Prize 2024의 1등 ARChitects는 TTT를 사용해 53.5%의 기록을 남겼고 2등은 Ekin Akyurek팀으로 역시 TTT를 사용하여 47.5%의 기록을 남겼다. 두 방법은 arcprize.org에 모두 공개되어 있다.

그림 2. ARC-AGI-1의 1등 점수

Deep Learning-Guided Program Synthesis

ARC-AGI가 출범한 2019년에 Chollet은 이것이 프로그램 합성 벤치마크로 이해할 수 있다고 제안했다. 그렇기에 이산적 탐색과정을 가진 딥러닝 모델로 프로그램 합성의 주요 병목인 조합 폭발 문제를 해결할 수 있을 것이라고 보았다. 실제로 2020 대회에서는 브루트포스 탐색 방법으로 가득 찼으며 2023년부터 등장한 코드 생성이 가능한 LLM의 활용으로 인해 LLM이 후보 프로그램을 생성하고 이를 코드 인터프리터로 실행하여 평가하는 방식으로 더욱 효율적인 프로그램 합성 방법들이 등장하게 되었다.

  • Brute-force search over a Domain Specific Language(DSL)  이 방식은 DSL로 사전 정의된 가능한 모든 프로그램을 무작위로 탐색하는 것이다. 이론적으로는 완벽하지만 DSL의 크기나 프로그램의 복잡도가 커질수록 조합적 폭발 문제가 발생해 스케일이 어려워지는 한계가 있다. ARC-AGI에 긍정적인 결과를 가져다준 첫 번째 방식이며 2020년에 모든 참가자들의 프로그램을 앙상블하여 브루트포스로 실행한 결과 49%의 정확도를 달성했다. 현재 Kaggle에서 관찰 가능한 가장 높은 점수는 40%의 점수를 private evaluation에서 올린 team alijs이다.
  • LLM-powered program generation in open-ended languages LLM은 파이썬과 같은 범용 프로그래밍 언어로 된 프로그램을 생성할 수 있는 데이터를 사전 학습한다. Green-blatt는 GPT-4o를 이용하여 문제를 해결할 수 있는 파이썬 프로그램을 수천개 생성하는데 성공했다. 그 후, 이를 코드 인터프리터로 실행한 뒤 최적의 프로그램을 선택하는 접근법을 제안했다. 이 방식은 정교한 프롬프트 엔지니어링과 후보 프로그램을 평가하는 과정에 크게 의존한다.
  • LLM-guided discrete program search over a DSL 이 방식은 DSL 기반의 이산적 프로그램 탐색과 LLM의 장점을 결합한 것이다. Ouellette는 이 전략을 사용해 LLM이 DSL 내에서의 탐색 과정을 유도하도록 하였고 이는 탐색 공간을 효과적으로 줄이고 효율성을 향상시켰다.
  • LLM-powered iterative program debugging 완전한 프로그램을 생성하는 것 대신에 LLM은 이미 만들어진 프로그램을 디버깅하거나 미세 조정이 가능하다. Greenblatt은 이런 방식을 활용하여 LLM을 가능성 있지만 실패한 프로그램의 에러를 줄이는 곳에 사용했고 ARC-AGI에 대한 성능을 향상시켰다.

우리가 성공할 것이라고 생각했지만 아직 실현되지 않는 방법 중 하나는 이산적 프로그램 탐색 과정에서 분기 결정을 전문 특화 딥러닝 모델이 안내하는 전략이다. 이는 DeepMind의 AlphaProof 시스템에서 볼 수 있는 방식과 유사하다.

 

우리는 프로그램 합성이 test-time 탐색 기법과 결합되어 향후 12~24개월 내에 대부분의 프론티어 AI 시스템에 채택될 것으로 예상된다. 이와 같은 탐색 기반 접근법은 더 많은 자원을 투입할수록 점수가 올라갈 수 있기 때문에 앞으로는 단순히 방법의 성능이 아닌 방법과 연산 예산의 조합에 점수를 매겨야 한다는 형식적 효율성 보고가 요구될 것이다. 예를 들어 우리는 85%의 결과를 Greenblatt's의 방식으로 도달하려면 이는 100,000,000 프로그램을 한 작업에 생성, 평가, 디버깅을 했기 때문이며 100개의 문제를 푸는데 수백만 달러 수준의 연산 비용이 소요된다.

 

현재 시점에는 딥러닝 기반 프로그램 합성 방식이 DSL 기반 브루트포스 탐색을 확실히 능가하지는 못하고 있다. 두 접근법 모두 비슷한 컴퓨팅 자원 조건에서 40%대 성능을 보인다. 그러나 향후에는 딥러닝을 활용한 더 효율적인 탐색 기법이 등장하면서 브루트포스 방식보다 현저히 뛰어난 방식을 보일 것으로 기대된다.


Test-Time Training

기존의 딥러닝 패러다임은 2022-2023동안 LLM으로 부터 구체화되었다. 그러나 ARC-AGI를 해결하는 것은 암기된 패턴을 불러와 적용하는 것 그 이상을 요구한다. 그것은 구체적인 작업에 적응하는 능력이다. 이러한 요구는 test-time training(TTT)의 발전을 이끌었으며 test-time fine-tuning(TTFT)로도 알려져 있다. 오늘날 ARC-AGI에서 좋은 성능을 보이는 LLM 기반의 기법들이 TTT를 채택하고 있다. 반면 기존의 정적 추론 기반 방식은 11% 이하의 성적을 보이며 이는 기존 딥러닝 방식이 새로운 작업을 일반화하는 데 한계가 있음을 보여준다.

 

TTT는 사전학습된 LLM을 미세 조정하여 각 쌍이 주어졌을 때 미세조정하여 각 작업에 맞는 모델을 생성하고 이를 통해 출력 그리드를 예측하는 방식이다. 흥미롭게도 TTT는 프로그램 탐색과 비슷해보이지만 그럼에도 불구하고 암기/재조합과는 정반대에 존재한다. 두 방법은 모두 기존의 지식 블록을 재조합하여 작업을 해결한다는 공통점이 있지만 프로그램 검색은 일반적으로 작은 일반 프로그래밍 요소 집합의 조합을 통해 해결하고, TTT는 특정 작업에 맞춰 구체화하며 test-time gradient descent를 통해 학습 구조 자체를 재조합하는 방식을 따른다.

 

ARC-AGI에서 TTT가 효과적으로 적용되기 위한 핵심 요소들은 다음과 같다:

  • Data augmentation and alternative datasets ARC-AGI-1의 크기가 한정되어 있기 때문에 대규모 데이터 확보가 필수적이다. TTT는 ARC-Heavy/ARC-Popourri와 같은 데이터셋을 대신 사용하기도 하고 Re-ARC나 조심히 데이터 증강을 하기도 한다. 예를 들어 ARChitects는 새로운 증강 기법과 이러한 증강에 따라 생성된 솔루션의 안정성을 기반으로 한 선택기준을 생성했다.
  • Fine-tuning strategies LoRA와 full fine-tuning은 LLM을 테스트 시점에 적응시키기 위해 연구했다. 두 연구 모두 해당 테스트 작업에서 주어진 예시 쌍을 증강한 데이터를 기반으로 미세 조정을 수행한다.
  • Specialized 2D-aware architectures 효율적인 TTT는 시각적 추론에 뛰어난 트랜스포머 구조를 사용하는 경우가 있다.이것은 2D 어텐션 메커니즘이나 2D 포지션 인코딩을 포함하여 입력 그리드를 더 효율적으로 캡쳐한다.

아래는 ARC Prize 2024에서 TTT가 사용된 예시들이다:

  • OmniARC : Qwen2.5-0.5B-Instruct 모델은 다양한 멀티모달 프로그램을 사전학습시켜 증강된 ARC 데이터에 test time fine-tuning을 하였다. 이후 이 과정을 프로그램 합성 방법과 결합하여 앙상블 성능을 높였다.
  • Akyurek et al. : 8B 파라미터 규모의 모델을 TTT을 적용하여 53%의 정확도를 달성했다.
  • MindsAI : Salesforce T5 모델 시리즈는 공개된 평가 셋과 합성된 데이터에서 사전학습 되었고, 각 작업에 대해 test time fine-tuning을 수행했다.
  • ARChitects : NeMo-Minitron-8B 모델은 데이터 증강과 새로운 선택 방식을 이용했다.

Bonnet과 MacFarlane과 같은 다양한 TTT는 LLM의 잠재 공간에서 탐색을 진행했다. 이런 방식은 무작위 탐색과 경사하강법을 이용해 잠재 공간에서 더 나은 프로그램을 찾는다. test-time에 적응하는 새로운 방식은 fine-tuning도 아니고 이산적 탐색도 아니다.

 

우리는 TTT가 LLM 기반의 주요 방식이 될 것이고 사전학습되지 않은 작업에서의 성능을 향상시켜줄 것이라고 생각한다. 물론 TTT는 프로그램 합성에 비해 시스템 결합하는 것은 어렵기에 단기적으로 나올 것을 기대하지는 않는다. 그래도 2026에는 유명해져 널리 사용될 가능성이 높다.


Combining Program Synthesis with Transduction

아래는 광범위하게 사용되는 ARC-AGI의 두 가지 방법이다:

  • Program synthesis, or "induction" : 주어진 예시 쌍에 기반하여 입력을 출력으로 바꿔주는 프로그램이나 함수를 찾는다. 그 후 그 프로그램을 테스트 입력에 적용하여 출력을 얻는다.
  • Transduction : 주어진 예시 쌍과 테스트 입력을 함께 활용하여 직접적으로 출력을 예측한다. 예를 들어 LLM에 작업에 대한 정보와 테스트 입력을 같이 프롬프트하는 방식이 있다.

2023년 transduction 기반 방식이 처음으로 0점을 넘었을 때 연구자들은 induction과 transduction이 서로 다른 유형의 문제를 풀 수 있다는 사실을 깨달았다. 이런 문제는 나중에 "Combining Induction and Transduction for Abstract Reasoning"에서 자세히 다뤄진다.

 

최근 높은 점수를 기록하는 ARChitects나 Bar-badillo 같은 방식은 induction과 transduction 방식의 혼합을 이용한다. 각자 제일 좋은 성능은 40%였지만 두 개를 결합해야만 높은 수준에 도달할 수 있는 것이 현재의 현실이다.


Future

우리는 ARC-AGI 벤치마크가 완전히 해결되고 공식 솔루션이 공유될 때 까지 ARC Prize를 매년 개최할 생각이다. ARC Prize 2024는 대규모 실험적 시도였으며, 기대 이상으로 성공적으로 마무리되었다. 이는 ARC-AGI에 대한 전 세계적인 관심이 늘었다는 것을 의미한다. 우리는 ARC Prize 2024를 통해 미래에는 더 다양한 버전의 벤치마크와 더 개선된 대회 운영 방식을 준비하고 있다.

ARC Prize: 2025 and Beyond

우리는 ARC Prize가 AGI를 향한 새로운 아이디어에 주목하게 만든 점에 대해 매우 고무적이라고 생각한다. 원래 기대는 개인 연구자들, 커다란 랩실이 그들만의 ARC-AGI에 대한 관점을 제공하는 것이었다. 그러나 우리는 AI 연구 스타트업이 그들의 방향을 틀어 벤치마크 해결을 우선시하게 된 것에 굉장히 놀랐다. 7개의 회사들이 $1M보다 거대한 자금을 가지고 ARC-AGI를 해결하고자 노력하고 있다.

 

이런 조직들은 서로 다른 인센티브 구조를 가지고 있다. 예를 들어 단순 상금만으로는 연구 내용을 공개할 동기를 갖기 어려울 수 있다. 그래서 우리는 2025 대회를 다시 재구성할 계획을 세웠다. 우리의 목표는 다양한 AI 연구자들과 랩, 스타트업에게 AGI를 향할 수 있는 가장 좋은 길을 제공하는 것이다.


ARC-AGI-2

ARC-AGI-1의 숨겨진 평가 데이터는 2019년부터 변하지 않았고 몇 가지의 결함이 있는 것으로 알려져 있다. 첫 번째로 숨겨진 데이터는 오직 100개의 문제만으로 이뤄져 있다. 이 100개의 문제는 지금까지 개최된 4회의 대회에서 모두 중간 리더보드 점수 산정용으로 사용되었으며 그 결과로 지금까지 약 10,000건의 개인 평가 셋 점수가 참가자들에게 보고되었다. 각 점수는 조금이긴 하지만 숨겨진 문제의 내용에 대한 정보를 추측할 가능성이 있으며 결과적으로 private set에 대한 과적합 가능성을 점점 더 높인다. 벤치마크의 신뢰성을 높이는 방안으로 다음이 제안된다: 하나는 즉각적인 리더보드 점수(semi-private), 다른 하나는 최종 점수(private)이다. 이 방식은 숨겨진 셋의 과적합 위험성을 제거해준다.

 

게다가 2020년에는 단일 제출 기준 최고 점수는 20%가 나타났지만 2020 제출을 분석한 결과 49%의 private set이 적어도 한 팀에 의해 해결된 결과를 보였다. 이것은 ARC-AGI-1 데이터셋의 큰 부분이 AGI능력과는 무관하게브루트 포스 알고리즘으로 해결이 가능하다는 것을 시사하다. 아직 도전적이고 흥미로운 문제들이 남아있기에 ARC-AGI가 여전히 풀리지 않은 상태로 남아있다.

 

마지막으로 다양한 평가 데이터셋이 일관된 인간 난이도 분포에서 도출되지 않았기 때문에 평가 간 점수 비교가 어렵다는 일화적 증거가 있다. 이런 문제를 해결하면서 ARC-AGI의 친숙함은 유지하기 위해 우리는 ARC-AGI-2 작업을 진행하고 있고 2025 대회에는 이런 새로운 데이터셋이 등장할 것이다.


Conclusion

ARC Prize 2024는 성공적으로 진행되었다. 대회를 통해 ARC-AGI 벤치마크에 대한 인식이 크게 확산되었고 33%였던 성능이 55.5%까지 끌어올려지는 등 새로운 접근법들이 등장했다. 하지만 아직 정복되지 않은 상태이며 2020년의 브루트포스 탐색만으로도 49%의 점수가 가능했음을 고려하면 여전히 근본적인 아이디어의 도약이 필요하다. 60만 달러의 상금이 걸려 있는 상황에서 5개월 동안 수많은 시도와 분석이 이뤄졌음에도 정답이 나오지 않았다는 사실 자체가 현재까지 ARC-AGI 해답은 존재하지 않는다는 증거라고 할 수 있다. 우리는 미래에 AGI를 실제로 만들어낼 팀은 지금 이 순간 ARC-AGI를 고민하고 있을 것이라고 믿는다.


P.S.

최근 GPT-4o가 거의 80퍼센트의 성능을 기록하며 사람의 기록을 넘어 ARC-AGI-1은 패배했다고 볼 수 있다. 그러나 ARC-AGI-2가 공개되었는데 거기서는 4퍼센트의 성능을 기록하며 아직 AGI의 길은 멀다는 것을 느끼게 해주었다.

 

https://arxiv.org/abs/2412.04604

 

ARC Prize 2024: Technical Report

As of December 2024, the ARC-AGI benchmark is five years old and remains unbeaten. We believe it is currently the most important unsolved AI benchmark in the world because it seeks to measure generalization on novel tasks -- the essence of intelligence --

arxiv.org

 

'GIST > Artificial General Intelligence' 카테고리의 다른 글

[AGI] ARC-AGI Without Pretraining(by Isaac Liao)  (0) 2025.04.07
[AGI] Program Synthesis - 4  (0) 2025.04.03
[AGI] Program Synthesis - 3  (0) 2025.04.03
[AGI] Program Synthesis - 2  (0) 2025.04.02
[AGI] Program Synthesis - 1  (0) 2025.04.02