IntroductionARC는 AI의 추론능력을 평가하기 위해 설계된 벤치마크이다. 각 문제는 2-5개의 예시 쌍이 주어지고 테스트 문제로 입력만이 주어진다. 입력과 출력 그리드는 작게는 1 x 1부터 크게는 30 x 30까지 가능하고 최대 10개의 색상으로 채워져 있다. ARC의 강점은 사전 지식이나 데이터에 대한 의존을 최소화하고, 순수한 추론 능력만을 평가할 수 있다는 점이다. 그러나 이런 ARC에도 한계가 있는데 그것은 다양한 추론을 요구하는 어려운 벤치마크라는 것이다. Bloom's Taxonomy에서는 교육 이론에 따르면 인지능력은 6단계로 나뉜다 : 기억, 이해, 적용, 분석, 평가, 생성. 이 관점에서 보면 ARC는 가장 최상위 단계인 생성만을 평가하며 추론 과정이 맞아서 작은 오류가 있으..