[논문 정리] From Generation to Selection: Findings of Converting Analogical Problem-Solving into Multiple-Choice Questions

논문/논문 정리

[논문 정리] From Generation to Selection: Findings of Converting Analogical Problem-Solving into Multiple-Choice Questions

bengal3636 2025. 4. 9. 17:22

Introduction

ARC는 AI의 추론능력을 평가하기 위해 설계된 벤치마크이다. 각 문제는 2-5개의 예시 쌍이 주어지고 테스트 문제로 입력만이 주어진다. 입력과 출력 그리드는 작게는 1 x 1부터 크게는 30 x 30까지 가능하고 최대 10개의 색상으로 채워져 있다. ARC의 강점은 사전 지식이나 데이터에 대한 의존을 최소화하고, 순수한 추론 능력만을 평가할 수 있다는 점이다.

그러나 이런 ARC에도 한계가 있는데 그것은 다양한 추론을 요구하는 어려운 벤치마크라는 것이다. Bloom's Taxonomy에서는 교육 이론에 따르면 인지능력은 6단계로 나뉜다 : 기억, 이해, 적용, 분석, 평가, 생성. 이 관점에서 보면 ARC는 가장 최상위 단계인 생성만을 평가하며 추론 과정이 맞아서 작은 오류가 있으면 오답으로 처리된다. 이런 문제를 해결하기 위해 Mini-ARC나 1D-ARC같은 시도들이 있었지만 그것들도 여전히 생성 기반 평가에 머무르고 있어 본질적인 한계를 벗어나지 못하고 있다. 따라서 추론의 어떤 단계에서 발생한 오류인지를 파악할 수 있는 새로운 평가 방식이 필요하다.

본 논문에서는 MC-LARC라는 벤치마크를 제안하여 ARC 문제의 해결 과정에서 중간 단계 평가를 제공할 것이다. MC-LARC는 평가 방식을 생성에서 선택으로 바꾸어 Bloom's Taxonomy 중 이해와 적용의 단계를 측정할 것이다. 이를 위해 LLM을 활용해 정답과 4개의 오답을 자동 생성하였으며 실험을 통해 다음과 같은 결과를 보였다: 1) LLM의 정확도가 10%에서 76%까지 상승, 2) LLM의 추론 분석 능력이 더 명확해짐. 그러나 LLM이 MC-LARC를 추론 능력보다 문장 구조나 표현의 특징을 활용한 지름길 방식으로 문제를 푸는 경향이 관찰되었다. 이것을 해결하기 위해 우리는 self-feedback 프레임워크를 제안하여 지름길 해결을 줄이고 정답 선지의 품질을 높이는 방식을 제시했다.

Related Works

Evaluation Methods for LLM Abilities Based on Bloom's Taxonomy

Bloom's Taxonomy는 인지 능력의 계층적인 분류를 제공한다. 그림 1처럼 6단계로 분류하며 각 단계는 다른 복잡도와 이해에 대한 깊이를 가지고 있다. Bloom's Taxonomy를 이용하면 교육자나 연구자들은 더 효율적으로 학습 경험과 평가를 더 체계적으로 설계할 수 있다.

이 분류 체계는 다양한 평가에 활용되고 있다.

Shojaee-Mend et al. 은 신경 심리학의 질문에 대한 llm의 답변을 Bloom's Taxonomy 관점에서 분석했으며 기초 지식 회상에는 강점을, 고차원 추론과 통합 능력에는 약점을 보였다.
Joshi et al.은 ChatGPT와 Bard가 만든 시각화 교육 추천 내용을 분석했으며, GhatGPT는 다양한 인지 단계에서 더 적절한 제안을 했지만, Bard는 신뢰도가 낮은 결과를 보였다.
BloomGPT 프로젝트에서는 Bloom's Taxonomy를 이용한 ChatGPT 웹 어플리케이션을 만들어 대학생의 인지 및 메타인지 능력을 효과적으로 향상시켰다.

Benchmarks for Abstraction Tasks

Abstraction and Reasoning Corpus (ARC) Abstraction and Reasoning Corpus(ARC) 벤치마크는 컴퓨터 시스템의 지능을 측정하기 위해 Chollet이 개발했다. 이 벤치마크는 산술 능력, 기하학, 위상적 사고 등의 복잡한 사전 지식을 바탕으로 한 추론 능력을 요구한다. ARC의 목표는 예시로부터 공통된 규칙을 찾아 테스트 문제의 정답을 맞추는 것이다. 오리지널 ARC 벤치마크는 400개의 훈련 셋, 400개의 평가 셋, 200개의 테스트 셋으로 이뤄져 있다.

그림 1(Bloom's Taxonomy)와 그림 2(LARC의 두 가지 문제)

Language-Complete ARC (LARC) LARC(Acquaviva et al.) 데이터셋은 400개의 ARC 훈련 데이터로 구성되어 있으며 각 데이터는 1) 입력 이미지의 설명과 2) 입력과 출력 사이의 규칙을 설명하는 자연어 문장이 나타난다. LARC는 언어만으로 문제를 이해하고 해결할 수 있는 정보를 포함하며 이는 language-complete라고 부른다. 즉, 언어를 통해 우리는 이미지가 없어도 규칙을 알 수 있다. 이런 language-complete ARC는 그림 2에서 확인이 가능하다.

Modified Benchmark with Transformed Evaluation Format Abstraction and reasoning 문제는 평가 대상인 '추론 능력'의 정의가 불명확하기 때문에 과제 설정 자체에서 어려움을 겪는다. 이를 해결하기 위해 기존 과제를 단순화하거나 반대로 복잡하게 확장하는 다양한 시도들이 이루어져 왔다.

Bongard-LOGO는 원래 자연어로 두 이미지 그룹의 차이를 설명해야 했던 복잡한 문제인 Bongard 문제를 분류 문제로 바꾸어 언어적 복잡성을 줄이고 원인 분석을 쉽게 만들었다.
VQA(2015)는 이미지와 질문이 주어졌을 때 답변하는 것으로 평가하는 것이었지만 추론 능력에는 한계점이 있었다. 이를 극복하기 위해 TGIF-QA는 이미지에 대한 추론을 요구하는 질문을 추가하여 한계점을 보완했다.

MC-LARC : Generation to Selection

우리는 MC-LARC를 다음과 같은 2가지 단계를 통해 만들었다:

현존하는 LARC를 조정하기
ChatGPT4를 이용해 LARC에 대한 오답을 생성

Refining Process 오리지널 LARC는 그림 2에서 보이듯 notable quality 문제가 있었다. 이런 문제가 발생하는 이유는 1) 같은 내용에 다른 표현이 존재하고 2) 불충분한 디테일이 설명에 제공되기 때문이다. 예를 들어 그림 2의 상단을 보면 같은 개념을 다른 표현으로 보여주어 혼란을 유발하고 이는 언어 모델이 잘못된 선택을 하게 만든다. 게다가 설명 자체에 문제를 해결하는데 필요한 핵심 정보가 누락된 경우도 많았다.

그림 2에 나온 문제에 데이터셋의 불일관성은 색깔 뿐만 아니라 도형을 표현하는 방식, 그리드 조작 방식 등에서도 발생한다. 이런 문제를 해결하기 위해 우리는 정제 과정을 수행하여 표현의 일관성 확보와 오류 수정을 하고자 했다. 그림 2에서는 이런 정제 과정의 개요를 확인할 수 있다.

Designing Distractors with ChatGPT4 LARC에 의해 정제된 표현을 기반으로 우리는 4개의 오답을 ChatGPT4를 이용하여 생성했으며 이는 그림 3에서 확인이 가능하다. 그러나 제한되지 않은 생성은 문제와 관련되지 않은 후보들을 생성하는 문제가 발생했다. 이런 문제를 해결하기 위해 우리는 프롬프트 수준에서 3가지의 제한을 두었다.

In Context Vocabulary : 그럴듯한 후보를 생성하기 위해 표현을 ARC 주제와 관련된 것으로 제한하는 것은 필수적이다. 이것을 위해 두 개의 상황에 맞는 제한이 도입되었다. 하나는 ARC 환경에 대한 설명 추가이고 다른 하나는 사용하지 말아야 할 단어 목록을 지정하는 방식이다.
Length of Options : 후보를 생성할 떄, LLM이 짧은 문장을 만들 때가 있으며 이럴 경우 길이 차이로 정답을 쉽게 맞출 수 있다. 이것을 방지하기 위해 정답과 비슷한 길이의 오답을 생성하도록 제안했다.
Format : 문장의 시작 형식이 일정하지 않으면 문장 패턴을 기반으로 정답을 추측할 수 있다. 이를 방지하기 위해 모든 선택지의 시작 문구를 고정했다.

우리는 MC-LARC의 정제 과정이 실제로 어떤 영향을 미쳤는지를 분석했다. 표 1은 정제과정이 들어가기 전 정답과 오답 사이의 평균 단어 수 및 분산의 차이를 정제 전후로 비교한 결과를 보여준다. 제약을 추가하는 것이 문항 길이만으로 정답을 추론하는 지름길 사용 가능성을 줄여주는 데 효과적임을 보였다.

표 2는 Jaccard similarity와 Levenshtein distance를 정답과 오답 사이에 비교한 것이다. Jaccard similarity가 높을수록 문장 간 단어 구성의 유사성이 크고 Levenshtein distance가 낮을수록 문장 간 형태적 유사성이 크다는 의미이다.

Experiments

Evaluating MC-LARC's Efficacy

이 부분에서는 MC-LARC이 저수준의 인지 능력(이해와 적용)에서 얼마나 효과있는지를 평가한다. 이를 위해 MC-LARC 문제를 ChatGPT4v 모델에 5회씩 제공하여 400개의 문제 중 76%의 정답률을 보였다. LLM의 ARC 문제에 대한 정답률이 10%정도인 것을 생각하면 이는 높은 점수이다. 이 차이의 의미를 더 조사하기 위해 LLM에게 각 옵션을 선택한 이유를 설명하도록 추가 실험을 진행했다. 결과는 정답 정확률과 추론 타당성이 강한 연관을 가지고 있었고 이는 그림 4에서 확인이 가능하다.

이것은 기존 ARC에서 자주 발생하는 추론 과정은 맞지만 출력은 조금 틀려서 오답 처리되는 문제를 줄일 수 있음을 의미한다. 게다가 LLM의 설명은 ARC 문제를 이해하는 것을 반영한다. 물론 MC-LARC가 복잡한 패턴인식, 규칙 추출, 추상화, 새로운 상황에 대한 적용을 하지 않는다. 그래도 MC-LARC는 문제 해결의 중간 추론 단계를 관찰할 수 있게 해주므로 LLM의 기본적인 이해와 추론 능력을 더 분석하게 해준다.

MC-LARC의 평가 도구로서의 신뢰성을 평가하기 위해 LLM의 응답 일관성을 분석했다. 표 3은 이러한 결과를 보여준다. KR-20과 Cronbach's Alpha 값은 0.9를 초과하여 매우 높은 내부 일관성을 보인다. 또한 ANOVA를 분석했을 때, F-statistic값은 낮고 p-value는 0.05를 초과하여 항목 간 유의미한 차이가 없고 응답이 일관되게 평가되었음을 보여준다. 이것은 MC-LARC가 높은 신뢰성을 가지고 있다는 것을 의미한다.

Problmes on Augmentation

우리는 흥미로운 것을 발견했다: LLM이 지름길을 사용하여 MC-LARC를 푸는 것이다. 이것은 그림 6에 나와있으며 ARC 이미지를 제공했을 때와 제공하지 않았을 때의 과정을 비교하는 실험을 통해 이 사실을 밝혀냈다. 이미지를 보여주지 않았을 때 정확도는 65%로 감소했다. 이는 LLM이 시각적 추론 없이도 선택지 자체의 특징만으로 정답을 유추할 수 있다는 것을 보여준다.

LLM이 MC-LARC를 이미지 없이 해결하는 과정을 분석하기 위해 LLM에게 답변에 대한 설명을 요구했다. 그림 5에서 보이듯 LLM은 정답을 고를 때 1) 가장 많이 반복된 표현을 고르고 2) 모순적인 답변을 지운다의 전략을 사용했다.

우리는 선지 생성 단계에서 2가지 문제점을 발견했다.

정답 선택지에 가장 많이 반복되는 단어들이 포함되는 경향이 있어, 이를 기준으로 LLM이 정답을 추론할 수 있었다
이미지 없이 생성된 선택지들이 문맥에 맞지 않거나 의미상 모순된 표현을 포함하는 경우가 있었고, LLM은 이를 비교하여 제거함으로써 정답을 맞췄다.

이런 문제는 공정한 추론 능력 평가를 방해할 수 있기 때문에, 선택지 생성 과정을 개선할 필요가 있다.

Improving Quality: Self-Feedback Framework

두 실험을 통해 우리는 multiple-choice 방식이 문제 해결에 두 가지 측면에서 강점이 있다는 것을 보았다: 1) 추가적인 정보를 제공해 문제 해결에 도움, 2) 추론 과정을 더 명확하게 평가. 그러나 지름길이 있다는 것도 발견했고 우리는 이를 개선해야 했다. 이를 위해 Wang et al.이 적용했던 self-feedback이라는 과정에서 영감을 받아 추가 실험을 진행했다.

그림 7에 나오듯 self-feedback 과정은 3가지의 단계를 포함한다.

이미지 없이 문제를 해결
문제 해결 과정을 이미지 없이 설명하여 지름길 가능성 분석
발견된 지름길을 제거한 새로운 선택지를 생성

이런 프레임워크는 제약을 추가하지 않고도 선지를 만드는 능력을 향상시켜 준다.

표 5를 보면 이미지 없이 실험을 진행했을 때의 정확도가 43.75%로 감소한 것을 볼 수 있다. 이건은 지름길을 이용한 방식이 줄어들었다고 볼 수 있지만 이미지가 있을 때의 정확도도 76.05%에서 62.5%로 감소하는 단점도 있었다. 이는 선택지 간 유사성이 증가하여 문제의 난이도가 올라갔기 때문으로 해석된다. self-feedback을 통해 이미지가 있을 때와 없을 때의 격차를 더 벌렸으며, 동시에 모호한 선택지로 인해 정답률이 낮아지는 단점도 같이 나타났다.

Discussion

Criteria on Good Option and Bad Option

여기서 핵심은 어떤 것이 좋은 문제고 어떤 것이 좋지 않은지를 구별하는 것이다. 우리가 정답을 생성하는 과정을 향상시키기 전에 "높은 품질과 낮은 품질의 선택지의 차이는 무엇인가?"의 질문에 대답을 해야한다. 우리는 LLM으로 부터 생성된 선택지를 세 가지의 레벨로 나눴으며 이는 그림 8에서 확인이 가능하다.

Best : 핵심 개념을 정확히 반영한 선택지. 예를 들어, ARC에서는 이미지 간 변화가 핵심인데 특정 픽셀을 주황색으로 채워 정사각형을 완성하는 것처럼 변화의 본질을 반영한 선택지가 이상적이다.
Moderate : 입력 이미지로부터 예측 가능한 요소를 반영하지만 핵심은 반영하지 못한 선택지. 예를 들어, 입력에 존재하지 않는 색이나 크기를 언급하는 경우.
Bad : ARC 도메인과 무관한 내용을 포함하는 선택지.

좋은 표현은 문제에 대한 핵심을 포함해야하며 전체 문맥과 일관성 있게 구성이 되어야 한다.

Human Evaluation of MC-LARC

인간 수준의 추론에서 MC-LARC의 동작을 보기 위해 실험을 진행했다. 8명의 학부 연구생을 통해 MC-LARC를 진행을 시켰고 400개의 문제를 50개씩 8개로 나누어 각자 하나씩 평가를 진행했다. 결과는 표 6에서 확인이 가능하다.

평균적으로는 90.75%의 정답률이 나왔고 각자의 정답률로 따지면 72%에서 100% 사이의 결과를 보였다. 복잡한 문제에 대한 인간 성능의 통찰을 얻기위해 참가자들에게 문제가 얼마나 어려웠는지를 물어보고 실제 난이도와 비교를 진행했다. 표 7은 해당 결과를 나타낸다. 난이도가 올라갈수록 성능이 전반적으로 감소하는 경향이 확인되었다.

주목할 것은 인간 참여자들의 성능이 ChatGPT보다 우수했다는 점이다. 이는 MC-LARC가 인간 수준의 추론 능력을 효과적으로 측정할 수 있으며 AI 시스템의 추론 능력을 평가하는 벤치마크로의 가능성을 보여준다. 또한 향후 다양한 난이도 수준에서의 LLM 평가로 확장될 수 있는 잠재력을 보여준다.

Comparative Analysis of Language Description Quality

MC-LARC의 유용함을 평가하기 위해 우리는 선택지들이 ARC 문제를 푸는데 얼마나 도움이 되는지 평가하는 실험을 진행했다. 실험의 목적은 LLM이 주어진 ARC 문제를 파이썬 프로그램으로 풀 수 있는지 확인하는 것이다. 이를 위해 ARC 문제의 입력과 출력, 문제를 해결할 수 있는 Python 함수 세트를 제공하고 LLM이 올바른 조합을 선택하여 문제를 해결하도록 설정했다.

실험에는 3가지 데이터셋을 사용했다. 1) MC-LARC, 2) Fast and Flexible(Johnson et al.), 3) LARC. 각 데이터셋은 ARC 문제의 입력-출력, 단계별 해결 함수, 관련 설명을 포함하고 있으며 20개의 문제에 대해 각 10회씩 실험을 진행해 데이터셋별 성능을 비교할 수 있도록 구성되었다. 이를 통해 우리는 MC-LARC의 언어 설명이 단순한 선택지 형식임에도 불구하고 ARC 문제 해결에 효과적인 자원으로 사용될 수 있음을 확인했다.

표 8은 그 결과를 보여준다. LLM이 가장 높은 정확도를 보인 것은 MC-LARC를 제공받았을 때이다. 이것은 MC-LARC가 효과적으로 ARC 문제를 해결하는 핵심 요소를 담고 있다고 볼 수 있다. MC-LARC의 표현이 LLM의 성능을 다른 데이터셋에 비교했을 때도 더 크게 향상시켜주었는데 이것은 텍스트 설명이 명시적으로 주어지지 않은 정보까지 유추하는 데 중요한 역할을 한다는 점을 시사한다. 또한 MC-LARC은 오답 선택지를 제공하여 대조 학습도 가능하게 하여 LLM이 더 정밀하게 문제를 이해하고 학습하는 데 도움을 준다.

Conclusion

현재 ARC가 지능을 측정하는 방식의 한계점을 극복하기 위해 우리는 MC-LARC라는 객관식 데이터셋을 만들었다. MC-LARC는 문제 해결 과정에서 논리적 흐름을 더 명확하게 분석할 수 있게 하고 LLM의 추론 과정도 직접적으로 평가할 수 있게 해주었다. 그러나 이미지 없이 학습했을 때 지름길을 사용하는 것을 발견했고 이를 해결하기 위해 self-feedback을 도입했다. 본 연구는 다음과 같은 중요한 시사점을 담고 있다.

객관식 문제 형식이 추론 능력 평가에 효과적일 수 있다는 가능성을 제시
LLM을 활용한 자동 선택지 생성 시 주의해야 할 제약 조건 밝혀냄, 향후 더 정교한 프레임워크 개발로 이어질 가능성 존재

Limitations

본 연구는 두 가지의 한계점이 존재한다.

향상을 시켰지만 여전히 지름길이 존재한다.
선택지의 품질을 측정하는 방식이 없다.

우리는 self-feedback을 적용했지만 아직도 40%의 문제는 이미지가 없이 해결이 가능하다. 이것은 객관식 문제의 한계점(Alagumalai and Curtis)에 해당하며 완전히 제거하기 어려운 특성이다. MC-LARC는 ARC로는 평가하기 어려운 LLM의 이해 및 적용 능력을 측정할 수 있는 유의미한 도구로서의 목적을 충분히 달성하고 있다.

두번째로 본 연구에서는 정확도를 중심으로 분석이 이뤄졌지만 기존 시험 이론에서는 차별력과 같은 지표를 통해 선택지의 품질을 평가한다. 이러한 분석을 위해서는 여러 종류의 LLM 모델과 다양한 인간 데이터를 포함한 추가 연구가 필요하다.

이런 한계에도 불구하고 본 연구는 기존 ARC로는 확인할 수 없었던 LLM의 인지적 특성을 파악할 수 있는 가능성을 보여주었으며 향후 다양한 방향으로 확장될 수 있는 기반을 마련했다.

https://aclanthology.org/2024.findings-emnlp.392/

From Generation to Selection: Findings of Converting Analogical Problem-Solving into Multiple-Choice Questions

Donghyeon Shin, Seungpil Lee, Klea Lena Kovacec, Sundong Kim. Findings of the Association for Computational Linguistics: EMNLP 2024. 2024.

aclanthology.org