Introduction
오랜 기간 동안 인간 연구의 목표 중 하나는 지능의 본질을 이해하는 것이다. 기존에 가지고 있는 경험을 새로운 환경에서 적용할 수 있는 능력으로서의 지능이라고 정의할 수 있으며 Abstract Visual Reasoning(AVR) 과제는 이런 지능을 평가하는 주요 방법 중에 하나이다.
AVR 문제는 2D 도형을 포함한 이미지들로 구성되며 특정한 추상적 규칙에 의해 지배된다. 이를 해결하기 위해서는 접해보지 않은 추상적 패턴을 식별하고 새로운 환경에 일반화해야 한다. AVR 과제는 다양한 유형이 존재하지만 집중적으로 연구된 과제 중 하나는 Raven's Progressive Matrices(RPMs)이다(그림1 참조). RPM은 인간 지능을 평가하는 대표적인 과제로 간주된다.

최근에는 딥러닝을 활용한 지능적 패턴 분석 방법 개발에 집중하고 있다. 다양한 도메인에서 딥러닝 기법이 놀라운 성과를 보여줌에 따라, 딥러닝 접근법이 RPM 문제 해결에 효과적으로 적용될 수 있는지에 대한 질문이 제기되었다.
Motivation and Scope
최근 RPM을 기계 지능을 연구하는 빈도가 증가하고 있다(그림 3(a) 참조). 본 논문은 RPM과 관련된 기존 연구들을 정리한다. (1) 벤치마크 데이터셋, (2) 머신러닝 방법론, (3) 딥러닝 기반 추론 모델의 3가지 주요 관점에서 수행했으며(그림 2 참조), NeurlIPS, CVPR, ICLR, ICML, AAAI와 같은 주요 컴퓨터 학술지 및 학회의 논문들까지 넓게 다룬다(그림 3(b) 참조).
여러 RPM 벤치마크가 제안되었고 이런 벤치마크 들은 Out-of-Distribution 일반화, 지식 전이(Knowledge Transfer), 구상적 추론(Compositional Reasoning) 등의 핵심 문제를 다룬다. 이 논문에서는 RPM 문제를 널리 알리고 해결하는 과정에서 직면하는 도전 과제들을 제공할 것이다.
RPM을 해결하기 위해 다양한 방식이 제안되었다. 어떤 것은 기존의 이미지 인식 기법과 차별화를 하여 새로운 방식을 제안하고, 다른 것은 컴퓨터 비전 기술에 영감을 받아 객체 중심 표현, 공간 및 관계 추론, 신경-기호 모델 등을 이용하고자 한다. 본 논문에서는 RPM 문제 해결을 위한 주요 학습 방법 및 네트워크 아키텍처를 체계적으로 정리한다.
일부 연구에서는 AI가 초인간적 성능을 보이지만, 새로운 환경에서 일반화하는 능력은 부족하며 인간의 추상화 능력을 따라가지 못하는 결과가 나왔다. AI가 RPM 문제를 해결하는 정확한 수준을 평가하기 위해 기존 연구에서 보고된 수치적 성과를 분석 및 논의한다.



Related Work
초기 RPM 문제 해결 시도들은 수작업으로 제작된 규칙 및 휴리스틱에 의존했다. 그 후 인지 과학 이론 활용, 시각적 유사성 분석 기법 등의 방법이 연구되었으며 최근에는 딥러닝 중심으로 전환하여 일부 문제에서 인간보다 뛰어난 성능을 기록했다.
RPM과 비슷하게 추상적 패턴을 식별하는 능력이 요구되는 AVR 문제들이 여러가지 있다.
- Odd-One-Out : 특정 규칙을 위반하는 요소를 찾아야 함
- Bongard Problems : 한 그룹에서 규칙을 찾고 규칙이 적용되지 않는 그룹과 비교하여 설명해야 함
- Same-Different : 2개의 규칙을 따르는 그룹이 존재, 이미지가 주어졌을 때 어느 그룹에 속하는지 분류
- VAPs : 출발 도메인의 개념을 목표 도메인으로 일반화할 수 있는지 평가하는 과제
- 추론(Extrapolation) 문제 : 주어진 데이터를 바탕으로 새로운 패턴을 예측해야 하는 과제
- Few-Shot 추상적 패턴 인식 문제 : 극소량의 샘플만 보고 추상적 패턴을 학습하고 인식
딥러닝을 기반으로 RPM 연구가 된다면 비디오 인식, 객체 검출, 장면 이해 등 여러가지 CV 문제들에 도움이 될 것으로 기대된다.
Raven's Progressive Matrices
RPM을 해결하는 능력은 인간 지능과 높은 상관관계를 가진다고 여겨진다. 따라서 RPM은 구조적 및 추상적 추론 능력을 평가할 수 있는 지표로 간주된다.
Problem Statement
RPM의 주요 구조는 (1) 3 x 3 격자 형태의 8개 이미지로 구성된 컨텍스트 패널(Context Panels)과 (2) 여러 개의 후보 이미지들로 구성되는 정답 패널(Answer Panels)로 구성된다. 여기서 올바른 이미지를 선택하는 것이 목표가 된다(그림 4 참조). RPM을 해결하기 위해서는 시각적 속성을 지배하는 추상적 규칙을 식별해야 한다.
Automatic Generation of RPMs
초기에 제안된 RPM 셋(Standard Progressive Matrices)는 수작업으로 제작되어 훈련 데이터 부족 문제가 있었다. 딥러닝 모델 학습에는 대량의 데이터가 필요하기 때문에 시각적 다양성, 다양한 난이도 제공, 유효성 보장을 충족하는 RPM 자동 생성 기법이 필수적이었고 다양한 데이터셋이 개발되었다.

- Sandia Matrices
- 최초의 자동 생성 RPM 데이터셋으로, 기존 SPM을 분석하여 논리적 규칙(OR, AND, XOR)과 도형 속성 변화를 적용해 840개 문제를 생성
- 비교적 단순한 문제는 SPM과 유사한 난이도를 가지지만, 규칙이 많아질수록 난이도가 급격히 상승
- Synthetic RPMs
- 1차 논리(First-Order Logic) 기반으로 유효한 RPM만 생성되도록 설계
- 최대 7개의 규칙과 15개 속성을 포함할 수 있으며, 기존 SPM과 비교해도 차이가 없는 수준으로 평가된다
- D-set & G-set
- Sandia와 유사한 구조이지만, 속성 분포가 더 넓으며 연속적 속성을 지원
- D-set은 보다 다양한 속성을 포함하고, G-set은 Sandia의 속성 분포를 유지
- 논리적 관계는 포함되지 않으며, OOD 평가 및 전이 학습 실험에 활용
- PGM (Procedurally Generated Matrices)
- 딥러닝 모델의 일반화 성능 평가(OOD)를 위해 설계된 데이터셋으로, 8가지 일반화 체계를 포함
- 행렬의 구조적 표현을 명시적으로 정의하여 새로운 관계를 학습하지 않은 상태에서도 테스트 가능
- 데이터셋 크기가 매우 커서 학습 시 부담이 될 수 있다
- RAVEN
- 계층적 구조와 더 넓은 시각적 다양성을 제공하는 데이터셋
- A-SIG(Attributed Stochastic Image Grammar)를 기반으로 생성되었으며, 42,000개의 학습 데이터를 포함
- 하지만 바이어스 문제가 존재하여, Context-Blind 모델도 높은 성능을 기록하는 단점이 존재
- I-RAVEN
- RAVEN의 바이어스 문제를 해결하기 위해 트리 기반 방법으로 정답 패널을 생성한 버전
- Context-Blind 모델의 성능을 랜덤 추측 수준(12.5%)으로 낮춰, 보다 신뢰할 만한 데이터셋으로 평가
- RAVEN-FAIR
- RAVEN의 바이어스를 줄이기 위해 개발된 또 다른 버전
- 하지만 완전히 해결되지 않아 일부가 남아 있으며, Context-Blind 모델이 여전히 17.2% 정확도를 기록함
- 따라서, 바이어스를 최소화한 I-RAVEN이 더 신뢰할 만한 선택지임
Learning to Solve RPMs
RPM 인스턴스 P=(X,y)P=(X,y)를 정의하면
- X={xi}ni=1X={xi}ni=1 : nn 개의 이미지 집합
- Xc={xi}nci=1∈XXc={xi}nci=1∈X : ncnc개의 컨텍스트 패널
- Xa={xi}nc+nai=nc+1={aj}naj=1∈XXa={xi}nc+nai=nc+1={aj}naj=1∈X : nana개의 정답 패널
- y∈{1,...,na}y∈{1,...,na} : 정답 패널 ayay의 인덱스
RPM 문제는 8개의 컨텍스트 패널과 데이터셋에 따라 5~8개의 정답 패널로 구성된다. RPM을 추론하는 모델 N(X)N(X)를 정의하면 N(X)N(X)는 패널 집합을 입력받아 각 정답 패널의 임베딩 벡터를 생성한다.
Supervised Training
지도학습(Supervised Training)에서는 RPM 행렬을 올바르게 완성하는 정답 패널의 인덱스를 예측하도록 모델을 훈련한다. 모델이 각 정답 패널의 점수를 계산하고 Softmax를 통해 확률 분포를 생성하고 가장 높은 확률을 가진 패널을 정답으로 선택, 교차 엔트로피 손실을 최소화하여 학습을 진행한다.
모델은 일반적으로 MLP, Relation Network 기반 구조가 사용되고 본 연구에서는 단순한 선형 레이어 기반 모델을 고려하여 학습을 진행한다. 추가적으로 두 개의 후보 패널을 비교하면서 적합도를 평가하는 라운드 로빈 방식 학습이 제안되었다.

Auxiliary Training
일부 연구에서는 RPM 문제를 단순 분류가 아닌 구조적 예측 문제로 변환한다. 추상적 규칙을 예측하는 모델을 학습하면 성능이 향상된다는 것이 입증되었고 이를 위해 멀티-핫 인코딩 방식으로 규칙을 표현하고 규칙 예측 손실(엔트로피 손실)을 일반적인 분류 손실에 추가하여 학습하였다.
RAVEN에서는 보조 학습 목표가 오히려 성능 저하를 유발하였지만 일부 연구에서는 원-핫 기반 희소 인코딩을 활용하여 더 정확한 학습 신호를 제공했고 이를 통해 성능 저하 문제를 해결하였다.
보조 학습 목표는 멀티태스크 학습과 연결되어 여러 목표를 동시에 학습할 수 있다는 장점이 있지만 추가적인 메타데이터가 필요하다는 것과 성능 향상이 보장되지 않는다는 단점이 존재한다.
Contrastive Training
대조 학습(Contrastive Learning)은 올바른 정답과 오답을 비교하며 학습하는 방식이다. 기존 RPM 문제 해결을 단순한 분류(Classification) 문제에서 순위(Ranking) 문제로 접근한 것이다. 주요 연구 방법은 아래와 같다.
- NCE 기반 학습
- RPM을 정답 패널의 순위를 매기는 문제로 변환하여 학습 성능 개선
- 계층적 대조 학습 [60]
- 행렬의 행/열 간 비교를 통해 올바른 정답과 오답을 구별
- 다중 레이블 대조 학습 (MLCL)
- Supervised Contrastive Loss를 변형하여 전체 RPM 컨텍스트를 비교하는 방식
- 메타-유추 대조 학습 [76]
- RPM 문제에서 유사한 구조를 학습하도록 돕는 세 가지 유추 개념(내부 문제 유추, 외부 문제 유추, 비유추)을 적용
대조 학습의 경우 RPM 문제뿐만 아니라 유추 기반의 문제를 해결하고 객체 간 관계 학습에도 적용이 가능하다.
Curriculum Learning
한 연구에서는 RPM 문제에서 학습을 방해하는 "혼란 요소(Distracting Features)"가 주요 문제라고 해석했다. 이를 해결하기 위해 학생-교사 강화학습 접근 방식을 이용한 Feature Robust Abstract Reasoning(FRAR)을 제안했다.
- 커리큘럼 학습 : 쉬운 문제부터 어려운 문제로 순차적으로 학습
- 자기 주도 학습 : 모델이 스스로 학습 난이도를 조절
- Hard Example Mining, Focal Loss : 어려운 문제에 집중 학습
- Learning to Teach, MentorNet-PD : 교사 모델이 최적의 학습 샘플을 제공
Data Augmentation
RPM 역시 데이터 증강(Data Augmentation)이 중요한 역할을 한다. 그러나 CV에서 색상 기반 변형을 주로 사용하는 것 대신 RPM에서는 패널의 구조적 변형이 핵심이다. (1) 이미지 변형 기반 데이터 증강의 방법과 (2) 패널을 섞거나 교체하여 RPM 구조를 변경한 후 대조 학습에 활용하는 방법이 주요 접근법이다. 데이터가 모자랄 경우 RPM 뿐만 아니라 다른 AVR 문제에서도 활용이 가능하다.

Disentangled Representations
최근 연구에 따르면 분리된 표현(Disentangled Representations)이 추상적 추론 작업 및 샘플 효율성 향상에 도움을 줄 수 있다고 한다. ββ-VAE가 데이터의 중요한 특징을 분리하여 표현하는 능력이 있기 때문에 이를 기반으로 RPM 문제 해결 모델을 사전 학습하면 일반화 성능이 향상된다. 이런 오토인코더를 이용한 여러 연구들이 존재한다.
- 특징 학습 및 전이 학습(Feature Learning & Transfer Learning) : 오토인코더를 활용하여 단순한 AVR 작업에서 전이 가능한 특징을 학습하는 방법을 제안
- 생산적 유추(Generative Analogies) 모델링 : 오토인코더를 모델 구조에 포함시켜 생성적 유추를 생성하는 방식을 연구
- 인지 지도(Cognitive Map)와 결합된 ββ-VAE 프론트엔드 : 병목 표현을 학습 가능한 투영 모듈을 통해 변환하여 사람이 해석 가능한 의미적 특징을 생성
Generative Modeling
어떤 연구에서는 생성 모델링을 이용하여 그럴듯한 정답 패널을 생성하는 방법을 연구했다.
- VAE를 활용 : 잠재 임베딩을 활용해 새로운 정답 패널을 생성
- 가우시안 프로세스 활용 : 잠재 변수 기반으로 고품질의 RPM 패널을 생성
- PrAE 모델 : 신경망 기반 인식(Neural Perception)과 논리적 추론(Symbolic Reasoning)을 결합
- LoGe 모델 : 논리 기반 최적화(Logical Optimization) 방식으로 정답 패널을 생성
생성 모델은 주어진 정답 세트가 없어도 해결이 가능하고, 정답 후보의 데이터 바이어스를 제거할 수 있지만 더 복잡한 문제를 해결하기 위해서는 연구가 더 필요하다.
Unsupervised Learning
몇몇 연구에서는 비지도 학습을 RPM 문제 해결을 위한 새로운 접근 방식으로 연구하고 있다. NCD 에서는 RPM 행렬의 행을 이진 분류하여 정답 후보를 선택하는 방식을 제안했고, PRD에서는 양성/음성 쌍을 생성하고 유사성을 학습하여 정답을 예측하는 방식을 제안했다.
비지도 학습의 경우 라벨이 없는 데이터도 활용이 가능하여 학습 데이터 확장이 가능하고 지도 학습보다 더 일반화된 표현 학습이 가능하다는 장점이 있다. 그러나 현재 방법들은 RPM 문제에만 적용이 가능하며 위의 생성 모델링과 마찬가지로 더 복잡한 다른 AVR 문제에 대한 추가 연구가 필요하다는 한계점이 존재한다.
RPM Deep Learning Models
초기 RPM 연구에서는 딥러닝 모델이 제안되었다. CNN 기반 모델을 활용하여 회전/반사/색상/크기 등의 변화를 학습하는 연구가 있었고, 유사성 기반 접근 방식(Similarity-Based Approach)를 사용(그림 5(a)를 해결하기 위해)하여 패널 간의 유사성을 평가하는 연구가 있었으며 오토인코더와 얕은 다층 퍼셉트론(Shallow MLPs)를 활용한 연구(그림 9(b)에도 적용 가능함이 확인되었다)가 존재했다.
그러나 시각적으로 단순한 RPM 데이터셋만 사용되었다는 것과 OOD(Out-of-Distribution) 일반화 검증이 부족하다는 한계점이 존재한다. 그렇기 때문에 이후의 연구들은 복잡한 구조를 가진 RPM 문제를 해결하는 방법과 OOD 일반화 문제를 다루는 방식을 탐색하고 있다.

Baselines
기본적으로 RPM 해결 모델은 CNN + 추론 모듈(MLP/LSTM)의 구조를 사용한다. CNN 기반 시각적 특징 추출기로는 일반 CNN 또는 ResNet의 변형을 사용한다. 추론 모듈 방식은 아래의 2가지가 있다.
- MLP : 모든 패널의 특징을 하나로 연결하여 다층 퍼셉트론에 입력
- LSTM : 특징을 시계열 형태로 변환하여 LSTM이 패널 간 관계를 학습
그러나 베이스라인 모델의 경우 새로운 패턴이나 보지 못한 RPM 문제에서는 성능이 급격히 저하된다는 한계점이 존재한다. 그렇기에 보다 전문적인 AVR 모델이 필요하다.
Relational Reasoning Networks

- 기본 관계적 추론 모델
- Relation Network(RN)
- 객체 쌍의 관계를 학습하는 신경망 모듈로, VQA 및 물리적 추론 문제에 활용됨
- 이후 여러 RPM 해결 모델들의 기반이 됨
- Wild Relation Network(WReN)
- RN을 RPM 문제 해결에 적용한 모델로, 패널 간 관계를 학습하는 방식
- 기존 CNN 기반 모델보다 높은 성능을 보이며, 후속 연구를 촉진함(그림 10 참고)
- Relation Network(RN)
- WReN 확장 모델
- VAE-WReN
- CNN 백본을 β-VAE로 대체하여 일반화 성능을 향상
- PGM 데이터셋에서 기존 WReN보다 뛰어난 성능을 보임
- MLRN (Multi-Layer Relation Network)
- RN을 다층 구조로 확장하여 더 깊은 관계 추론을 가능하게 함
- 특정 조건에서는 높은 성능을 보였으나, 과적합 문제가 있음
- Attention Relation Network (ARNe)
- Transformer의 어텐션 메커니즘을 도입하여 관계적 추론을 강화
- 데이터셋 크기에 따라 성능 차이가 발생하며, 더 많은 데이터에서 유의미한 성능 향상을 보임
- VAE-WReN
- 행/열 구조를 반영한 관계적 추론 모델
- MRNet
- 행과 열의 관계를 개별적으로 분석하여 더 정교한 관계 추론을 수행
- 기존 모델보다 관계적 특징을 효과적으로 학습
- Logic Embedding Network (LEN)
- 패널을 쌍이 아닌 삼중(Triples) 단위로 구성하여 학습
- CNN을 활용해 전체 RPM 컨텍스트를 하나의 표현으로 변환하여 추론 성능 향상
- MRNet
- 관계적 추론과 대조 학습(Contrastive Learning) 결합 모델
- CoPINet (Contrastive Perceptual Inference Network)
- 순열 불변 방식으로 RPM 문제를 해결하며, 대조 학습을 적용
- RAVEN에서는 높은 성능을 보였으나, I-RAVEN에서는 성능이 저하됨
- PredRNet (Predictive Reasoning Network)
- 예측 오류를 기반으로 관계적 추론을 수행
- CNN과 Predictive Reasoning Block을 활용하여 정답 후보를 분석
- CoPINet (Contrastive Perceptual Inference Network)
관계적 추론을 활용한 RPM 해결 모델은 CV 및 AI의 다양한 문제 해결에 적용될 가능성이 높으며,
특히 대조 학습 및 전역 수용 영역 개념과 결합하여 더욱 강력한 모델이 개발될 수 있다.
Hierarchical Networks
딥러닝 모델이 특정 문제에서 높은 성능을 내기 위해서 도메인 지식을 네트워크 아키텍처에 반영하는 것이 효과적인 경우가 많다. RPM 해결에서도 이러한 구조적 귀납적 편향이 중요하게 작용한다.
- LEN : 패널을 행과 열 단위로 분석하여 관계적 특징을 학습하는 방식을 도입
- Stratified Rule-Aware Network(SRAN) : 행의 쌍과 열의 쌍의 관계도 학습
- Scattering Compositional Learner(SCL) : 답안 패널을 추가하여 9개의 패널의 통합 표현을 점진적으로 학습
- Rel-Base : SCL과 유사하지만 ResNet을 사용하여 계산 비용 절감
- Dual-Contrast Network(DCNet) : SRAN과 유사하게 행 및 열 기준으로 학습하지만 대조학습을 추가
- Multi-Graph Neural Network(MXGNet) : 고정된 규칙으로 행과 열을 분석하지 않고 문제별로 최적의 계층구조를 선택
- Neural Interpreters(NI) : 프로그래밍 언어 개념(스크립트, 함수, 변수, 해석기 등)을 활용하여 계층적 추론을 수행

RPM을 해결하기 위해 개발된 계층적 네트워크는 다른 문제에도 적용할 수 있는 가능성이 있다.
- 그리드 기반 문제(Grid-Like Problems)와 연결 가능
- 실제 이미지에서 RPM 구조를 활용한 새로운 벤치마크 개발 촉진
- ViT와 유사한 패치 기반 접근법을 RPM 문제 해결에 적용 가능
- 적응형 정보 경로 학습(Adaptive Information Routing) 연구에 활용 가능

Neuro-symbolic Methods and Explicit Scene Representation
딥러닝 모델의 한계 중 하나는 체계적 일반화 부족이다. 이를 해결하기 위해 신경-기호적(Neuro-Symbolic) 접근법이 제안되었다. 딥러닝의 패턴 학습 능력과 기호적 추론의 체계적 일반화 능력을 결합하여 RPM 문제 해결을 개선했다.
- PrAE(Probabilistic Abduction and Execution) : CNN과 장면 추론 엔진(Scene Inference Engine)을 결합하여 RPM 패널을 확률적 장면 표현으로 변환
- ALANS(ALgebra-Aware Neuro-Semi-Symbolic) Learner : PrAE와 유사, 명시적인 규칙 주석이 필요하지 않으며 규칙을 자동으로 유도
- NVSA(Neuro-Vector-Symbolic Architecture) : ResNet을 신경망 전처리기, 벡터-기호 아키텍처를 추론 백엔드로 활용
- Rel-AIR(Relation Attend-Infer-Repeat) : 기존 Rel-Base 모델을 확장하여 RPM 패널을 장면 단위로 분해, 각 패널을 독립적인 객체 슬롯으로 변환하여 개별 객체와 관계를 분리하여 학습
- STSN(Slot Transformer Scoring Network) : Slot Attention을 활용하여 RPM 패널을 개별 객체 단위로 분해, 트랜스포머 기반 모듈을 통해 관계 학습
- Retinanet + Algebraic Reasoning : 속성별 규칙 예측을 강화하여 정답 패널을 직접 생성
이러한 접근법은 객체 중심 추론(Object-Centric Reasoning), 대수적 표현(Algebraic Representation), 비전 트랜스포머(ViT) 등의 기법과 결합하여 더 강력한 모델을 개발할 수 있다.
Evaluation of Machine Intelligence with RPMs
PGM, RAVEN, I-RAVEN 데이터셋에서의 주요 정량적 성능 결과를 정리하고 현재 모델들이 특히 겪는 어려움을 설명하며 모델 성능과 파라미터 수 간의 관계를 비교한다.
Results on PGM
PGM 데이터셋은 다양한 일반화 테스트를 통해 모델의 적응력을 평가하도록 설계되었다. 그러나 대부분의 연구는 Neutral 환경(훈련/검증/테스트 데이터가 동일한 분포)에서만 평가하여 일반화 성능 검증이 부족하다. 35개의 모델 중 모든 일반화 테스트에서 평가된 모델은 5개밖에 존재하지 않고, Neutral 외에서 평가된 모델도 9개에 불과하다(표 2 참고).


일반화 테스트에서 5개의 모델별 성능 차이는 아래와 같다.
- 모든 일반화 테스트에서 PredRNet이 가장 높은 성능을 기록
- MXGNet(β=10β=10), SCL, MRNet 도 높은 성능을 보였지만 WReN은 가장 낮은 성능을 기록
- 하지만 모든 일반화 테스트에서 평가된 모델이 적어 최적의 모델을 단정 짓기 어려움
감독 학습(Supervised Learning)보다 보조 학습(Auxiliary Training)이 높은 일반화 성능을 기록했고 특히 Held-out Attribute Pairs와 Held-out Triple Pairs 환경에서 성능이 크게 향상되었다.
PGM 일반화 테스트의 난이도 분석은 아래와 같다.
- Neutral 환경에서는 검증(validation)과 테스트 성능 간 차이가 크지 않았다
- 그러나 Interpolation, Held-out Triple Pairs, Held-out Attribute Pairs 환경에서는 테스트 성능이 최대 34.7% 감소
- Held-out Triples, Extrapolation, Held-out Line-Type, Held-out Shape-Color 환경에서는 성능이 거의 무작위 수준(Random Guessing)까지 하락
- 즉, 현재 모델들은 새로운 환경에서의 일반화 성능이 매우 낮음
현재 연구들은 특정 분포에서 성능을 높이는 데 집중하고 있으며 보다 어려운 OOD(Out-of-Distribution) 환경에서도 일반화될 수 있는 모델 개발이 필요하다. 보조 학습(Auxiliary Training)이 일반화 성능 향상에 효과적이며 미래 연구에서 더 적극적으로 활용할 필요가 있다.
Results on (I)RAVEN
표3에서는 RAVEN과 I-RAVEN 테스트 데이터셋에서 여러 접근법의 집계된 정확도 점수를 비교했다. RAVEN 에서만 평가된 방법들이 존재하는데 RAVEN 데이터셋은 숨겨진 편향이 존재하여 평가 결과가 신뢰할 수 없다. 대표적인 예시로 CoPINet의 성능이 RAVEN(91.4%)에서 I-RAVEN(46.1%)로 45.3% 하락한 것이다.
I-RAVEN에서는 아래의 3개 모델이 높은 성능을 기록했으며 각각 다른 방식으로 효과적인 추론이 가능했다.
- SCL : 파라미터 공유(Parameter-Sharing) 기법 활용
- PredRNet : 대조 학습(Contrastive Learning) 적용
- STSN : Transformer 기반 추론 + 명시적 장면 표현 활용
모델 성능과 파라미터 수의 관계를 분석한 결과 대형 모델이 아니어도 높은 성능을 달성할 수 있었으며 효율적인 구조 설계가 RPM 해결에서 더 중요한 요소일 가능성이 존재한다.
Discussion
RPM은 원래 기계 지능 평가를 위한 대리 문제로 도입되었다. 그러나 연구가 진행되면서 공간적 및 추상적 추론 능력이 다양한 AI 시스템에서 중요한 요소임이 밝혀졌고 RPM 해결 방법들이 다른 연구 및 실무 환경에서도 적용될 가능성이 높다.
Seeds and Fruits of RPM Research
Relation Network(RN)은 WReN, LEN, MLRN 등 RPM 해결을 위한 여러 모델의 핵심 구성 요소이며 다양하게 확장이 가능하다.
- 3D 인간 포즈 추정(3D Human Pose Estimation) : 몸의 부위 간 관계를 모델링.
- 의미론적 분할(Semantic Segmentation) : 장거리 공간적 관계를 활용하여 CNN 피처 맵 강화.
- 액션 인식(Action Recognition) : 인간, 객체, 장면 간 시공간적 관계 모델링.
- 대조적 자기지도 학습(Contrastive Self-Supervised Learning) : 이미지 인식 모델 성능 향상.
- 강화학습(Reinforcement Learning) : 구조적 표현에서 관계적 추론 수행.
대조 학습(Contrastive Learning)의 경우 많은 연구들이 모델 구조나 목적 함수에 적용하였으며 컴퓨터 비전, 자연어 처리, 음성 인식, 강화학습 등의 분야에서도 효과가 입증되었다.
Text-based Representation of RPMs
기존 연구는 시각적 추론(Visual Reasoning)에 초점을 맞추었지만 인지과학 연구에서는 언어가 유추(Analogy-Making) 과정에서 핵심적 역할을 한다고 강조했다. 이를 반영하여 RPM을 텍스트 기반 표현으로 변환하는 연구들이 진행 중이다.
- RAEN RPM을 자연어/기호 표현으로 변환하는 시맨틱 트리(Semantic Tree) 생성
- 객체 속성 및 배열 속성을 인코딩하여 텍스트 기반 표현을 생성, 개별 프롬프트 구성
- RPM을 기반으로 한 텍스트 기반 관계 추론(Analogical Reasoning) 작업 개발
아직 LLMs의 RPM 문제 해결 능력에 대한 명확한 결론이 내려지지 않았지만 언어 기반의 RPM 표현은 LLM 연구에서 새롭게 떠오르는 분야로 주목받고 있다.
Main Challenges and Open Problems. Human-like RPM Solving
- 기존 RPM 평가 방식의 한계
- 인간은 처음 보는 RPM 문제를 해결할 수 있지만, DL 모델은 수천~수백만 개의 샘플을 학습해야 함
- 훈련 데이터가 줄어들면 DL 모델 성능이 급락하지만, 인간은 소수 예제만으로 개념을 익히고 지식을 확장 가능
- 따라서, 대규모 훈련 없이도 효과적인 RPM 해결 방법을 찾는 것이 중요(Few-Shot Learning 연구 필요)
- 일반화(Generalization) 평가의 필요성
- PGM 논문에서는 일반화 테스트(Generalization Regimes)를 통해 DL 모델의 성능을 평가할 것을 제안
- 그러나 현재까지 모든 일반화 테스트에서 인간 수준의 성능을 보이는 방법은 없음
- 일부 연구에서 추론(Extrapolation) 중심 AVR 과제에서 뉴럴 네트워크 모델이 일반화 가능함이 확인
- 하지만 모든 일반화 테스트에서 우수한 성능을 보이는 보편적 학습 시스템은 아직 없음
- 개념적 이해(Conceptual Understanding) 중심 평가 제안
- 테스트 데이터를 개념(예: "위와 아래", "수평과 수직") 기반으로 구성하여 AI의 개념적 이해 능력을 측정
- 이는 AI와 인간의 추론 방식 차이를 분석하는 데도 기여
- AI와 인간의 차이: 다양한 AVR 문제 해결 능력
- 인간은 다양한 유형의 AVR 문제를 훈련 없이도 해결 가능
- DL 모델은 한 문제 유형에서 배운 지식을 다른 문제에 적용하는 능력이 부족함
- 일부 연구에서는 RPM 학습 모델이 'Odd-One-Out' 과제에도 적응 가능함을 입증
- 그러나 서로 다른 AVR 문제 간에 지식을 재사용하는 능력(Knowledge Reuse)은 여전히 연구가 필요
Conclusion
본 논문에서는 RPM 문제 해결을 위한 최신 DL 연구를 정리하고 학습 방법을 검토했다. 기존 RPM 벤치마크 데이터셋과 사용된 DL 모델을 분류하고 RPM 문제에서 해결되지 않은 도전 과제를 강조했다.
RPM은 단순한 평가 도구를 넘어, 추상적 및 관계적 추론(Abstract & Relational Reasoning)을 연구하고 테스트하는 실험 환경 역할을 할 수 있다. 따라서 RPM 연구에서 이루어진 발전은 공간적(Spatial) 및 추상적(abstract) 추론이 필요한 다양한 분야에서도 적용이 가능할 것이다.
RPM 문제 해결에 대한 딥러닝 연구는 지속적으로 발전 중이지만, 핵심적인 과제는 아직 해결되지 않았다. 본 논문에서 연구 내용을 정리함으로써 AVR 분야의 발전의 촉진을 기대한다.
https://arxiv.org/abs/2201.12382
Deep Learning Methods for Abstract Visual Reasoning: A Survey on Raven's Progressive Matrices
Abstract visual reasoning (AVR) domain encompasses problems solving which requires the ability to reason about relations among entities present in a given scene. While humans, generally, solve AVR tasks in a "natural" way, even without prior experience, th
arxiv.org