Introduction
인간의 능력을 모방하는 것은 인공지능 연구의 핵심 과제이다. 추상적 시각적 추론(Abstract visual reasoning, AVR)은 복합 이미지에 내재된 추상적 패턴을 발견하고 새로운 입력에 적용하는 것으로 인간의 뛰어난 일반화 능력을 보여준다.
Raven's Progressive Matrices(RPM)은 그림 1과 같이 3 x 3 이미지 격자에서 빠진 요소를 채우는 지능 테스트이다. RPM은 추상적 언어, 공간적 사고, 수학적 추론 능력을 평가하는데 활용되며 연구자들 사이에서는 시각적 모델의 추론 능력을 평가하는 도구로 인정받고 있다.
연구자들은 RPM 문제를 해결하기 위해 신경망을 구축하고 강화학습 기법을 대부분 활용한다. 저수준의 특징에서 추상적 관계를 도출한 뒤, 유사도 측정을 통해 정답을 선택하는 방식을 사용했지만 I-RAVEN과 RAVEN-fair와 같은 새로운 데이터셋이 나오면서 모델은 단순한 패턴분석보다 추상적 지각 능력을 요구받게 되었다.
본 논문에서는 관계 병목(relation bottleneck) 방법을 사용하여 다중 시각적 추론 문제를 0-1행렬로 변환하고, 이를 통해 기계적 추론과 대수적 연산을 연결하는 모델을 개발한다. 또한 객체 중심 표현과 귀납적 편향을 활용하여 강력한 시각적 추론 능력을 갖춘 프레임워크를 구축했다.
핵심 기여:
- 0-1 관계 병목 행렬 변환을 통한 추론 개선
- 객체 중심 표현을 활용한 관계 비교 능력 강화
- 상향 및 하향 양방향 추론 프레임워크를 통해 인간 사고 모방
Related work
Abstract Visual Reasoning
1. 기존 신경-기호(neurosymbolic) 접근법
- 시각적 특징 인식 및 인과 관계 추출에서 우수한 성능을 보인다
- SRAN(Hierarchical Rule-Aware Network)과 같은 모델을 통해 규칙 임베딩을 학습하는 방식이 예시다
- 그러나 기존 모델은 시각적 특징에 과적합(overfitting)되는 경향이 있다
- 또한 동일한 패턴을 가진 새로운 입력에 대한 일반화(generalization)이 어렵다
2. 객체 중심 관계 표현(object-centric relational representation)
- 추상적 시각적 패턴은 객체 자체의 특징보다는 객체 간 관계에 의해 정의된다
- 그렇기에 객체 중심 학습을 통해 장면을 객체들의 집합으로 표현하는 것이 효과적이다
- 트랜스포머 기반 아키텍처 및 슬롯 기반 객체 표현을 활용하면 추상적 관계 형성을 유도할 수 있다
Object-centric learning
객체 중심 표현을 학습하면 기계가 인간과 유사한 방식으로 시각적 세계를 인식할 수 있다. 이를 통해 이미지에서 객체 표현을 추출하고 관계를 도출하여 비지도 학습 방식으로 객체 속성을 예측할 수 있도록 한다.
그러나 이러한 방식은 시각적 작업과 무관한 변화에 대해서는 상대적으로 취약한 한계를 지닌다.
이를 해결하기 위해 본 연구에서는 객체 중심 표현 방법을 관계 병목(relation bottleneck) 기법과 통합하여 대수적 연산과 기계적 추론간의 연결을 구축했다.
Relation bottleneck method
관계 병목 방법이란 CoRelNet을 기반으로 하는 접근법으로 객체 간 관계를 추출하여 정보 병목을 형성한다.
- 인코더가 감각적 관찰을 처리하여 객체 임베딩을 생성
- 객체 쌍의 관계 행렬을 계산하여 내적 연산을 통해 객체 간 유사성 포착
- 관계 행렬을 디코더 네트워크로 전달(트랜스포머, MLP 등)
- 이 과정에서 관계 병목이 형성
기존 관계 네트워크와 병목 접근법은 아래와 같은 차이점들이 존재한다.
- 기존 관계 네트워크는 MLP와 같은 뉴럴 네트워크 구조를 사용
- 그러나 이는 관계 정보만을 학습하도록 강제하지 않아 과적합할 가능성이 높음
- 관계 병목 방법은 내적 연산을 기반으로 하여 순수한 관계 정보만 학습
- 그렇기에 일반화 능력이 상승
본 연구에서는 데이터 기반(data-driven) 접근법을 채택하여 객체 간 관계에 집중하는 방식으로 추상적 관계 모델을 유도한다. 이를 통해 유사성 관계(similarity relationships)와 유사한 추상적 메커니즘이 자연스럽게 형성될 수 있도록 한다.
Methodology
Object-centric slot attention mechanism
우리는 이미지 특징을 추출하기 위해 슬롯 어텐션(Slot Attention) 모듈을 활용했다. 슬롯 어텐션 모듈은 기존 CNN 모델의 출력과 결합하여 각 객체를 개별 슬롯에 저장하는 방식이다. 비지도 학습 방식으로 객체를 추출하며, 어텐션 메커니즘을 활용하여 객체 중심 시각적 표현을 형성한다(그림 3 참고).
- CNN이 입력 이미지를 인코딩한 후 시각적 특징 맵 생성
- 맵의 크기 : $HW \times D_{enc}$
- $H$, $W$ : 이미지의 높이와 너비
- $D_{enc}$ : 채널 수
- 한 번의 반복(iteration)에서 다수의 입력 특징 벡터를 K개의 슬롯에 어텐션하는 방식으로 작동
- 슬롯들은 $D_{slots}$ 차원의 출력 벡터로 전환, $slots \in R^{K \times D_{slots}}$
- 슬롯들은 무작위로 초기화, $T$번의 반복동안 특정 속성 그룹과 결합
- 슬롯은 평균과 분산 속성을 가짐
- $\mu \in R^{D_{slots}}$
- $\sigma^2 \in R^{D_{slots}}$
- 입력 데이터와 슬롯을 동일한 차원의 공간으로 매핑하기 위해 학습 가능한 변환 행렬 q, k, v를 활용
(1) 가중치(attention weight) 계산
$$atten_{i, j} := \frac{\exp(M_{i, j})}{\sum_l\exp(M_i,l)}, \quad M := \frac{1}{\sqrt{D}}k(inputs).q(slots)^T \in R^{HW \times K}$$
- $k(inputs)$ : 입력 특징 벡터의 키(key) 값
- $q(slots)$ : 슬롯 벡터의 쿼리(query) 값
- $D$ : 차원 정규화
(2) 업데이트 단계
$$update := W^T .v(inputs) \in R^{K \times D_{slots}}, \quad W_{i, j} := \frac{attn_{i, j}}{\sum^N_{l=1}attn_{l,j}}$$
입력 특징 벡터가 과도하게 특정 슬롯에 집중되는 것을 막기 위해, 모든 입력 특징 벡터에 대한 어텐션 가중치의 합이 1이 되도록 제한을 적용했다.
슬롯 어텐션 메커니즘 안정화
- 어텐션 계수에 작은 오프셋 $\delta$ 추가
- 숫자 연산의 불안정성 방지
- residual connections이 적용된 MLP
- 각 슬롯에 독립적으로 작동
- 이미지의 모양, 색상, 크기 등의 특징을 효과적으로 포착
- 향상된 위치 인코딩
- 이미지의 중심 설정
- 서브 이미지와 중심 간의 상호작용 관계를 형성, 상대적 위치 정보 추출
- 위치 정보에 대해 둔감한 문제점 해결
게이팅 메커니즘(gating mechanism) 및 양방향 추론 메커니즘
- 게이팅 : 다양한 표현을 분리하여 관계 병목 방법에 적용
- 양방향 추론(그림 2 참고) :
- 피드백 루프를 구축
- 질문과 답변 셋을 비교하여 추론 과정에서 불필요한 간섭을 줄임
Bottleneck method
기존 신경망의 경우 개별 속성을 중심으로 학습하여 객체 간 관계를 학습하기 어렵다는 문제점이 존재한다. 이로 인해 복잡한 개념 객체를 인식하는 데 한계를 보인다.
이를 해결하기 위해 우리는 관계 병목(relational bottleneck) 방법을 도입했다.
- 입력 속성을 감각적 정보와 분리하여 객체 간 관계만 학습하도록 유도
- 컨트롤러(추상적 표현을 감각적 정보와 분리하는) 도입하여 관계 중심 표현 유지
- 귀납적 편향으로 작용하여 모든 객체 특징을 관계 자체(ex. 같음과 다름)를 우선적으로 표현
이를 통해 빠른 관계 패턴 학습과 체계적인 일반화를 가능하게 하고, 여러 속성의 추상적 표현을 통합하여 새로운 형태를 추론할 수 있도록 한다.
정보 처리 시스템은 입력 신호 $X$를 받아 목표 신호 $Y$로 예측하는 방식이다. 여기서 입력 $X$는 압축된 표현 $Z = f(X)$로 변환되며 이를 병목(botttleneck)이라고 부른다.
정보 병목 이론의 핵심 개념은 최소한의 충분성이다. 만약 압축된 $Z$가 $X$에 포함된 $Y$에 대한 모든 정보를 보유하고 있다면 $Z$만으로도 $Y$를 예측하는 데 충분하다는 것이다.
정보를 압축하는 것과 관련된 정보를 유지하는 것 사이에는 트레이드오프가 존재한다.
- $\min \Psi(Z) = I(X;Z) - \beta I(Z;Y)$
- $I$ : 상호 정보
- $\beta$ : 트레이드오프를 조절하는 하이퍼파라미터
즉, 관계 병목의 핵심은 아래와 같다.
- 입력 데이터에서 객체 특징을 제거하고 관계만 남겨서 압출
- 압축된 공간에서 모델이 학습하도록 유도
- 중요한 속성은 유지, 불필요한 정보를 제거하여 학습을 최적화
Sequence-to-sequence and algebraic machine reasoning
우리는 인간의 추론을 보다 잘 시뮬레이션하기 위해 추상적 문제 해결에 적합한 대수적 기계 추론 프레임워크를 제안하며 이는 2가지 단계로 구성된다.
1. 관계 병목 대수적 표현(Relational Bottleneck Algebraic Representation)
(1) 서브 이미지 분할 및 슬롯 어텐션 적용
- 문제 이미지를 9개의 서브 이미지로 나눔
- 슬롯 어텐션을 적용하여 개별 객체를 분류하고 서로 다른 슬롯으로 배치
(2) 관계 병목 적용
- 객체의 개별 속성이 아니라 객체 간의 관계 정보만 유지
- 불필요한 속성을 제거, 관계 중심 표현 학습
(3) 관계 병목 행렬 생성
- 9개의 서브 이미지를 행렬 형식으로 표현
- 질문 셋은 행렬 $J$로 표현 : $J = [J_{11}, J_{12},\dots,J_{ij}]$
- 정답 셋은 행렬 $A$로 표현 : $A = [A_{11}, A_{12},\dots,A_{ij}]$
(4) 서브 이미지 간 관계 비교 & 관계 병목 행렬 $G$ 생성
- 특정 서브 이미지 $J_{11}$을 시각 중심으로 설정
- 다른 서브 이미지 $J_{ij}$와 비교하여 같으면 1, 다르면 0을 할당
- 결과를 관계 병목 행렬 $G_{11}$에 저장
- 다른 서브 이미지를 시각 중심으로 설정하고 같은 방식으로 반복
- 최종적으로 9개의 관계 병목 행렬을 조합하여 최종 행렬 $G$ 생성, $G = [G_{11}, G_{12},\dots,G_{ij}]$
2. 시퀀스 불변성 분석(Sequential Invariance in Relational Bottleneck Matrices)
(1) 문제 변환
- RPM 문제 해결을 행렬 내 패턴의 시퀀스 불변성을 찾는 문제로 변환
- 관찰된 패턴을 확장하여 미지의 그래픽 속성을 유추
- 여러 속성의 관계 병목 행렬을 결합하여 주요 특징을 도출
- 시각적 문제를 대수적 패턴 분석 문제로 변환하여 해결
(2) 미지의 그래픽 예측(그림 4 참고)
- 관계 병목 행렬 $G$에서 각 행과 열을 숫자로 나타냄
- 행렬을 특정한 방식으로 정렬하고 배열로 저장
- 각 시퀀스를 주기적 특징으로 가정하고 기존의 시퀀스 데이터와 비교하여 검증
- 미지의 그래픽의 일부 시퀀스 특징이 알려져 있다면, 전체 시퀀스 특징을 유추
- 각 관계 병목 행렬을 개별적으로 분석하여 미지의 그래픽 속 주요 속성을 추론
Experiment
Experiment Setup
- 데이터셋 구성
- I-RAVEN 및 RAVEN 사용
- 1000개의 샘플, 10개의 그룹으로 나눔
- 6개는 훈련, 2개는 검증, 2개는 테스트셋으로 사용
- 이미지 크기는 80 x 80 으로 고정, 픽셀 값 [0, 1]로 정규화
- 데이터 증강(Data Augmentation) : 90도 단위 회전, 밝기 조정
- forward process
- cnn 및 mlp 활용하여 특징 추출
- ReLU 활성 함수로 출력값 확률 분포화
- 손실함수 : cross-entropy loss + 관계 병목 및 중심 표현 간의 손실
- 슬롯 어텐션 메커니즘 설정
- RAVEN : K = 9 슬롯, I-RAVEN : K = 16 슬롯
- 슬롯 어텐션 반복 횟수 : $T$ = 3
- 슬롯 차원(Dimension) : $D_{slot}$ = 32
- 모델 구현 및 테스트 환경
- PyTorch로 구현
- Adam 옵티마이저 사용하여 최적화
- Nvidia GPU에서 실행
- Intel i7 8코어 CPU에서 2000개의 테스트 샘플 실행, 총 13시간 소요
Analysis of experimental results
(1). 모델 비교 및 성능 평가
- 7가지 RPM 테스트에서 평균 96.8%의 정확도를 기록
- 기존의 베이스라인 모델들을 모두 초월(표 3 참고)
- 객체 수가 많을 수록 모델이 더 높은 정확도를 기록
(2). 소거 실험을 통한 주요 요인 분석
- 데이터 증강의 중요성 : 제거했을 때 정확도가 약 4% 감소
- 트랜스포머 레이어 수 : 레이어 수가 적으면 충분한 관계 학습이 어려움
- 객체 중심 표현 : 슬롯 어텐션을 제거하면 모델 정확도가 40% 이상 감소
- 위치 상호작용 모듈의 영향 : 위치 정보를 제거하면 모델 정확도가 약 5% 감소
(3). 관계 병목의 강점 및 패턴 학습 방식
- 기존 모델과의 차이점
- 기존 모델은 개별 객체의 특징을 학습
- 우리 모델은 개별 특징보다 객체 간 관계를 학습
- 관계 병목 행렬
- 관계 병목 행렬을 통해 색상, 크기 등의 변화를 배제하고 추상적 관계를 학습
- 더욱 일반화된 패턴 인식 가능
- 예제(그림 5 참고)
- 첫 번째 그림 + 세 번째 그림 = 두 번째 그림
- 이런 유사성을 추출하여 정답을 예측
- 슬롯 어텐션을 통한 정답 도출 과정
- 각 서브 이미지를 9개의 슬롯에 균등하게 분배
- 각 슬롯 간 속성을 비교하여 정답을 추론
- 9개의 슬롯에서 시퀀스 유사성을 분석하여 최종 정답을 결정
Conclusions
우리는 객체 중심 접근 방식과 관계 병목 기법을 결합하여 다중 시각 입력 기반의 복잡한 추론 문제를 해결하는 모델을 제안했다. 유사성 기반 비교를 통해 불변성을 식별하고 관계 병목 행렬을 구축하여 패턴을 학습하는 방식을 사용했다. 대수적 방법을 통합하여 기존의 시각적 추론 방식과 차별화된 접근법을 제시했다.
그러나 현실 세계의 복잡한 이미지에는 명확한 경계가 없으며, 그렇기에 추가적인 연구가 필요하다. 향후 연구에서는 유사성과 관계 병목 개념을 다른 시각적 추론 데이터셋에 확장할 예정이다. 궁극적인 목표는 인간 수준의 체계적인 추상적 추론(Structured Abstract Reasoning) 능력을 달성하는 것이다.
https://www.nature.com/articles/s41598-025-86804-3