Meta-Reinforcement Learning: Few-Shot Meta-RL (part 3)

논문/논문 정리

Meta-Reinforcement Learning: Few-Shot Meta-RL (part 3)

bengal3636 2025. 4. 21. 19:25

이번 파트에서는 few-shot 적응 문제를 다룰 것이다. 이 설정에서는 agent가 다양한 task에 대해 meta-learning을 수행하고 meta-test 시점에서 새롭지만 유사한 task에 대해 몇 번의 에피소드만에 적응해야 한다.

하나의 예시로 전 글에서 다뤘던 로봇 요리사를 다시 가져와보자. 각 사용자의 집에서 새로운 요리 policy를 강화학습으로 처음부터 학습한다면 각 부엌에서의 많은 샘플을 요구할 것이며, 이는 요리에 대한 일반적인 지식은 공유될 수 있기에 비효율적이다. 특히 로봇이 고객의 부엌을 손상시킬 수 있는 행동을 하는 상황에서 데이터 낭비는 실질적으로 받아들일 수 없는 일일 수도 있다.

Meta-RL은 새로운 부엌의 차이점에 적응할 수 있는 절차를 데이터로부터 자동적으로 학습할 수 있다. meta 학습 동안 로봇은 시뮬레이션 환경이나 안전한 환경에서 다양한 형태의 부엌에서 훈련될 수 있다. 메타-testing 중에는 로봇이 손님에게 팔리고 새로운 부엌에서 일하며 빠르게 요리하는 법을 학습한다. meta-RL을 이용하여 agent를 학습하는 것은 도전 과제와 독특한 설계 선택를 동반한다.

특히 이 파트에서 우리는 다음 네 가지 기준으로 정리한다:

inner-loop의 구조
exploration 방식
supervision의 유무 및 형태
강화학습 알고리즘이 model-based인지 model-free인지

쓰다보니 너무 길어서 4개의 파트로 또 분해해서 작성하기로 결정했다. 이번 파트는 supervision이다.

Supervision

이번 파트에서는 meta-RL에서 사용되는 여러가지 지도(supervision) 방식들에 대해 이야기할 것이다. 지금까지 논의에서 가정한 표준 meta-RL 설정은 meta-training의 inner-loop 및 outer-loop 모두에서 agent가 보상 지도(reward supervision)를 받는 경우이다.

하지만 실제 meta-RL 문제에서는 이런 표준 설정이 아닐 수 있다. meta 학습 또는 테스트 과정에서 보상이 주어지지 않는 비지도(unsupervised) 설정부터 전문가 궤적(expert trajectories)이나 다른 정보(privileged information)에 접근할 수 있는 더 강력한 형태의 지도까지 다양한 설정들이 존재한다. 표 4에서는 다양한 설정과 방법들을 보여준다.

표 4. supervision에 따라 분류된 meta-training과 testing

Unsupervised meta-RL

unsupervised meta-RL은 학습 시 보상 정보가 전혀 없는 지도가 가장 적은 문제이다. 테스트 시에는 보상이 주어진다. 예를 들어 로봇 요리사를 표준화된 환경에서 훈련시켜 판매하는 경우를 가정해보자. 고객별로 로봇에게 원하는 결과(보상 함수)가 다르고 이를 알 수 없기 때문에 task 분포에 대한 적절한 보상 함수를 설계하기가 힘들다.

이를 해결하기 위한 방법으로 비지도 방식으로 다양한 task/보상을 생성하는 것이 있다.

meta training 환경에서 agent가 최대한 다양하고 구별되는 행동 또는 궤적을 생성하도록 유도
이런 다양한 궤적들은 다양한 종류의 task(or task에 대한 보상 함수)를 대표
사용자가 나중에 원하는 task 또는 보상 함수가 비지도 방식으로 생성된 다양한 task/보상 중 하나와 유사할 것이라고 생각
이런 다양한 task set은 off-the-shelf 비지도 강화학습 방법을 사용하여 생성 가능
task set이 만들어진 후에는 일반적인 meta-RL 학습을 수행이 가능

Gupta 등은 DIAYN(Diversity is All You Need) 방법을 사용하여 다양한 보상 함수 분포를 비지도 학습으로 생성하는 예시를 제시했다. DIAYN은 잠재 변수 $Z$ 를 도입하여 다양한 task를 나타내고, 이 잠재 변수에 조건화되는 멀티태스크 policy $\pi^\text{multi}(a\mid s,z)$ 를 학습한다. DIAYN은 아래의 식을 최대화 한다.

$\begin{aligned}J_\theta &= H(A \mid S, Z) + I(S, Z), \\ &= H(A \mid S, Z) + H(Z) - H(Z \mid S)\end{aligned}$

$H(A\mid S, Z)$ : policy의 엔트로피
$I(S,Z)$ : state와 잠재 변수간의 상호 정보량

실제 구현에서는 Soft Actor-Critic 등을 사용하여 policy 엔트로피를 최대화하고 학습된 판별자 $q_\theta(z\mid s)$ (상태 $s$ 가 주어졌을 때 잠재 변수 $z$ 를 예측)를 사용하여 상호 정보량을 최대화한다. 이때 $r(s,z) = \log q_\theta(z\mid s) - \log p(z)$ 형태의 내재적 보상이 활용된다.

DIAYN을 통해 판별자 $q_\theta(z\mid s)$ 를 학습한 후 이 학습된 보상 함수를 meta-RL agent의 훈련 보상으로 재사용한다. 별도의 meta-RL agent(예 : MAML)가 학습된 보상 $r(s,z)$ 를 사용하여 잠재 분포 $Z$ 에 대한 메타 학습을 수행한다.

장점 : 초기부터 RL을 학습하는 것보다 빠르게 새로운 task에 적응 가능
한계 : 다양한 궤적 생성만으로도 task 공간을 커버할 수 있는 비교적 간단한 도메인에만 해당

Meta-RL with unsupervised meta-testing

두 번째 설정은 위와 반대로 학습 시에는 보상이 주어지지만 테스트 시에는 보상이 주어지지 않는 경우이다.

이 경우에는 task의 차이가 주로 dynamics에 있으며 보상 정보는 task 식별에 필수적이지 않다고 가정하는 경우가 많음
보상은 outer-loop 학습에는 사용되지만 inner-loop의 적응 과정에서는 사용이 불가
학습 방법은 아래와 같다:
- inner-loop에서 보상 사용을 완전히 제거
- PPG 방식 수정 : PPG inner-loop는 gradient discent 계산을 위해 실제 보상 합 샘플이 필요하지만 테스트 시에는 보상이 없으므로 불가능하다. NoRML의 예시처럼 학습된 보상 합의 추정치를 사용하여 gradient discent를 대체하여 계산할 수 있다.
- 수동 설계 특징 활용 : black box 모델의 inner-loop와 완전 지도 방식의 outer-loop를 결합하여 inner-loop에서 보상 대신 수동으로 설계된 특징을 활용하는 방법이 존재
- Hebbian Learning : 신경망 가중치 업데이트가 이전/다음 레이어 활성화 값에 기반하는 생물학적 영감의 비지도 학습

세 번째 설정은 위와 비슷하지만 메타 테스트 시에 희소적인 보상을 주는 경우다.

학습시 조밀, 테스트 시 희소 : outer-loop에 조밀한 보상을 사용하고 inner-loop에 희소한 보상을 사용하여 표준 meta-RL 방법론을 직접 적용할 수 있다.
학습/테스트 모두 희소한 보상 : 이 경우 희소한 보상 때문에 학습이 어렵다. 이를 해결하기 위해 아래와 같은 방법들이 나타났다.
- Hindsight Task Relabelling : task가 보상 함수만 다르다고 가정, 다른 task의 보상 정보를 사용하여 현재 궤적의 보상을 relabel한다.
- action 매핑 : task간 dynamics가 다를 때, 한 task에서의 액션이 다른 task에서도 유사한 상태 transition을 유발하도록 액션을 매핑하는 방법을 학습하여 policy 전이를 돕는 few-shot 방법
- 보조적인 내재적 보상 추가

Meta-RL via imitation

학습 시점에 전문가의 행동 데이터나 전문가의 policy에 접근할 수 있는 경우, 표준적인 보상 지도보다 더 많은 정보를 활용할 수 있다. 예를 들어 인간 셰프가 로봇 셰프에게 요리 과정을 직접 시연하며 라벨링된 데이터를 제공하는 경우다. 전문가 데이터를 활용함으로써 샘플 효율성을 높이고 agent가 스스로 데이터를 온라인으로 수집해야 하는 부담을 줄일 수 있다.

Meta-RL via imitation은 전문가 데모가 있는 설정에서 자주 사용되는 접근 방식 중 하나이다.

GMPS(Guided Meta-Policy Search) : outer-loop에서 task 전문가들의 행동을 모방하는 방법 제안
inner-loop는 보상에 조건화되는 강화 학습 알고리즘을 학습
outer-loop에서는 지도 학습(모방 학습)을 사용, outer-loop의 목표는 inner-loop를 거쳐 적응된 policy가 해당 task 전문가 policy 행동을 잘 모방하도록 학습시키는 것
초기 policy를 실행하여 inner-loop policy gradient를 계산하고, outer-loop에서는 적응된 policy에 대해 지도 학습을 수행
행동 복제(Behavioral Cloning, BC)와 함께 DAgger(Dataset Aggregation) 기법을 사용하여 해당 state에서의 행동은 전문가 policy의 행동으로 라벨링하여 학습 데이터 셋을 생성한다

적응된 policy의 행동이 전문가 행동과 일치하도록 만드는 지도 학습 손실은 아래와 같다. 자세한건 알고리즘 6에서 확인이 가능하다.

$J_\text{BC}(\mathcal{D},\pi) = \mathbb{E}_{s,a\sim \mathcal{D}}[\log \pi(a\mid s)]$

그러나 모방을 통한 meta-RL 역시 한계점이 존재한다.

이 분야는 아직 상대적으로 탐구가 덜 되어있다
exploration 행동에 대한 정확한 지도를 얻는 것이 어려움
meta-RL 전문가를 얻기는 매우 어려움
대신 각 task별로 표준 RL을 통해 쉽게 얻을 수 있는 task별 전문가를 사용하는 경우가 많으나 이런 전문가들은 exploration 이후의 행동에 대한 지도만 제공하는 경우가 많음

Meta-imitation learning

이번에는 meta-imitation learning에 대해서 이야기할 것이다. 계속 이야기 하던 meta-RL과는 다르게 여기의 inner-loop는 RL 알고리즘이 아니다. 하지만 meta-RL과 밀접하게 관련된 문제이다. 핵심 가정은 inner-loop의 각 task별로 고정된 전문가 데모 셋에 접근할 수 있다는 것이다. 이 데모는 agent가 특정 task를 어떻게 수행해야 하는지를 보여주는 시범 데이터이다.

Meta-Behavioral Cloning(meta-BC) : 가장 흔한 outer-loop 훈련 방법이다. outer-loop는 각 task 데모 데이터에 대한 행동 복제를 통해 훈련된다. policy는 데모에 나타난 행동을 모방하도록 학습된다.
Meta-Inverse RL(meta-IRL) : outer-loop가 역강화 학습을 수행한다. 데모를 보고 보상 함수를 추론하고 이 보상 함수를 바탕으로 policy를 학습한다. 주로 온라인 방식으로 수행되며 시뮬레이션 환경이 필요한 경우가 많다. few-shot 학습을 통해 '성공' 여부를 판단하는 분류기를 훈련시키는 방식도 있다.

meta-RL 연구와 강한 유사성을 보인다. meta-IL에도 meta-RL 방법론의 유사한 방식들이 존재한다.

black box 방식 유사체 : RNN 등이 오프라인 데모 데이터셋을 처리
PPG 방식 유사체 : MAML을 meta BC에 적용하는 것처럼 inner/outer loop가 policy gradient 대신 오프라인 데모 데이터에 대한 행동 복제 손실을 사용하여 policy를 학습
task inference 유사체도 존재
RL2를 meta-BC에 적용하는 경우 : RNN이 온라인 데이터 대신 오프라인 데이터셋을 요약하고 outer-loop는 행동 복제 손실로 훈련

최근 많은 연구들이 meta-IL 문제 설정을 In-Context Learning이라는 이름으로 다룬다.

In-Context Learning : 일반적으로 순차 모델(트랜스포머 등)이 입력 시뭔스를 처리할 때 모델 내부의 활성화(activations)를 통해 해당 시퀀스에 대한 정보를 학습하고 이를 바탕으로 후속 입력을 처리하는 방식
black box 방식과 task inference 방식은 agent가 이러한 in-context 학습을 수행하도록 학습하는 방식으로 볼 수 있음
대표적인 예시로 요즘 주목받는 LLM이 있다.

https://arxiv.org/abs/2301.08028

A Survey of Meta-Reinforcement Learning

While deep reinforcement learning (RL) has fueled multiple high-profile successes in machine learning, it is held back from more widespread adoption by its often poor data efficiency and the limited generality of the policies it produces. A promising appro

arxiv.org

'논문 > 논문 정리' 카테고리의 다른 글

Meta-Reinforcement Learning: Many-Shot Meta-RL (0)	2025.04.23
Meta-Reinforcement Learning: Few-Shot Meta-RL (part 4) (0)	2025.04.22
Meta-Reinforcement Learning: Few-Shot Meta-RL (part 2) (0)	2025.04.21
Meta-Reinforcement Learning: Few-Shot Meta-RL (part 1) (0)	2025.04.18
Meta-Reinforcement Learning - Intro (0)	2025.04.16

현재글Meta-Reinforcement Learning: Few-Shot Meta-RL (part 3)

벵갈

M.S Course in GIST / Aimyon fan

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

벵갈