[논문 정리] Offline Meta-Reinforcement Learning with Advantage Weighting

논문/논문 정리

[논문 정리] Offline Meta-Reinforcement Learning with Advantage Weighting

bengal3636 2025. 5. 2. 17:04

Introduction

meta-RL은 궁극적으로 많은 태스크를 학습하려는 목표를 가질 때, RL 알고리즘의 높은 샘플 복잡성을 해결하기 위한 유망한 전략으로 떠올랐다. 메타 훈련 중 태스크 간 공유 구조를 활용하여 학습 비용을 분산시키고 적은 경험만으로 새로운 태스크에 빠르게 적응하게 한다.

meta-RL은 수백만 건의 온라인 환경 상호작용 데이터 수집 능력을 가정하지만 이는 지도 학습에서 많은 소스에서 데이터를 모아 단일 모델을 훈련하는 것처럼 오프라인 데이터를 대규모로 활용하는 것과 반대된다. 그렇기에 오프라인 meta-RL 문제 설정을 제안하며 오직 훈련 태스크들로 얻은 오프라인 경험만을 사용하여 새로운 태스크로의 효율적인 전이를 가능하게 하는 설정의 알고리즘을 제안한다(그림 1 참조).

오프라인 설정에서는 일관성이 중요하게 작용한다:

'일관적인' meta-RL 알고리즘의 바람직함이 부각됨
meta-RL 알고리즘이 일관적일 경우 많은 데이터가 주어졌을 때, 훈련 태스크 분포와 상관없이 좋은 policy를 찾을 수 있음
새로운 태스크에 대한 빠른 적응이 가능
out of distribution 태스크에 대해서도 개선을 허용

그러나 일반적으로 오프라인 알고리즘을 설계하는 것은 다음과 같은 문제들이 있어 어려움이 발생한다:

일관성 요구 사항은 MAML 알고리즘의 확장을 요구함
그러나 MAML 방식은 online policy gradients를 사용하며 이는 오프라인 설정에서는 효과적이지 않음
오프라인 설정에서 효과적임이 입증된 것은 value-based 접근 방식(예시: TD 학습)
이런 두 알고리즘을 결합하는 것이 쉽지 않음

이런 문제를 해결하기 위해 지도 방식의 부트스트랩이 없는 RL 하위 절차의 Advantage-Weighted Regression(AWR)을 gradient discent 기반 알고리즘(MAML)의 inner-loop 및 outer-loop 모두에 결합하는 방식이 제안되었다. 그러나 이런 방식은 만족스러운 성능을 제공하지 못했고 이는 AWR의 policy 업데이트가 충분한 표현력이 있지 않기 때문이다.

그렇기에 우리는 MACAW 알고리즘을 제안한다:

표현력을 높이기 위해 inner-loop에 신중하게 선택된 policy gradient 방식 도입
그 결과로 탄생한 meta-RL 알고리즘 및 아키텍처를 Meta Actor-Critic with Advantage Weighting이라고 부름
아래와 같은 3가지 핵십 속서을 가짐:
- 샘플 효율성
- 오프라인 메타 훈련
- 메타 테스트 시 일관성

본 논문에서는 MACAW는 gradient 기반 메타 학습과 off-policy value-based RL을 성공적으로 결합한 최초의 알고리즘이라고 생각한다. MACAW의 성능은 표준 연속 제어 meta-RL 벤치마크의 오프라인 변형에 대한 실험뿐만 아니라, 희소하거나 품질이 낮은 훈련 데이터로 오프라인 메타 학습자의 robustness을 테스트하기 위해 설계된 설정에서도 평가되었다. 그 결과 MACAW는 SOTA off-policy RL 및 meta-RL 베이스라인의 완전 오프라인 변형들보다 뛰어난 성능을 달성했다.

Preliminaries

강화학습 RL은 agent가 Markov Decision Process, MDP라는 환경과 상호작용하며 누적 보상을 최대화하는 학습 분야이다. MDP는 일반적으로 State space $S$, Action space $A$, stochastic transition dynamics $T : S \times A \to S \times [0, 1]$ 그리고 보상 함수 $r$로 구성된 튜플이다. 각 타임스텝에서 agent는 현재 state $s_t$, action $a_t$, 다음 state $s_{t+1}$에 따라 보상 $r_t = r(s_t, a_t, s_{t+1})$을 받는다.

agent의 목표 : 예상되는 보상 합을 최대화
$\mathcal{R} = \sum_t \gamma^t r_t$

이걸 이용해서 meta-RL의 문제 설정을 할 수 있다:

태스크 분포 $p(\mathcal{T})$에서 추출된 태스크들을 고려
각 태스크 $\mathcal{T}_i = (S, A, p_i, r_i)$ : 서로 다른 MDP를 나타냄
transition dynamics와 보상 함수는 태스크마다 다를 수 있다고 가정
다양한 태스크들은 어떤 (알려지지 않은) 공유 구조를 가진다고 가정

메타 훈련과 테스트는 이렇게 진행된다:

메타 훈련
- agent는 훈련 기간 동안 태스크 분포에서 샘플링된 여러 태스크들을 접하며 학습
메타 테스트
- 테스트 시점에서 agent의 목표는 분포에서 나온 새로은 태스크에 대해 빠르게 고성능 policy를 찾는 것
- 아주 적은 양의 경험만으로도 해당 태스크에서 높은 예상 보상 합을 달성하는 policy를 찾아야함

Model-agnostic meta-learning

MAML은 meta-RL 뿐만 아니라 meta-지도 학습 문제 해결에도 사용되는 메타 학습 알고리즘의 한 종류이다. 특정 모델 구조에 얽매이지 않는다는 특징을 가진다.

목표 : 몇 번의 gradient updates 만으로 새로운 태스크에 대한 빠른 적응을 달성
2단계의 최적화 구조를 가짐
- Inner loop : 각 훈련 단계에서 샘플링된 task $\mathcal{T}_i$에 대해 policy 매개변수 $\phi$를 빠르게 적응시킨다. 초기 매개변수 $\phi$에서 시작하여 태스크 $\mathcal{T}_i$에 대해 손실 함수 $\mathcal{L}_\mathcal{T}$의 경사를 이용하여 계산한다.
- $\theta' = \theta - \alpha\triangledown_\theta\mathcal{L}_\mathcal{T}(\theta)$
- Outer loop : inner-loop를 거쳐 태스크에 적응된 policy $\theta'$를 평가하고 이걸 바탕으로 초기 매개변수를 업데이트
- $\theta \leftarrow \theta - \beta\triangledown\mathcal{L}'_\mathcal{T}(\theta')$

MAML은 policy gradient 업데이트를 inner 및 outer 루프 모두에 적용하여 처음 구현되었고 이는 on-policy meta-RL 설정에만 적용 가능하다는 한계점을 가진다.

Advantage-weighted regression

AWR(Advantage-Weighted Regression)은 간단한 offline-RL 방법으로 미리 수집된 오프라인 데이터셋만을 사용하여 policy를 학습한다. 본 논문은 오프라인 meta-RL 알고리즘 개발을 위해 AWR을 기반으로 사용한다. AWR의 목표 함수는 아래와 같다:

$$\mathcal{L}^\text{AWR}(\vartheta ,\varphi ,B) = \mathbb{E}_{\mathbf{s},\mathbf{a}\sim B}\left[-\log\pi_\vartheta(\mathbf{a}|\mathbf{s})\exp\left(\frac{1}{T}(\mathcal{R}_B(\mathbf{s},\mathbf{a})-V_\varphi(s))\right)\right]$$

$B = \{(\mathbf{s}_j,\mathbf{a}_j,\mathbf{s}'_j,r_j)\}$ : 어떤 행동 policy에 의해 심플링되어 수집된 transition 튜플들의 오프라인 데이터셋
$\mathcal{R}_B(\mathbf{s},\mathbf{a})$ : state $s$에서 행동 $a$를 수행한 후 얻은 실제 보상의 합
$V_varphi(\mathbf{s})$ : state $s$에서의 예상 가치
$T > 0$ : 온도 매개변수. 지수 항의 스케일을 조절
$ \mathcal{R}_B(\mathbf{s},\mathbf{a}) - V_varphi(\mathbf{s}) $ : 특정 행동의 어드밴티지를 나타냄

이 목표 함수는 결국 오프라인 데이터 중 어드밴티지가 높았던 행동들을 policy가 선택할 확률을 높이도록 학습하는 것이다. AWR에서는 일반적으로 가치 함수 매개변수는 데이터셋 $B$의 실제 보상합에 대한 단순 회귀를 통해 학습된다. policy 매개변수는 목표 함수를 사용하여 학습된다.

The Offline Meta-RL Problem

오프라인 meta-RL의 목표는 오프라인 멀티태스크 경험을 활용하여 새로운 태스크에 빠르게 적응하는 것을 가능하게 하는 것이다. 이 설정에서 태스크는 아래와 같이 정의된다:

$\mathcal{T}_i$ : 튜플 $(M_i, \pi_i)$
$M_i$ : Markov Decision Process
$\pi_i$ : 알려지지 않은 행동 정책
태스크는 태스크 분포 $p(\mathcal{T}) = p(\mathcal{M}, \mu)$에서 추출

오프라인 meta-RL 알고리즘은 훈련 동안 환경과 상호작용을 할 수 없다. 대신 각 훈련 태스크 $\mathcal{T}_i$에 대해 행동 정책 $\mu_i$로부터 샘플링된 고정된 전이 튜플 버퍼 $D_i = \{s_{i,j}, a_{i,j}, s'_{i,j},r_{i,j}\}$에 접근이 가능하다.

메타 테스트 시점에는 $p(\mathcal{T})$에서 처음보는 태스크 $\mathcal{T}_\text{test} = (\mathcal{M}_\text{test}, \mu_\text{test})$가 추출된다. 본 논문은 두 가지 다른 테스트 절차를 고려한다:

완전 오프라인 meta-RL 설정 : 메타 훈련된 agent에게 $\mu_\text{test}$로부터 샘플링된 적은 양의 오프라인 경험 배치 $D_\text{test}$만이 주어진다. agent의 목표는 오직 이 $D_\text{test}$만을 사용하여 $\mathcal{M}_\text{test}$에 대한 가능한 가장 고성능의 policy를 찾는 것이다.
온라인 파인튜닝을 동방한 오프라인 meta-RL 설정 : agent에게 오프라인 데이터 $D_\text{test}$가 제공된 후 추가적인 온라인 데이터 수집 및 학습이 가능

메타 훈련 시 학습된 policy에서 데이터를 샘플링하는 표준 meta-RL과 달리 오프라인 meta-RL은 메타 훈련 데이터로 고정된 배치를 사용한다. 이는 온라인 탐색이 어렵거나 비싸거나 위험한 상황에 특히 적합핟.

이전 meta-RL 방법들은 메타 훈련 태스크 각각에 대해 MDP와의 온라인 상호작용을 요구했다. 일부 off-policy 기반 방법도 있었지만 이러한 알고리즘들은 완전 오프라인 설정에서 성능이 좋지 않음이 알려져 있다.

MACAW: Meta Actor-Critic with Advantage Weighting

MACAW는 오프라인 meta-RL이 제기하는 수많은 도전 과제들을 해결하기 위해 제안된 오프라인 meta-RL 알고리즘이다. MACAW는 메타 테스트 시 접하는 새로운 태스크에 대해 경사 하강법을 통해 빠르게 적응할 수 있는 초기화 값들을 학습한다. 구체적으로 가치 함수 $V_\phi$와 policy $\pi_\theta$를 위한 $\phi$와 $\theta$를 학습한다.

MACAW의 가치 함수와 정책 목표는 모두 inner와 outer 모두에서 간단한 가중 회귀 손실에 해당한다. 이러한 가중 회귀 목표 함수들은 안정적이고 일관적인 inner-loop 적응 과정과 outer-loop 메타 훈련 신호를 제공한다. MACAW의 목표 함수는 AWR을 기반으로 한다. 그러나 본 논문에서는 inner-loop에서 순수하게 AWR 업데이트를 적용하는 것이 불만족스러운 성능으로 이어질 수 있으며 이를 해결하기 위해 MACAW는 더 풍부해진 policy 업데이트 방식을 사용한다.

Inner-Loop MACAW Procedure

MACAW의 적응 과정은 가치 함수 업데이트 후에 policy 업데이트를 수행하는 순서로 이뤄진다(알고리즘 1의 6-8번째 라인 참조). MACAW는 계산 및 메모리 제약을 만족시키기 위해 적응 과정을 전체 훈련 끝까지 가지 않고 중간에 잘라서 수행하는 잘린 최적화(truncated optimization) 방식을 사용한다.

1단계 : 가치 함수 적응

Q-learning처럼 부트스트랩을 사용하는 알고리즘은 가치 전파에 많은 반복이 필요할 수 있음. MACAW는 이를 피하기 위해 부트스트랩이 없는 업데이트를 사용
새로운 태스크의 훈련 데이터 배치 $D_i^\text{tr}$이 주어졌을 때, 가치 함수는 데이터셋의 Monte Carlo 보상 합에 대한 단순 지도 회구를 통해 적응된다
가치 함수 업데이트는 다음 목표 함수를 통해 이뤄진다

$$\phi'_i \leftarrow \phi - \eta_1\triangledown_\phi\mathcal{L}_V(\phi,D_i^\text{tr}), \quad\mathcal{L}_V(\phi, D) \overset{\underset{\Delta}{}}{=} \mathbb{E}_{\mathbf{s}, \mathbf{a}\sim D}[(V_\phi(s) - \mathcal{R}_D(\mathbf{s}, \mathbf{a}))^2]$$

2단계 : 정책 적응

AWR 알고리즘은 추정된 어드밴티지$(\mathcal{R}_D(\mathbf{s},\mathbf{a}) - V(\mathbf{s}))$로 가중된 행동에 대한 지도 회귀를 통해 policy를 업데이트 한다
MACAW에서는 이 동일한 업데이트 규칙(AWR)을 사용하는 것이 메타 학습자에게 충분한 표현력을 제공하지 못한다고 생각한다
AWR 목표 함수의 경사는 회귀 가중치(어드밴티지)와 회귀 대상 모두에 대한 완전한 정보를 담고 있지 않기 때문이다
이 문제를 해결하고 메타 학습자의 표현력을 충분히 높이기 위해, MACAW policy 업데이트는 단순히 행동에 대한 회귀를 넘어 행동에 대한 어드밴티지 가중 회귀뿐만 아니라 어드밴티지에 대한 추가적인 회귀($\mathcal{L}_\text{ADV}$)도 수행한다
이런 예측을 위해 MACAW의 정책 아키텍처는 두 개의 출력 헤드를 가진다. 하나는 상태 $s$가 주어졌을 때 행동 확률 분포 $\pi_\phi(a|s)$를 출력하는 헤드, 다른 하나는 상태 $s$와 행동 $a$가 주어졌을 때 어드밴티지 예측값 $A_\phi(s,a)$를 출력하는 헤드이다(그림 2 참조).
정책 적응 목표 함수는 다음 목표 함수 $\mathcal{L}$에 대해 이뤄진다:

$$\theta'_i \leftarrow \theta - \alpha_1\triangledown_\theta\mathcal{L}_\pi(\theta, \phi'_i, D_i^\text{tr}), \quad \mathcal{L}_\pi = \mathcal{L}^\text{AWR} + \lambda\mathcal{L}^\text{ADV}$$

$\mathcal{L}^\text{AWR}$ 손실만 사용하는 대신 $\mathcal{L}$을 사용하여 적응하는 것이 앞서 언급된 표현력 문제를 해결한다.
여기서 $\mathcal{L}^\text{AWR}$ 손실은 위의 파트에서 언급했으며 어드밴티지 회귀 손실 $\mathcal{L}^\text{ADV}$는 policy 네트워크 어드밴티지 헤드 출력이 실제 어드밴티지와 얼마나 가까운지를 측정한다:

$$\mathcal{L}^\text{ADV}(\phi', D) \overset{\underset{\Delta}{}}{=} \mathbb{E}_{\mathbf{s}, \mathbf{a}\sim D}[(A_\theta(s,a) - (\mathcal{R}_D(s,a) - V_{\phi'_i}(s)))^2]$$

이 풍부해진 policy 업데이트는 메타 훈련 중 inner-loop에서만 사용된다. 메타 테스트 시에는 정책의 어드밴티지 헤드가 출력하는 예측값 자체는 정책 행동 결정에 사용되지 않는다.

적응 과정은 메타 훈련의 inner-loop와 메타 테스트 시 모두 수행된다. MACAW는 적응 시 AWR 기반의 잘 정의된 RL 파인튜닝 하위 절차를 실행하므로 메타 테스트 시 일관성을 가진다.

Outer-Loop MACAW Procedure

MACAW는 가치 함수 $V$와 policy $\pi$를 위한 초기화 값들을 메타 학습한다 .이 초기화 값들은 알고리즘 1의 9-10번째 라인에서 업데이트된다.

메타 학습 과정은 아래와 같다:

inner-loop 적응 : 적응 데이터 $D_i^\text{tr}$를 사용하여 가치 함수와 정책을 적응 시킴
outer-loop 평가 데이터 샘플링 : 외적 루프 업데이트를 위해 적응 데이터 $D_i^\text{tr}$와는 겹치지 않는 별도의 데이터 배치 $D_i^\text{ts}$를 샘플링함
초기화 값 최적화 : 이 데이터를 사용하여 가치 함수 및 정책의 초기화 값들을 최적화

가치 함수의 메타 학습 절차는 MAML을 따르며 지도 방식의 Monte Carlo 목표를 사용한다. 목표는 소수의 inner-loop 경사 스텝을 통해 정확한 가치 추정기로 이어지는 초기 가치 함수 매개변수 세트를 최적화하는 것이다. 이 목표 함수는 소수의 내적 루프 경사 스템 후 정확한 가치 추정기로 이어지는 초기 값을 찾도록 한다.

$$\min_\theta\mathbb{E}_{\mathcal{T}_i}[\mathcal{L}_V(\phi'_i, D_i^\text{ts})] = \min_\theta\mathbb{E}_{\mathcal{T}_i}[\mathcal{L}_V(\phi - \eta_1 \triangledown_\phi\mathcal{L}_V(\phi, D_i^\text{tr}),D_i^\text{ts})]$$

정책 초기화를 위한 메타 학습은 표준 AWR 목표를 사용한다. 목표는 다음 목표 함수를 최소화하는 방향으로 초기 정책 매개 변수 세트를 최적화하는 것이다.

$$\min_\theta\mathbb{E}_{\mathcal{T}_i}[\mathcal{L}^\text{AWR}(\theta'_i, \phi'_i, D_i^\text{ts})] = \min_\theta\mathbb{E}_{\mathcal{T}_i}[\mathcal{L}^\text{AWR}(\theta - \alpha_1\triangledown_\theta\mathcal{L}_\pi(\theta, \phi'_i, D_i^\text{tr}),\phi'_i,D_i^\text{ts})]$$

MACAW Architecture

MACAW의 풍부해진 정책 업데이트는 inner-loop 정책 업데이트를 더 표현력 있게 만들려는 동기에서 나왔다. 목표 함수를 보강하는 것 외에 아키텍처 자체를 변경하여 경사 표현력을 높이는 접근 방식을 취할 수 있다.

표준 다층 퍼셉트론(MLP)에서 경사 하강 스템 한 번으로는 각 가중치 행렬에 대해 rank-1 업데이트만 수행할 수 있는 수학적 한계가 있다. Finn and Levine(2018)은 MAML이 어떤 임의의 학습 절차라도 근사할 수 있으려면 이러한 rank-1 한계 때문에 MLP가 현실적으로 사용 불가능할 정도로 깊어야 함을 보였다.

이러한 문제를 해결하기 위해 우리는 가중치 변환 레이어를 도입했다:

잠재 코드(latent code)를 입력으로 받아 해당 레이어의 가중치 행렬과 편향으로 매핑
잠재 코드를 통해 생성된 가중치 행렬과 편향은 일반적인 완전 연결 레이어처럼 입력에 곱해져 출력을 계산하는 데 사용
'레이어별 선형 하이퍼네트워크[Ha et al. 2016]'과 유사함
가중치 변환 레이어 자체는 레이어가 계산할 수 있는 함수 클래스를 바꾸지 않지만 MAML 경사의 표현력을 증가시킴
inner-loop에서 잠재 코드를 경사 하강법으로 업데이트하고 이 업데이트된 잠재 코드가 forward pass 시 새로운 가중치 행렬과 편향으로 매핑되기 때문에 이론적으로 잠재 코드의 차원성만큼 높은 랭크의 가중치 행렬 업데이트를 얻을 수 있음

MACAW는 이 가중치 변환 레이어 전략을 가치 함수 네트워크와 정책 네트워크 모두의 모든 가중치에 사용한다. 이 아키텍처는 모델 표현력을 증가시키지 않으면서 더 표현력 있는 적응을 가능하게 하려는 동기를 공유한다. 잠재 임베딩 최적화와 유사하지만 MACAW는 간단한 선형 매핑 함수를 사용하여 전체 네트워크에 가중치 변환 레이어를 적용하고, 각 레이어의 매개변수가 다른 잠재 코드로부터 구성될 수 있도록 한다는 차별점이 있다.

Experiments

평가의 목표는 오프라인 멀티태스크 데이터로부터 새로운 태스크로의 빠른 transfer를 촉진하는 priors을 MACAW가 성공적으로 학습할 수 있는지 테스트하는 것이다. MACAW의 성능을 비교하기 위해 세 가지 합리적인 접근 방식을 사용한다:

메타 행동 복제
멀티태스크 오프라인 RWL + 파인튜닝
SOTA(State-of-the-Art) off-policy meta-RL 방법인 PEARL의 오프라인 변형

MACAW의 다양한 측면을 평가하기 위해 세부 항목들을 제거하여 실험한다:

메타 테스트 시 온라인 파인튜닝을 활용했을 때 MACAW 성능이 어떻게 향상되는지
MACAW의 풍부해진 정책 업데이트 및 가중치 변환과 같은 핵심 요소들의 중요성
훈련 중 태스크 공간 샘플링이 매우 희소할 때, 각 방법의 성능이 어떻게 영향받는지

평가에는 널리 사용되는 시뮬레이션 연속 제어 벤치마크 문제들의 오프라인 변형을 사용한다. Finn과 Rothfuss 등이 제시한 벤치마크를 기반으로 하며 구체적인 예시로는 목표 방향/속도가 다른 Half-cheetah, 물리 매개변수가 다른 Walker, 목표 방향이 다른 Ant 등이 있다.

주된 비교(그림 3 참조)를 위한 오프라인 데이터는 표준 RL agent가 맨 처음부터 훈련하며 경험한 리플레이 버퍼로부터 생성된다. 이는 실제적인 시나리오를 반영한다. 제거 실험에서는 오프라인 데이터의 양과 품질을 다양하게 조절하여 MACAW의 robustness를 평가한다.

Can we learn to adapt to new tasks quickly from purely offline data?

MACAW는 다음 세 가지 접근 방식과 비교되었다:

오프라인 PEARL
멀티태스크 AWR + 파인튜닝
메타 행동 복제 베이스라인

각 실험에서 고정된 훈련 태스크 세트와 별도의 테스트 태스크 세트를 미리 샘플링하여 훈련 내내 고정했다. 주요 비교 결과는 아래와 같다:

MACAW : 유일하게 메타 행동 복제 베이스라인보다 일관적으로 뛰어난 성능을 보임
멀티태스크 AWR + 파인튜닝 : 비교적 간단한 Cheetah 문제들에서는 의미 있는 성능 향상을 보였지만, Walker 및 Ant와 같이 더 도전적인 문제들에서는 잘 적응하지 못함
오프라인 PEARL : Cheetah-velocity 및 Walker-params 문제에서 초기 진행을 보였지만, 어떤 문제에서도 꾸준히 성능 향상을 이루는 데 어려움을 겪음

PEARL의 성능 부진은 Q-function extrapolation error와 일반적으로 불안정한 오프라인 부트스트래핑 때문인 것으로 분석된다. MACAW와 AWR의 가치 함수는 부트스트랩을 사용하지 않기 때문에 정책이 더 안전한 행동을 선호하도록 편향시켜 외삽 오류로 인한 문제를 암묵적으로 피하는 효과를 나타냈다.

Can MACAW leverage online experience at meta-test time?

여기서의 목표는 MACAW와 PEARL이 메타 테스트 시 오프라인 데이터로 초기 적응한 후 추가적으로 수집된 온라인 데이터를 사용하여 성능을 얼마나 개선할 수 있는지를 테스트한다. 실험설정은 아래와 같다:

벤치마크 : Cheetah-Velocity, Walker-Params, Ant-Direction 문제
초기 적응 : 두 알고리즘 모두 메타 테스트 시 각 테스트 태스크에서 오프라인 데이터 256개 transitions 배치 하나를 사용하여 초기 오프라인 적응을 수행
온라인 파인튜닝 : 오프라인 적응 후, 추가적인 온라인 데이터 수집과 함께 Actor/Critic 업데이트를 번갈아 수행

실험 결과는 아래와 같다:

MACAW : 1만 스텝의 온라인 데이터를 사용하여 3개 문제 중 2개 문제에서 오프라인 전용 성능보다 향상되었다.
PEARL : 1만 스텝 또는 2만 스텝의 온라인 경험을 사용해도 3개 문제 중 2개 문제에서 오프라인 전용 성능보다 향상되지 못함

MACAW가 온라인 경험을 더 잘 활용할 수 있는 이유는 MACAW가 경사 기반 meta-RL 알고리즘이며 파인튜닝 가능성을 위해 명시적으로 메타 훈련되기 때문인 것으로 분석된다. MACAW는 inner-loop에서 단 하나의 경사 스텝으로 메타 훈련되지만 과거 Finn et al.은 MAML과 같은 경사 기반 메타 학습 방법이 메타 훈련 시 사용된 스텝 수보다 더 많은 적응 스텝을 사용하면 메타 테스트 시 성능이 계속 향상될 수 있음을 보였다.

How does MACAW's performance differ from MAML+AWR?

이번 실험의 비교 대상은 아래와 같다:

MACAW(두 가지 핵심 특징 모두 사용)
풍부해진 정책 손실을 제거한 MACAW
가중치 변환 레이어를 제거한 MACAW
순수한 MAML + AWR 방식과 MACAW의 차이를 확인하는 실험

1. 첫 번째 제거 실험

벤치마크 : Cheetah-Velocity에서 수행
주된 비교에서 사용했던 데이터(훈련된 RL agent 리플레이 버퍼) 대신 무작위 탐색 정책으로부터 오프라인 배치(태스크강 30개 궤적)를 샘플링하여 적응 데이터로 사용
이런 무작위로 수집된 데이터는 신호 대 잡음 비가 낮아 순수한 MAML+AWR 알고리즘에 가장 어려울 것으로 가설을 세움
메타 훈련 중에는 이 무작위 탐색 배치로부터 적응 데이터를 샘플링하고 테스트 시에도 무작위 탐색 정책이 수집한 궤적으로 적응을 수행
결과
- MACAW는 풍부해진 정책 손실이 제거된 알고리즘과 가중치 변환 레이어가 제거된 알고리즘 모두보다 훨씬 빠른 학습 속도를 보임
- 특히 푸부해진 정책 손실을 제거했을 때 점근적 성능의 저하가 두드러짐
- 무작위 탐색 데이터와 같은 어려운 데이터 환경에서는 표준 AWR 정책 손실만으로는 태스크를 명확하게 구분하는 것이 어려움
- 새로운 태스크에 성공적으로 적응하기 위해서는 보편적인 정책 업데이트 절차가 필요함

2. 두 번째 제거 실험

정책 업데이트의 표현력이 언제 가장 중요한지를 파악하기 위해, 완전 오프라인 설정에서 적응 데이터의 품질을 체계적으로 변화시킴
오프라인 정책의 리플레이 버퍼에서 데이터를 가져오되, 학습 과정의 다른 시점의 데이터를 사용하여 품질을 구분
- 낮은 품질 데이터 : 리플레이 버퍼의 처음 10만 개 transition(학습 초기 무작위 탐색에 가까움)
- 중간 품질 데이터 : 리플레이 버퍼의 중간 10만 개 transition
- 전문가 품질 데이터 : 리플레이 버퍼의 마지막 10만 개 transition(거의 최적에 가까운 정책)
inner-loop 데이터 품질의 영향만 분리하기 위해, 모든 실험에서 outer-loop 데이터는 전문가 품질 데이터를 사용
결과:
- 제거된 알고리즘(MACAW의 핵심 요소가 없는 버전)은 오프라인 적응 데이터가 거의 최적 정책에서 온 데이터일 때 잘 작동함
- 그러나 적응 데이터의 품질이 낮아질수록 MACAW와 제거된 알고리즘 간의 성능 차이가 커짐
- 적응 데이터가 더 무작위적이고 품질이 낮을수록 정책 업데이트의 표현력이 더 중요하다는 직관을 뒷받침
- 오프라인 적응 시 agent가 추가 경험을 수집할 수 없으므로 적응 성능은 데이터를 생성한 행동 정책의 품질에 크게 좌우

3. 세 번째 제거 실험

MACAW의 또 다른 핵심 요소인 가중치 변환 레이어의 효과를 분석
No WT - Equal Width : 가중치 변환 레이어를 동일한 너비의 표준 완전 연결 레이어로 대체
No WT - Equal Params : 가중치 변환 레이어를 동일한 매개변수 수를 갖도록 더 넓은 너비의 표준 완전 연결 레이어로 대체
결과(그림 5 참조) :
- 가중치 변환 레이어가 학습 속도와 안정성을 크게 향상시킴
- MACAW는 두 No WT 변형보다 학습 속도가 현저히 빠름
- Equal Width 변형과 비교했을 때 안정성 면에서도 상당한 개선을 보임

How do algorithms perform with varying numbers of meta-training tasks?

다양한 알고리즘들이 일반화를 잘 하기 위한 훈련 시 태스크 공간을 얼마나 조밀하게 샘플링해야 하는지를 평가한다. 훈련에 사용되는 태스크 수를 변화시키면서 테스트 성능을 비교한다.

벤치마크 : Cheetah-Velocity 설정에서 수행
Cheetah-Velocity 태스크 공간에서 점점 더 많은 비율을 제외하면서 메타 훈련에 사용되는 개별 태스크의 수를 변화시킴
오프라인 PEARL은 이전 실험에서 성능이 좋지 않았으므로 이 실험에서는 훈련시 태스크당 오프라인 데이터를 7배 더 많이 수집하여 사용
결과(그림 5 오른쪽) :
- 오프라인 PEARL : 훈련 태스크 수가 매우 많을 때와 매우 적을 때 모두 학습에 완전히 실패했다. 오직 중간 수준의 태스크 수에서만 비교적 효과적으로 학습됨
- PEARL의 실패 원인 분석 : 훈련 태스크가 너무 많을 때 태스크 추론 및 가치 함수 네트워크에서 불안정성이 관찰되었고, 태스크가 너무 적을 때 태스크 식별을 위한 정보가 불충분했다고 분석된다.
- 멀티태스크 AWR + 파인튜닝 베이스라인 : 훈련 태스크 수가 줄어들수록 성능이 꾸준히 저하되는 경향을 보였다. 이는 부트스트랩이 없는 학습 절차 덕분에 PEARL보다 안정적이었을 가능성이 있다.
- MACAW : 훈련 태스크의 샘플링이 매우 조밀하거나 매우 희소한 경우를 포함하여 어떤 밀도에서도 합리적인 품질의 해를 찾음, 훈련 태스크 수 변화에 대해 가장 강건했다.

이런 특성은 작은 데이터셋에서도 유용한 적응 행동을 만들어 실용적으로 바람직하다. MACAW의 강건함은 메타 훈련 및 메타 테스트 시 SGD 기반 적응(MAML 스타일 경사 기반 내적 루프)이 제공하는 강력한 사전 지식 덕분인 것으로 분석된다.

Limitations & Future Work

한계점과 향후 연구 방향은 2가지로 나눌 수 있다.

1. 온라인 탐색 정책 학습

한계: MACAW는 오프라인 데이터로 새로운 태스크에 적응할 수 있지만 오프라인 메타 훈련 데이터로부터 효과적인 온라인 탐색 정책을 학습하지는 않는다.
향후 연구 아이디어 : 메타 훈련 시 오직 오프라인 데이터만을 사용하여 실험에서 사용된 무작위 정책보다 더 나은 온라인 탐색 정책을 agent가 어떻게 학습할 수 있을지 연구

2. 가치 함수 업데이트 방식

한계 : MACAW는 가치 함수 학습에 부투스트랩 없는 Monte Carlo 보상 합에 대한 회구를 사용한다. 이는 오프라인 문제에 강건하지만 경우에 따라 온라인 파인튜닝 시 점근적 성능을 저하시킬 수 있다.
향후 연구 아이디어 : TD($\lambda$)와 같이 부트스트랩을 사용하는 대안적인 가치 함수 업데이트 방식들을 탐색하는 것이 필요

Conclusion

본 논문은 오프라인 메타 강화 학습 문제 자체를 공식화하고 정의했다. 더블어 이 문제에 대해 다른 SOTA meta RL 알고리즘들과 비교하여 좋은 성능을 달성하는 실용적인 MACAW를 제안했다. MACAW는 샘플 효율적이면서 동시에 일관적인 오프라인 meta-RL 알고리즘을 구축하려는 목표에서 비롯되었고 평가 결과 테스트 시 일부 온라인 데이터 수집이 가능한 경우 모두에서 효과적임을 보여주었다. 이 연구가 오프라인 meta RL 분야의 향후 연구를 위한 기반이 되기를 희망한다.

https://proceedings.mlr.press/v139/mitchell21a.html