Loading [MathJax]/jax/output/CommonHTML/jax.js

논문 33

[논문 정리] GFlowNet Foundations - 2

Why This Paper?1편에 이어서 GFlowNet Foundations에 대한 내용을 정리하도록 한다.GFlowNets: Learning a Flow지금까지 나타낸 정의들을 이용하여 GFlowNet 훈련 방법을 확장해보고자 한다. 몇 가지 새로운 훈련 기법을 탐구한다. 1. 시간 스탬프 도입을 통한 순환 구조 허용일반적으로 GFlowNet의 상태 공간은 DAG로 구성되지만 순환이 포함된 상태 공간도 고려할 수 있다. 이를 위해 확장된 상태 공간 S=SxN을 도입한다. 시간 스탬프 t를 포함하여 여러 번 방문해도 각 방문이 서로 구분되게 만든다. 2. 확률적인 보상기존에는 보상이 결정론적이라고 가정했지만 확률적인 보상도 고려할 수 있다. 즉, 상태 s에서 보상 $..

[논문 정리] GFlowNet Foundations - 1

Why This Paper?이번에 연구실에 들어오게 되면서 공동 과제를 받았다. (오자마자 받는건 거의 최초라고 하시더라). 아무래도 같이 하시는 분들이 연구 경험이 나보다 훨신 많으시기 때문에 내가 열심히 해야겠다는 생각이 들었다. 공동 과제를 주도하신 교수님께서 몇몇 논문들을 알려주셨고 나는 그걸 꼼꼼히 정리하면서 읽어보고자 한다. 이 논문이 그 중에 첫 논문이다.IntroductionGFlowNet은 확률적 분포의 모드를 효율적으로 탐색하고, 보상 함수에 비례한 샘플을 생성한다. MCMC(Monte-Carlo Markov Chain)의 대안으로 긴 탐색 과정 없이 다양한 샘플링 결과를 제공한다. 여기서 MCMC는 시행착오를 통해 확률값을 근사하는 것을 나타낸다. 예를 들어 내가 주사위를 던지는데 각..

[논문 정리] Music Generation using Human-In-The-Loop Reinforcement Learning

Keywords: Reinforcement Learning, Human-In-The-Loop, Music Generation, HITL RL, Algorithmic Music, Audio Machine Learning, Human Feedback, RLHF, Human-Agent TeamingWhy This Paper?이번에 연구실에 들어오면서 여러가지 논문을 읽게 되었다. 나는 강화학습과 음악 생성 AI에 관심이 있었기에 관련된 것을 찾아보다가 제일 먼저 발견한 논문이 바로 이것이다.Introduction기존의 음악 생성 연구는 데이터 의존성을 피하기 어려워 저작권 문제나 오픈소스 음악의 영향을 받는 경우가 많았다. 따라서 이 논문에서는 Human-In-The-Loop Reinforcement Lear..