강화학습

[강화학습 입문] 가치 기반(Value-Based) vs 정책 기반(Policy Based) 강화학습 이해하기

빈형임 2025. 3. 19. 00:10
강화학습이란?
에이전트(Agent)가 환경(Environment)와 상호작용하면서 보상(Reward)를 극대화하는 행동 전략을 학습하는 과정

 

0. 한눈에 비교하기: 가치 기반 vs 정책 기반

구분 가치 기반 정책 기반
학습 대상 가치 함수(Value Function) 학습 정책 함수(Policy Function) 학습
행동 선택 방식 가치가 가장 높은 행동 선택 학습된 정책에 따라 행동 선택
적용 환경 불연속적 행동 공간 연속적 행동 공간
학습 안정성 비교적 안정적 다소 불안정할 수 있음
대표 알고리즘 Q-Learning, DQN Policy Gradient, PPO

 

환경과 문제에 따라 적절한 학습법이 필요

  • 간단한 게임같은 환경이라면 가치 기반 방식으로 빠르게 학습이 가능
  • 로봇 제어처럼 행동이 연속적인 경우, 정책 기반 학습이 더 유리 

1. 가치 기반(Value-Based) 강화학습이란?

에이전트는 각 행동이 얼마나 좋은지(가치)를 계산하고, 그 중 가장 가치가 높은 행동을 선택

 

예시

게임을 할 때, 각 선택지에 대해 ‘이걸 고르면 몇 점을 얻을까?’를 미리 계산해본 후, 가장 높은 점수가 예상되는 행동을 하는 방식

 

대표 알고리즘

  • Q-Learning
  • Deep Q-Network(DQN)

특징

  • 가치 함수를 학습하여 행동을 결정
  • 구현이 직관적이고 학습 안정성이 좋음
  • 행동이 불연속적인 경우에 특히 효과적

2. 정책 기반(Policy-Based) 강화학습이란?

에이전트가 행동하는 방법 자체(정책)을 직접 학습. 가치 계산 없이, ‘어떤 상황에서는 이런 행동을 하자’는 정책을 점차 개선

 

예시

자전거를 탈 때, '페달을 이렇게 밟고, 몸을 이렇게 움직이면 잘 타질 것 같다'는 감각을 반복 연습하며 익히는 것과 유사

 

대표 알고리즘

  • REINFORCE
  • Policy Gradient
  • Proximal Policy Optimization(PPO)

특징

  • 정책을 직접 최적화하므로 연속적인 행동에서 유리
  • 수렴이 빠르지만, 불안정할 수 있음
  • 확률적 정책 사용 가능 → 다양한 행동 선택 가능