강화학습이란?
에이전트(Agent)가 환경(Environment)와 상호작용하면서 보상(Reward)를 극대화하는 행동 전략을 학습하는 과정
0. 한눈에 비교하기: 가치 기반 vs 정책 기반
구분 | 가치 기반 | 정책 기반 |
학습 대상 | 가치 함수(Value Function) 학습 | 정책 함수(Policy Function) 학습 |
행동 선택 방식 | 가치가 가장 높은 행동 선택 | 학습된 정책에 따라 행동 선택 |
적용 환경 | 불연속적 행동 공간 | 연속적 행동 공간 |
학습 안정성 | 비교적 안정적 | 다소 불안정할 수 있음 |
대표 알고리즘 | Q-Learning, DQN | Policy Gradient, PPO |
환경과 문제에 따라 적절한 학습법이 필요
- 간단한 게임같은 환경이라면 가치 기반 방식으로 빠르게 학습이 가능
- 로봇 제어처럼 행동이 연속적인 경우, 정책 기반 학습이 더 유리
1. 가치 기반(Value-Based) 강화학습이란?
에이전트는 각 행동이 얼마나 좋은지(가치)를 계산하고, 그 중 가장 가치가 높은 행동을 선택
예시
게임을 할 때, 각 선택지에 대해 ‘이걸 고르면 몇 점을 얻을까?’를 미리 계산해본 후, 가장 높은 점수가 예상되는 행동을 하는 방식
대표 알고리즘
- Q-Learning
- Deep Q-Network(DQN)
특징
- 가치 함수를 학습하여 행동을 결정
- 구현이 직관적이고 학습 안정성이 좋음
- 행동이 불연속적인 경우에 특히 효과적
2. 정책 기반(Policy-Based) 강화학습이란?
에이전트가 행동하는 방법 자체(정책)을 직접 학습. 가치 계산 없이, ‘어떤 상황에서는 이런 행동을 하자’는 정책을 점차 개선
예시
자전거를 탈 때, '페달을 이렇게 밟고, 몸을 이렇게 움직이면 잘 타질 것 같다'는 감각을 반복 연습하며 익히는 것과 유사
대표 알고리즘
- REINFORCE
- Policy Gradient
- Proximal Policy Optimization(PPO)
특징
- 정책을 직접 최적화하므로 연속적인 행동에서 유리
- 수렴이 빠르지만, 불안정할 수 있음
- 확률적 정책 사용 가능 → 다양한 행동 선택 가능
'강화학습' 카테고리의 다른 글
[강화학습 입문] 탐험(Exploration)과 탐사(Exploitation)의 균형 (0) | 2025.03.19 |
---|---|
강화학습 입문하기 (0) | 2025.03.18 |