강화학습 3

[강화학습 입문] 탐험(Exploration)과 탐사(Exploitation)의 균형

강화학습이란?에이전트(Agent)가 환경(Environment)와 상호작용하면서 보상(Reward)를 극대화하는 행동 전략을 학습하는 과정 0. 탐험과 탐사강화학습을 공부하다 보면 자주 듣게 되는 용어가 있습니다. 바로 탐험(Exploration)과 탐사(Exploitation) (간혹, 이용이나 착취 등과 같은 용어로 표현되기도 합니다) 입니다. 이 두 개념은 강화학습의 핵심 원리 중 하나로, 에이전트가 어떻게 행동을 선택해야 최적의 성능을 낼 수 있을까?라는 질문에 직결되는 개념입니다. 이번 글에서는 이 두 개념이 무엇이고, 왜 균형이 중요한지 공부한 내용을 쉽게 설명해보고자 합니다. 강화학습에서 에이전트(Agent)는 환경 속에서 행동을 선택하고, 그 행동에 따라 보상을 받아 학습합니다. 이때 어떤..

강화학습 2025.03.19

[강화학습 입문] 가치 기반(Value-Based) vs 정책 기반(Policy Based) 강화학습 이해하기

강화학습이란?에이전트(Agent)가 환경(Environment)와 상호작용하면서 보상(Reward)를 극대화하는 행동 전략을 학습하는 과정 0. 한눈에 비교하기: 가치 기반 vs 정책 기반구분가치 기반정책 기반학습 대상가치 함수(Value Function) 학습정책 함수(Policy Function) 학습행동 선택 방식가치가 가장 높은 행동 선택학습된 정책에 따라 행동 선택적용 환경불연속적 행동 공간연속적 행동 공간학습 안정성비교적 안정적다소 불안정할 수 있음대표 알고리즘Q-Learning, DQNPolicy Gradient, PPO 환경과 문제에 따라 적절한 학습법이 필요간단한 게임같은 환경이라면 가치 기반 방식으로 빠르게 학습이 가능로봇 제어처럼 행동이 연속적인 경우, 정책 기반 학습이 더 유리 1...

강화학습 2025.03.19

강화학습 입문하기

강화학습이란?에이전트(Agent)가 환경(Environment)와 상호작용하면서 보상(Reward)를 극대화하는 행동 전략을 학습하는 과정 1. 강화 학습의 핵심 구성 요소1. 에이전트(Agent): 학습을 수행하는 주체, 주어진 환경에서 최적의 행동을 찾기 위해 노력2. 환경(Environment): 에이전트가 상호작용하는 외부세계3. 상태(State): 에이전트가 환경에서 인식하는 정보의 집합, 현재 처한 상황4. 행동(Action): 에이전트가 선택할 수 있는 다양한 옵션, 동작5. 보상(Reward): 에이전트가 특정 행동을 취했을 때 환경으로부터 받는 피드백, 점수6. 정책(Policy): 상태에 따른 행동 선택 전략7. 에피소드(Episode): 시작~종료까지의 학습 단위2. 강화 학습 핵심 ..

강화학습 2025.03.18