'강화학습' 카테고리의 글 목록

[강화학습 입문] 탐험(Exploration)과 탐사(Exploitation)의 균형

강화학습이란?에이전트(Agent)가 환경(Environment)와 상호작용하면서 보상(Reward)를 극대화하는 행동 전략을 학습하는 과정 0. 탐험과 탐사강화학습을 공부하다 보면 자주 듣게 되는 용어가 있습니다. 바로 탐험(Exploration)과 탐사(Exploitation) (간혹, 이용이나 착취 등과 같은 용어로 표현되기도 합니다) 입니다. 이 두 개념은 강화학습의 핵심 원리 중 하나로, 에이전트가 어떻게 행동을 선택해야 최적의 성능을 낼 수 있을까?라는 질문에 직결되는 개념입니다. 이번 글에서는 이 두 개념이 무엇이고, 왜 균형이 중요한지 공부한 내용을 쉽게 설명해보고자 합니다. 강화학습에서 에이전트(Agent)는 환경 속에서 행동을 선택하고, 그 행동에 따라 보상을 받아 학습합니다. 이때 어떤..

강화학습 2025.03.19

[강화학습 입문] 가치 기반(Value-Based) vs 정책 기반(Policy Based) 강화학습 이해하기

강화학습이란?에이전트(Agent)가 환경(Environment)와 상호작용하면서 보상(Reward)를 극대화하는 행동 전략을 학습하는 과정 0. 한눈에 비교하기: 가치 기반 vs 정책 기반구분가치 기반정책 기반학습 대상가치 함수(Value Function) 학습정책 함수(Policy Function) 학습행동 선택 방식가치가 가장 높은 행동 선택학습된 정책에 따라 행동 선택적용 환경불연속적 행동 공간연속적 행동 공간학습 안정성비교적 안정적다소 불안정할 수 있음대표 알고리즘Q-Learning, DQNPolicy Gradient, PPO 환경과 문제에 따라 적절한 학습법이 필요간단한 게임같은 환경이라면 가치 기반 방식으로 빠르게 학습이 가능로봇 제어처럼 행동이 연속적인 경우, 정책 기반 학습이 더 유리 1...

강화학습 2025.03.19

강화학습 입문하기

강화학습이란?에이전트(Agent)가 환경(Environment)와 상호작용하면서 보상(Reward)를 극대화하는 행동 전략을 학습하는 과정 1. 강화 학습의 핵심 구성 요소1. 에이전트(Agent): 학습을 수행하는 주체, 주어진 환경에서 최적의 행동을 찾기 위해 노력2. 환경(Environment): 에이전트가 상호작용하는 외부세계3. 상태(State): 에이전트가 환경에서 인식하는 정보의 집합, 현재 처한 상황4. 행동(Action): 에이전트가 선택할 수 있는 다양한 옵션, 동작5. 보상(Reward): 에이전트가 특정 행동을 취했을 때 환경으로부터 받는 피드백, 점수6. 정책(Policy): 상태에 따른 행동 선택 전략7. 에피소드(Episode): 시작~종료까지의 학습 단위2. 강화 학습 핵심 ..

강화학습 2025.03.18

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

디자인 좋아하는 개발자

강화학습 3

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역