강화학습이란?에이전트(Agent)가 환경(Environment)와 상호작용하면서 보상(Reward)를 극대화하는 행동 전략을 학습하는 과정 0. 탐험과 탐사강화학습을 공부하다 보면 자주 듣게 되는 용어가 있습니다. 바로 탐험(Exploration)과 탐사(Exploitation) (간혹, 이용이나 착취 등과 같은 용어로 표현되기도 합니다) 입니다. 이 두 개념은 강화학습의 핵심 원리 중 하나로, 에이전트가 어떻게 행동을 선택해야 최적의 성능을 낼 수 있을까?라는 질문에 직결되는 개념입니다. 이번 글에서는 이 두 개념이 무엇이고, 왜 균형이 중요한지 공부한 내용을 쉽게 설명해보고자 합니다. 강화학습에서 에이전트(Agent)는 환경 속에서 행동을 선택하고, 그 행동에 따라 보상을 받아 학습합니다. 이때 어떤..