강화학습

[강화학습 입문] 탐험(Exploration)과 탐사(Exploitation)의 균형

빈형임 2025. 3. 19. 00:27
강화학습이란?
에이전트(Agent)가 환경(Environment)와 상호작용하면서 보상(Reward)를 극대화하는 행동 전략을 학습하는 과정

 

0. 탐험과 탐사

강화학습을 공부하다 보면 자주 듣게 되는 용어가 있습니다. 바로 탐험(Exploration)과 탐사(Exploitation) (간혹, 이용이나 착취 등과 같은 용어로 표현되기도 합니다) 입니다. 이 두 개념은 강화학습의 핵심 원리 중 하나로, 에이전트가 어떻게 행동을 선택해야 최적의 성능을 낼 수 있을까?라는 질문에 직결되는 개념입니다. 이번 글에서는 이 두 개념이 무엇이고, 왜 균형이 중요한지 공부한 내용을 쉽게 설명해보고자 합니다.

 

강화학습에서 에이전트(Agent)는 환경 속에서 행동을 선택하고, 그 행동에 따라 보상을 받아 학습합니다. 이때 어떤 행동을 선택할 것인가가 핵심 문제인데, 에이전트는 두 가지 선택지 사이에서 항상 고민해야 합니다:

  • 탐험 (Exploration): 아직 해보지 않은 행동을 시도해서 새로운 가능성을 찾기
  • 탐사 (Exploitation): 이미 잘 되는 행동을 반복해서 높은 보상을 얻기

1. 탐험(Exploration)이란?

아직 시도해보지 않은 행동. 에이전트는 현재까지의 경험에만 의존하지 않고, 모르는 것을 알아보기 위해 행동

 

예시

처음 가본 맛집 거리에서 식당을 고를 때, ‘여기 괜찮아 보이는데?’ 하고 새로운 곳에 들어가 보는 것과 유사

 

장점

  • 새로운 보상 가능성을 발견할 수 있음
  • 장기적으로 더 나은 선택지를 찾는 데 도움

단점

  • 당장은 낮은 보상을 받을 수 있음

2. 탐사(Exploitation)란?

지금까지의 경험에서 가장 보상이 높았던 행동을 반복. 에이전트는 이미 아는 것에 의존하여 안전하게 보상을 얻으려 노력.

 

예시

이미 가본 식당 중 가장 맛있었던 곳을 다시 방문하는 것과 유사.

 

장점

  • 즉각적으로 높은 보상을 받을 수 있음

단점

  • 더 나은 선택지를 놓칠 수 있음

3. 강화학습에서 탐험과 탐사의 균형이 중요한 이유

에이전트가 탐사만 한다면? →새로운 기회를 놓치고, 항상 같은 수준의 보상만 받게 됩니다.
에이전트가 탐험만 한다면? → 계속 실패하거나, 낮은 보상만 받으면서 방황하게 됩니다.

에이전트가 언제 모험을 하고, 언제 안정을 추구해야 할지를 잘 판단하는 것은 강화학습의 가장 중요한 과제 중 하나입니다. 이 균형이 잘 맞아야 에이전트가 최적의 전략을 찾아낼 수 있어요. 적절한 시점에 탐험과 탐사를 조절하는 것이 매우 중요합니다.
초반에는 다양한 경험을 쌓기 위해 탐험을 많이 하고, 점점 그 경험을 바탕으로 탐사를 늘려가는 방식이 일반적입니다.

4. 균형을 맞출 수 있는 대표적인 방법들

1. Epsilon-Greedy 방법

처음에는 많이 돌아다니고, 나중에는 잘 아는 길로 가기
  • ‘무작위로 해볼까, 아는 걸 해볼까?’를 확률로 결정
  • 예를 들어 10번 중 1번은 새로운 행동(탐험), 나머지 9번은 확실한 행동(탐사)를 합니다.
  • 이 확률(ε)은 학습 초기에는 높게 시작하고, 시간이 지나면서 점점 줄여서 탐험을 줄입니다.

 

2. Softmax 방법 (확률로 고르기)

인기 많은 식당에 자주 가지만, 가끔은 덜 유명한 곳도 가보는 유형
  • 모든 행동에 점수를 매기고, 점수가 높은 행동일수록 선택할 확률이 높아지게 만듭니다.
  • 단, 점수가 낮더라도 완전히 무시하지 않기 때문에 탐험도 자연스럽게 일어납니다.

 

3. Upper Confidence Bound (UCB, 똑똑한 탐험법)

‘이 식당은 안 가봤으니까, 한번쯤은 가보자’는 식으로 정보 수집이 중요
  • 보상도 중요하지만, 정보가 부족한 행동은 일부러 해보려 합니다.
  • 아직 많이 시도하지 않은 행동에 기회를 줘서, 그 행동이 좋은지 확인합니다.

 

 

공부하다보니 강화학습은 실제 삶을 컴퓨터로 혹은 공학적으로 표현한 것과 비슷하다는 생각이 듭니다.

새로운 도전을 할지, 익숙한 길을 갈이 끊임없이 선택을 반복하고. 적절하지 못한 선택을 했을 때는 먼 길을 돌아가기도 하는 것 처럼요.

하지만 결국 시간이 지나면서 적절한 학습의 방법을 찾을 수 있지 않을까요?