담당자: 조현수

  • Discounted Reward 개념 소개
  • Discounted Reward 를 적용하기 위해 Q 업데이트 알고리즘이 어떻게 바뀌는지 설명

Discounted Reward

앞서 Simple Q Learning이 가진 문제점(항상 학습된 길로만 향하는)을 해결하기 위해서, Exploit & Exploration 알고리즘을 사용하여 최적의 길을 찾는 방법을 설명하였습니다.

Exploit & Exploration을 통해 여러가지 길들을 찾았다고 가정을 해보면 아래와 같이 학습이 되어 있을 수 있습니다. 위와 같이 학습이 된 상태를 놓고 볼때, 현재 에이전트가 위치한 곳에서는 어느 방향으로 이동을 하는 것이 좋을지 알 수 가 없습니다. 왜냐하면 에이전트 입장에선 Left로 이동해도 Down으로 이동해도 동일한 값을 얻기 때문입니다.

그래서 이러한 문제를 해결하기 위한 방법이 바로 Discounted Reward 입니다.

(내용 추가 예정)

results matching ""

    No results matching ""