Discounted Reward

앞서 Simple Q Learning이 가진 문제점(항상 학습된 길로만 향하는)을 해결하기 위해서, Exploit & Exploration 알고리즘을 사용하여 최적의 길을 찾는 방법을 설명하였습니다.

Exploit & Exploration을 통해 여러가지 길들을 찾았다고 가정을 해보면 아래와 같이 학습이 되어 있을 수 있습니다. 위와 같이 학습이 된 상태를 놓고 볼때, 현재 에이전트가 위치한 곳에서는 어느 방향으로 이동을 하는 것이 좋을지 알 수 가 없습니다. 왜냐하면 에이전트 입장에선 Left로 이동해도 Down으로 이동해도 동일한 값을 얻기 때문입니다.