담당자: 석혜진
- E-Greedy 기법 소개
- E-Greedy 기법을 구현하기 위한 알고리즘 구현방법 소개
- Decaying 이 왜 필요한지, 어떻게 구현하는지 소개
E-Greedy 기법과 Decaying
E-Greedy 기법은 E&E 에서 특정 기준점을 두고 랜덤하게 기존에 익혔던(Q 기대보상중 최대값) 방법으로 액션을 취하거나 새로운 액션을 선택하는 방법입니다.
이해를 위해 점심식사 장소를 고르는 예를 생각해보겠습니다.
점심식사 메뉴를 고를때 평일에는 기존에 잘알던 맛있는 식당을 가고 주말에는 가보지 않았던 곳을 가본다고 상상해보죠.
이미 가본곳은 피자헛 이고 만족도가 80이라고 가정하겠습니다. 다른 식당은 안가봤으니 만족도는 아직 0일 것입니다. 만약 기존의 Simple Q 러닝이라면 이 경우 언제나 피자헛만 가게 될 것입니다. Q 는 현재 만족도중 가장 높은 피자헛만 알려줄 것이고 그대로 따르기만 했으니까요.
여기서 다른 곳도 탐색해보기 위해 평일에는 이미 가본곳 중 만족도가 높은 피자헛을 선택하고 주말에는 나머지 식당인 도미노피자, 파파이스, 맥도날드, 케이에프씨 중 랜덤하게 선택한다는 의미입니다. 이렇게 되면 결국 모든 곳에 가보게 될것이고 각 식당마다 만족도를 알게되어 가장 만족도가 높은 식당도 알 수 있게 될 것입니다.
위와 같은 예의 경우 7일중 평일 5일은 기존에 갔던 곳을 갔으니 5/7 의 비율로 Q 에서 알려주는 최대보상의 액션(argmax(Q)) 를 갈 것이고, 2/7 의 비율로는 랜덤한 곳으로 가게 되겠죠.
위의 비율을 e 라는 상수값으로 정하여 기존에 맛집을 가거나 새로운 곳을 탐색하는 방법이 E-Greedy 기법입니다.