[RL]on-policy와 off-policy
Scroll Downon-policy와 off-policy의 차이 - ‘단단한 강화학습 by richard sutton’
on policy
알고리즘에 사용하는 정책을 평가, 향상.
Ex) epsilon-greedy policy
off policy
사용하지 않는 정책을 평가, 향상.
- target policy: 학습 대상이 되는 정책
- behavior policy:
on-policy와 off-policy의 차이 - ‘단단한 강화학습 by richard sutton’
알고리즘에 사용하는 정책을 평가, 향상.
Ex) epsilon-greedy policy
사용하지 않는 정책을 평가, 향상.