on-policy와 off-policy의 차이 - ‘단단한 강화학습 by richard sutton’

on policy

알고리즘에 사용하는 정책을 평가, 향상.
Ex) epsilon-greedy policy

off policy

사용하지 않는 정책을 평가, 향상.

  • target policy: 학습 대상이 되는 정책
  • behavior policy: