jwata blog

勉強の記録や思ったことなど

RL勉強記録: Model-Free Control

www.youtube.com

Slides, Notes

David Silver先生のRLの講義、第5回目はModel-Free Control
やっとoptimal policyを求める手法まで来ました、ここまでちょい長かったです。

今回の講義では下記の手法が紹介されました。やっとQ-Learningまできましたね。
この辺もサラッと勉強すると違いとかモチベーションがわからなかったんですけど、今は各手法の違いが理解できました。

  • On policy Monte Carlo
  • On policy TD Learning
    • Sarsa
  • Off policy
    • Q-Learning

そろそろ手を動かして勉強したアルゴリズムを使ってみたいです。