jwata blog

勉強の記録や思ったことなど

RL勉強記録: Model-Free Prediction

www.youtube.com

Slides, Notes

今日は Model-Free PredictionControl は次回のレクチャーとのこと。以下内容

  • Monter-Carlo (MC) Learning
    • エピソードの最後まで見て、value function を更新
  • Temporal-Difference(TD) Learning
    • TD(0)では次のステップまで見て、value function を更新
  • MC vs TD
  • TD(λ)
    • TD(0) -> TD(∞) = MC
    • averaging
      • n-steps returns を平均化することでよりロバスト
    • λ-return
      • weighted geometric mean
      • λとαを調整してMCとTD(0) スイートスポットを見つける

MCとTDの違いを丁寧に例やイラストを入れて丁寧に説明してくれた回だった。
最後の方が駆け足だったけど、実装するときにもう一度振り返りたい。