jwata blog

勉強の記録や思ったことなど

RL勉強記録: Model-Free Prediction

ReinforcementLearning

www.youtube.com

今日は Model-Free Prediction 、Control は次回のレクチャーとのこと。以下内容

Monter-Carlo (MC) Learning
- エピソードの最後まで見て、value function を更新
Temporal-Difference(TD) Learning
- TD(0)では次のステップまで見て、value function を更新
MC vs TD
- varience と bias のトレードオフ、MDPでは基本的にTDの方が効果的
TD(λ)
- TD(0) -> TD(∞) = MC
- averaging
  - n-steps returns を平均化することでよりロバストに
- λ-return
  - weighted geometric mean
  - λとαを調整してMCとTD(0) スイートスポットを見つける

MCとTDの違いを丁寧に例やイラストを入れて丁寧に説明してくれた回だった。
最後の方が駆け足だったけど、実装するときにもう一度振り返りたい。