RL勉強記録: Model-Free Prediction
今日は Model-Free Prediction 、Control は次回のレクチャーとのこと。以下内容
- Monter-Carlo (MC) Learning
- エピソードの最後まで見て、value function を更新
- Temporal-Difference(TD) Learning
- TD(0)では次のステップまで見て、value function を更新
- MC vs TD
- varience と bias のトレードオフ、MDPでは基本的にTDの方が効果的
- TD(λ)
- TD(0) -> TD(∞) = MC
- averaging
- n-steps returns を平均化することでよりロバストに
- λ-return
- weighted geometric mean
- λとαを調整してMCとTD(0) スイートスポットを見つける
MCとTDの違いを丁寧に例やイラストを入れて丁寧に説明してくれた回だった。
最後の方が駆け足だったけど、実装するときにもう一度振り返りたい。