RL勉強記録: Model-Free Control
David Silver先生のRLの講義、第5回目はModel-Free Control
やっとoptimal policyを求める手法まで来ました、ここまでちょい長かったです。
今回の講義では下記の手法が紹介されました。やっとQ-Learningまできましたね。
この辺もサラッと勉強すると違いとかモチベーションがわからなかったんですけど、今は各手法の違いが理解できました。
- On policy Monte Carlo
- On policy TD Learning
- Sarsa
- Off policy
- Q-Learning
そろそろ手を動かして勉強したアルゴリズムを使ってみたいです。