RL勉強記録: Model-Free Control

David Silver先生のRLの講義、第5回目はModel-Free Control
やっとoptimal policyを求める手法まで来ました、ここまでちょい長かったです。

今回の講義では下記の手法が紹介されました。やっとQ-Learningまできましたね。
この辺もサラッと勉強すると違いとかモチベーションがわからなかったんですけど、今は各手法の違いが理解できました。

そろそろ手を動かして勉強したアルゴリズムを使ってみたいです。

jwata blog