RL勉強記録: Planning by Dynamic Programming
今日はDavid Silver先生のUCL Course on RLのLecture3を見ました。
内容的にはこんな感じでした。
Udacity DeepLearning Nanodegreeでやっていた内容ではあるんだけど、
さらっとしか説明が無かったので、Policy iterationとValue iterationの違いを聞き直してよかった。
数式だけじゃなくて、図が出てくるのも理解の助けになりました。
V, π, ⟨S,A,P,R,γ⟩ とか出てきても怯まなくなってきた。笑
このあたり今まで無駄に時間かけて来ているので以下改善点:
- Advanced なことから始めるのではなく、 必要最低限な基本を確認してから取り組む
- いきなら DeepRLではなく、RLとその問題点の理解をするべきだった
- 集中して短期間で理解する
- 座学はノートを取りながら集中して理解しきる
- 英語だけで勉強することにこだわらずに、日本語の資料にも頼る