RL勉強記録: Planning by Dynamic Programming

今日はDavid Silver先生のUCL Course on RLのLecture3を見ました。

www.youtube.com

内容的にはこんな感じでした。

Policy evaluation
Policy iteration
Value iteration
プラス計算効率化のアイデア

Udacity DeepLearning Nanodegreeでやっていた内容ではあるんだけど、さらっとしか説明が無かったので、Policy iterationとValue iterationの違いを聞き直してよかった。
数式だけじゃなくて、図が出てくるのも理解の助けになりました。
V, π, ⟨S,A,P,R,γ⟩ とか出てきても怯まなくなってきた。笑

このあたり今まで無駄に時間かけて来ているので以下改善点:

Advanced なことから始めるのではなく、必要最低限な基本を確認してから取り組む
- いきなら DeepRLではなく、RLとその問題点の理解をするべきだった
集中して短期間で理解する
- 座学はノートを取りながら集中して理解しきる
英語だけで勉強することにこだわらずに、日本語の資料にも頼る

jwata blog

勉強の記録や思ったことなど

RL勉強記録: Planning by Dynamic Programming