jwata blog

勉強の記録や思ったことなど

RL勉強記録: Planning by Dynamic Programming

今日はDavid Silver先生のUCL Course on RLのLecture3を見ました。

www.youtube.com

[Slides],[Note]

内容的にはこんな感じでした。

  • Policy evaluation
  • Policy iteration
  • Value iteration
  • プラス計算効率化のアイデア

Udacity DeepLearning Nanodegreeでやっていた内容ではあるんだけど、 さらっとしか説明が無かったので、Policy iterationとValue iterationの違いを聞き直してよかった。
数式だけじゃなくて、図が出てくるのも理解の助けになりました。
V, π, ⟨S,A,P,R,γ⟩ とか出てきても怯まなくなってきた。笑

このあたり今まで無駄に時間かけて来ているので以下改善点:

  • Advanced なことから始めるのではなく、 必要最低限な基本を確認してから取り組む
    • いきなら DeepRLではなく、RLとその問題点の理解をするべきだった
  • 集中して短期間で理解する
    • 座学はノートを取りながら集中して理解しきる
  • 英語だけで勉強することにこだわらずに、日本語の資料にも頼る