jwata blog

勉強の記録や思ったことなど

RL勉強記録: Planning by Dynamic Programming

www.youtube.com

Slides Notes

最後のレクチャーは、ゲームにおけるRLのケーススタディ

  • Search (minimax, monte carlo) は必要になることがほとんど
  • ValueFunction をLinearやNon-Linearで近似する
  • Featureはエキスパートの知識だったり、Binaryだったり
  • Self-playで練習する

など

長かったけど全10回の講義を完了しました!
Mooc以外で英語のコースを完走するのは初めてなので、自信になった。

次のステップ

  • AssignmentExamをこなす
  • このコースでは強化学習の目次を理解したくらい。あとは手を動かしてアプリケーションを開発できるようにしたい。
  • Deep強化学習の動画を見る

振り返り

  • 1回の講義が>1.5hなので、集中して終わらせる時間が取りづらい (聞き直しや休憩をするので2hは必要)
  • Moocと違い確認テストがない

トライ

  • 講義を止めてプログラムを動かしたり、数式を自分で書いて理解する時間をとって理解深めながら進める
  • コースを完了するまでの期間を長めに見積もる
    • 1コース2ヶ月間くらい
  • コースを細かく分割する
    • 2週間くらいで 講義->演習のサイクルを回したい
    • 他にやりたいことがあればコースの続きは後回しでもよい