jwata blog

勉強の記録や思ったことなど

RL勉強記録: Planning by Dynamic Programming

ReinforcementLearning

www.youtube.com

最後のレクチャーは、ゲームにおけるRLのケーススタディ

Search (minimax, monte carlo) は必要になることがほとんど
ValueFunction をLinearやNon-Linearで近似する
Featureはエキスパートの知識だったり、Binaryだったり
Self-playで練習する

など

長かったけど全10回の講義を完了しました！
Mooc以外で英語のコースを完走するのは初めてなので、自信になった。

次のステップ

Assignment とExamをこなす
このコースでは強化学習の目次を理解したくらい。あとは手を動かしてアプリケーションを開発できるようにしたい。
Deep強化学習の動画を見る

振り返り

1回の講義が>1.5hなので、集中して終わらせる時間が取りづらい (聞き直しや休憩をするので2hは必要)
Moocと違い確認テストがない

トライ

講義を止めてプログラムを動かしたり、数式を自分で書いて理解する時間をとって理解深めながら進める
コースを完了するまでの期間を長めに見積もる
- 1コース2ヶ月間くらい
コースを細かく分割する
- 2週間くらいで講義->演習のサイクルを回したい
- 他にやりたいことがあればコースの続きは後回しでもよい