RL勉強記録: Planning by Dynamic Programming
最後のレクチャーは、ゲームにおけるRLのケーススタディ
- Search (minimax, monte carlo) は必要になることがほとんど
- ValueFunction をLinearやNon-Linearで近似する
- Featureはエキスパートの知識だったり、Binaryだったり
- Self-playで練習する
など
長かったけど全10回の講義を完了しました!
Mooc以外で英語のコースを完走するのは初めてなので、自信になった。
次のステップ
- Assignment とExamをこなす
- このコースでは強化学習の目次を理解したくらい。あとは手を動かしてアプリケーションを開発できるようにしたい。
- Deep強化学習の動画を見る
振り返り
- 1回の講義が>1.5hなので、集中して終わらせる時間が取りづらい (聞き直しや休憩をするので2hは必要)
- Moocと違い確認テストがない
トライ
- 講義を止めてプログラムを動かしたり、数式を自分で書いて理解する時間をとって理解深めながら進める
- コースを完了するまでの期間を長めに見積もる
- 1コース2ヶ月間くらい
- コースを細かく分割する
- 2週間くらいで 講義->演習のサイクルを回したい
- 他にやりたいことがあればコースの続きは後回しでもよい