jwata blog

勉強の記録や思ったことなど

2018-09-01から1ヶ月間の記事一覧

RL勉強記録: Planning by Dynamic Programming

www.youtube.com Slides Notes 最後のレクチャーは、ゲームにおけるRLのケーススタディ Search (minimax, monte carlo) は必要になることがほとんど ValueFunction をLinearやNon-Linearで近似する Featureはエキスパートの知識だったり、Binaryだったり Sel…

RL勉強記録: Exploration and Exploitation

www.youtube.com Slides, Notes (スライドが講義の内容と違うので要注意。) 今回はbanditアルゴリズムがメインの授業。 先日業務で勉強していた範囲なので復習だったんだけど、UCBとかThompson samplingとか今日はスンナリ理解できた。 # 理解のしやすさ 講…

RL勉強記録: Integrating Learning and Planning

www.youtube.com Slides, Notes 前回から結構時間が空いてしまった。あと2講義だからやりきろう。