jwata blog

勉強の記録や思ったことなど

2018-01-01から1年間の記事一覧

Go concurrency pattern

最近仕事でGolangを使い始めたので、gorutineのコンセプトを勉強 こちらの講演が参考になった。 www.youtube.com 例で使われているコードを自分でも動かしてみた。 github.com 次にやること * 同じ人のConcurrency Is Not Parallelismも見る * 繰り返し紹介…

RL勉強記録: Planning by Dynamic Programming

www.youtube.com Slides Notes 最後のレクチャーは、ゲームにおけるRLのケーススタディ Search (minimax, monte carlo) は必要になることがほとんど ValueFunction をLinearやNon-Linearで近似する Featureはエキスパートの知識だったり、Binaryだったり Sel…

RL勉強記録: Exploration and Exploitation

www.youtube.com Slides, Notes (スライドが講義の内容と違うので要注意。) 今回はbanditアルゴリズムがメインの授業。 先日業務で勉強していた範囲なので復習だったんだけど、UCBとかThompson samplingとか今日はスンナリ理解できた。 # 理解のしやすさ 講…

RL勉強記録: Integrating Learning and Planning

www.youtube.com Slides, Notes 前回から結構時間が空いてしまった。あと2講義だからやりきろう。

RL勉強記録: Policy Gradient Methods

www.youtube.com Slides, Notes 7回目の講義はPolicy Gradient Methods。様々なActor-Criticの紹介でした。 今回は大分理解が追いつかなかったが、途中で動画止めて日本語の解説記事で補足して聞いていました。 この方のブログが強化学習について簡潔に解説…

RL勉強記録: Value Function Approximation

www.youtube.com Slides, Notes Value functionの線形/非線形近似。DQNの解説まであり、やっと通常のRLからDQNまでの流れが理解できてきた。 ただ2018年8月現在、DQNも古いという風潮があるので更に勉強していかないと。 重要な授業にしては駆け足の説明でち…

RL勉強記録: Model-Free Control

www.youtube.com Slides, Notes David Silver先生のRLの講義、第5回目はModel-Free Control やっとoptimal policyを求める手法まで来ました、ここまでちょい長かったです。 今回の講義では下記の手法が紹介されました。やっとQ-Learningまできましたね。 こ…

RL勉強記録: Model-Free Prediction

www.youtube.com Slides, Notes 今日は Model-Free Prediction 、Control は次回のレクチャーとのこと。以下内容 Monter-Carlo (MC) Learning エピソードの最後まで見て、value function を更新 Temporal-Difference(TD) Learning TD(0)では次のステップまで…

RL勉強記録: Planning by Dynamic Programming

今日はDavid Silver先生のUCL Course on RLのLecture3を見ました。 www.youtube.com [Slides],[Note] 内容的にはこんな感じでした。 Policy evaluation Policy iteration Value iteration プラス計算効率化のアイデア Udacity DeepLearning Nanodegreeでやっ…

RL勉強記録: Markov Decision Processes

UCL Course on RL by David Silver のLecture2はMarkov Decision Processesの定義について。 いつも混同してしまっていたので、おさらいに良かった。 www.youtube.com Slides ノート https://www.evernote.com/l/ADy-blY1XhZMyYgwME5IaI5y2dhQ4piSqDs

RL勉強記録

前々からReinforcemant Learning / Deep RL を勉強しようとしているけど、 中途半端に止まってしまっていたので再開。 今まで勉強したことは Udacity Deep Learning Nanodegree の中で、OpenGymのCartPoleとかFlying copterの制御の演習 UC Berkeley, CS294 …

My experience with Udacity Deep Learning Nanodegree

This week, I finished Udacity Deep Learning Nanodegree (DLND) which I started November 2017. I will write about my experience with the course. And I hope it will help those who are considering to take the course decide to enroll. TL;DR Uda…

Word2vecでセマンティックジョブ検索

概要 前回は求人情報に含まれる単語をWord2vecで学習し、職種名やスキルの類似単語を取得できることを確認しました。 今回はそれらの類似単語を活用して、Elasticsearchでセマンティック検索をするデモを紹介します。 求人情報サイトでは、検索クエリの職種…

ジョブマッチングの為のword2vec

Qiitaから移行しました。 概要 求職者が仕事を探す時に、完全にスキルや職種名がマッチすることは多くはありません。 さらに表記揺れが多いこともあって、従来のキーワードマッチングで適切な求人を探すのは難しいのが現状です。 そこで今回、word2vecを使っ…