jwata blog

勉強の記録や思ったことなど

Elasticsearch勉強会に参加してきた

今週、リクルートテクノロジーズさんで開催された Elasticsearch勉強会に参加してきました。 その時のメモと考えたこと残しておこうと思います。

開催概要

http://elasticsearch.doorkeeper.jp/events/8865

タイムテーブル (コピペ)

株式会社シーマーク 大谷 純 @johtani
タイトル:「アナライズ処理の仕組みとクエリDSL

株式会社マーズフラッグ R&D部 やまかつ さん @yamakatu
タイトル:「elasticsearch-hadoopを使ってごにょごにょしてみる」

株式会社アットウェア 佐竹雅央さん @madgaoh 河村康爾さん @ijokarumawak
タイトル: 「CouchbaseとElasticsearchが手を結んだら」

Wantedly, Inc 内田誠悟さん @spesnova
タイトル:未定

LT

株式会社富士通ソフトウェアテクノロジーズ 滝田聖己さん @pisatoshi
「Elasticsearchのスクリプティング(仮)」

ベイシス・テクノロジー株式会社 江口天さん
「Elasticsearch 向け多言語解析プラグイン

内容 / メモ

  • アナライズ処理の仕組みとクエリDSL

  • elasticsearch-hadoopを使ってごにょごにょしてみる

    • Hadoop から Elasticsearch をストレージとして活用してみた
    • 速度の問題とかなんとかなっていくのか
    • どういったユースケースで有効か
  • CouchbaseとElasticsearchが手を結んだら

    • RDBに入れると同時に、Couchbase 経由でElasticsearchにデータを流し込んでみる
    • Elasticsearchのwrite時のコストが積もり積もってくる。
  • Wantedly での活用の説明

    • 「(質問) Solrとか検討しなかったんですか?」
      「(内田さん) ぼくらは最初からElasticsearchに決めていました(`・ω・´)キリ」
      ↑ すごい熱意を感じたw
    • 実運営における問題とか共有されていたので、参考になった。
  • Elasticsearchのスクリプティング

  • Elasticsearch 向け多言語解析プラグイン

感想

前から検索システムを一度は作ってみたいと思っていて、Elasticsearchに注目していました。
今回は色んな話を聞けて温度感がわかって良かったです!
あと自分なりに向き不向きを考えてみました、

  • writeの転置インデックスの作成コストから、フィードとかリアルタイムにデータを流し込んで検索可能にするみたいなのは向かないかも
  • リアルタイムやるなら非同期に流し込むレイヤーが必要そう
    • fluentdでログ出しといて、Elasticsearchに書き込んでいくとか?
    • ボトルネック解消を頑張らずに、アプリケーション内でリアルタイムっぽく見せる工夫をするのが落とし所だと思う
  • ニュースとかブログとか、準リアルタイムに反映できればよい要件には合っていそう
  • 数分に1回バッチ回していた系をシンプルにリプレイスできるのかも

実際触ってみたいのでニュース検索とか作ってみようかな。
今回はwriteのコストの話が気になりましたが、大規模データになった時の事例など聞いてみたいです。