f:id:yoshi0309:20140421200217j:plain どうも！Elasticsearch の勉強会に参加しました。勉強会メモです。上の写真は勉強会でのいただきものです。ステッカーげっと（笑）。その場で、MacBook Air に貼りました（笑）。

追記：早速 ES にトライしました。こちらもどうぞ！

アナライズ処理の仕組みとクエリDSL

株式会社シーマーク　大谷　純さん　@johtani

転置インデックスとは？ (割愛)
アナライズ処理
- 単語に区切る処理、フィールドごとにアナライズ処理を定義できる、アナライザー
- 検索時とインデックス処理時に動く
- char_filter 、 tokenizer 、token_filter
- char_fileter は、文字単位で処理が可能。
- tokenizerは、単語単位に分割する。
- token_filter は、単語単位で処理が可能。ベースフォームへの変換、読みがなの展開など。
- トークンの業内での位置、文書全体での位置(start/offset)などもインデックスに出力される
クエリDSL
- ドキュメントと検索クエリでマッチするようにアナライズ処理を作るように気をつける必要がある
- アナライズしない検索クエリもあるので、確認して使うように。
extended_analyze プラグイン
- Solrのアナリシス画面に類似する機能をプラグインで実装。
- Sensu はクエリの補完をしてくれるので、便利。開発用途ならフリー。
- アナライズの結果を json で出力する、画面は用意されていない。

elasticsearch-hadoopを使ってごにょごにょしてみる

株式会社マーズフラッグ R&D部　やまかつさん　@yamakatu

elasticsearch-hadoopをつかってごにょごにょしてみる from Katsushi Yamashita

株式会社アットウェア佐竹雅央さん @madgaoh 河村康爾さん @ijokarumawak

Couchbase Server とは No SQL
メモリ + ストレージのハイブリッド、JSON、スキーマレス、スケールアウト可、TTL設定可能、REST API でノード管理可能。データ横断的な処理は苦手
なので、elasticsearch と組み合わせて苦手を克服。
連携プラグインがあり、連携が可能 Couchbase Plug-in for Elasticsearch。Elasticsearch へデータを流しこむことができる
Plugin が couchbase の XDCR のプロトコルをエミュレートするjettyサーバーを起動する。XDCR経由でデータを登録する。
XDCR は、通常 couchbase 同士のレプリケーションをやりとりするプロトコル。レプリケーション先で elasticsearch を指定できる。
デモ：rails + couchbase + elasticsearch
現状のリリースは 0.9 までしか対応していない
すでに大量のデータがある場合は、XDCR の連携設定で流量を絞る必要がある。また、es のキューからあふれることもあるので、検証などでは注意。
TTL 機能は、es 側では厳密でないので注意

Wantedly, Inc 内田誠悟さん @spesnova

WANTEDLYについて、リクルーティングの会社、採用以外にも仕事を楽しくするをテーマにツールなども提供している
ユーザー名、自己紹介文などの検索に利用
通常の検索に加え、auto complete 用のインデックスを分けて使っている
通常用：件数３５万サイズ２GB、オートコンプリート：９万サイズ１GB
elasticsearch-ruby は tire （開発が終わっている・・）
クラスタは m1.small ２台
プラグイン/ Head、HQ、Marvel (開発環境のみ)、Kuromoji
公式リファレンスは勉強するのにはおすすめしない、例が部分的すぎてわかりにくい。Elasticsearch workshop のスライドが分かりやすい
ブログおすすめ。
ユーザー検索は項目が多く、さらに項目毎にプライバシーレベルがある。(フレンドまでとか、全体公開とか) レベルに応じて、検索に引っかけて良い項目のみを検索している。
開発では、bootstrapスクリプトを作っており、同じ開発環境をセットアップできるように工夫している。
リリース後のスキーマ変更は、２セット用意しておいて ELB で振り替えている。