よしだのブログ

サブタイトルはありません。

勉強会メモ - 第17回 Lucene/Solr勉強会

IT、プログラミング Solr 検索エンジン

取り急ぎ、公開しておきます！

https://solr.doorkeeper.jp/events/32633

タイトル：「Solrの対話型ゲームへの応用」

株式会社リクルートテクノロジーズ大杉様 / 株式会社NTTデータCCS 鈴木

脳内彼氏具現化計画 (脳カレXGAME) http://atl.recruit-tech.co.jp/noukare_game/
頭脳がSolrベース
人工無能的な？
検索の過程にたどり着くまでは一般的にストレスだが、聞く・対話を楽しむゲームでは楽しみである
普通の会話は１０００パターン用意しても、検索結果０件の割合は約５０％
一方ゲームに絞ると１００パターンまで減らすことができる
裏でフラグの状態を保存している
入稿ファイル形式：
エクセルだけで会話コンテンツを作成
フラグ管理や出力画像・テキスト全て開発可能

ここから鈴木さん

利用しているところ
LINE公式アカウント「パン田一郎」
脳カレ・脳カレ・ゲーム
その他色々
使い方
応答データのストアと検索
応答データは数万程度
Master - Slave 構成、500QPS 以上
工夫
J-POSフィルタ、品詞のフィルタを限定する、例えば名詞だけ抽出する
助動詞の「ない」という言葉も有効なので残してある (一般的な検索では助動詞は使わないが）
例）面白くない
N-Gramフィールド (N=5以上）、特定の繰り返しワードなどに対応
例）バカバカバカバカ

タイトル：「Lucene/Solr Revolution 2015参加レポート」

ヤフー株式会社メディアカンパニー検索事業本部サーチテクノロジー部宋賢佑様

Lucene/Solr Revolution2015参加レポート from Yahoo!デベロッパーネットワーク

www.slideshare.net

注目セッション：Learning to Rank in Solr
Bloombergニュース検索
ML の必要性
一日800万サーチ、4億の記事
検索クエリに対して適合率が高い検索結果を返したい、手動チューニングはコストが高い、ドキュメントの更新が常に発生する
Learning to Rank、MLR
Implicit Data と Explicit Data を元に Feature を抽出し Rank Model を作成する
Featrue は特徴点のこと（点数）
Metrics でランキングの良し悪しを判定
静的な計測方法 Presicion / Recall / F-score
オンライン CTR / Time to first click / 滞留時間
学習方法
Rank SVM など
これらのノウハウを LTR プラグインとしてまとめた (未公開)
手動でチューニングしない
リレバンシーの改善
レイテンシ維持
今後のSolr
Analytics
SQL like interface
ML
NLP
などなど

タイトル：「Apache Lucene/Solrによる形態素解析の課題とN-bestの提案」

ヤフー株式会社 CTO室大須賀稔様

第17回Lucene/Solr勉強会 #SolrJP – Apache Lucene Solrによる形態素解析の課題とN-bestの提案 from Yahoo!デベロッパーネットワーク

www.slideshare.net

アナライザのしくみ (まえふり）
文字フィルタ、トークナイザー、トークンフィルターの３ステップ
形態素解析とNgramは相反する長所短所をもつ
検索結果の評価の方法
適合値、最現地、F値(F-measure)
形態素解析では検索漏れが多く、N-Gram ではノイズが多すぎる
N-Gramの併用による課題：ノイズの大量発生、インデックス量
JapaneseTokenizerのモードによる解決：normalモード、searchモード、extendedモード
課題：意図しない分割をされるパターンがある、１つのパターンしか出力されないので複数の意味が取れるパターンに対応できない
N-best の実装
解釈によって異なる複数のパターンでの分割、複合語の分割を可能にし、再現率の向上を目指す
JapaneseTokenizerにN-best機能を追加する、既存のモードと併用、
N-Gram よりも意味がある細かい単語で分割が可能。
パッチ公開済み https://issues.apache.org/jira/plugins/servlet/mobile#issue/LUCENE-6837

タイトル：「U-NEXTにおけるSolr活用事例」

株式会社U-NEXT システム開発部秋穂賢様（@ken_aio）

U-Next ビデオ・オンデマンドの会社
フリーワード検索（インクリメンタルサーチ）、ユーザー毎のレコメンドデータのキャッシュ
レコメンドのキャシュに使った理由は、ユーザー毎のレコメンドが Redis では難しかったため。