感想戦：aggrigation から見える検索エンジンの次 - 第5回 Elasticsearch勉強会

どうも！昨日は Elasticsearch 勉強会へ参加してきました。恒例のメモの半リアルタイム更新をしようと思っていたのですが、全編英語のためメモをしている余裕が基本的にありませんでした。理解するのに精一杯で・・、前半についてはある程度取れました。

というわけで、今回はメモ、というよりは感想戦で挑もうかなと思います。

Elasticsearch の Next Vision

Elasticsearch の Next Vision の質問を QA タイムにしたのは私です。。*1

CTO Shay に答えていた内容としては、２点あり、まず、aggrigation の機能的な充実、便利な関数をより追加したり、ある程度精度を下げてもパフォーマンス重視にできるパラメータを追加したりしたいと熱く語っておられました。もう一点は、インデックスデータの安定性を高める、チェックサム機能の追加でした。lucene そのものにチェックサムを、すでにコミットしマージされているとのことで、インデックスの破損が無いことを確認できるようになることで、インデックスの移動などがより安全にできるようにするとのことです。また、万一破損した場合、レプリカやスナップショットなどのバックアップがなければ、現状クロールしなおしだが、これを短くする方法を考えたい、ペタバイトクラスのデータを管理できるようになることも、大事な目標の一つだとおっしゃっていました。

aggrigation 機能について

私がこの中でとても感銘をうけたのは aggrigation 機能の充実についてでした。そのことについて続ける前に、簡単に es の aggrication 機能について説明します。リファレンスは以下。

http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/search-aggregations.html

一言で言うなら、SQL の集約と類似の機能になるかと思います。セミナーの例で出ていたのは、質問掲示板において、python タグがついている投稿を検索し、ヒットした投稿の「平均」コメント数を取得し、さらにトップコメンターと各コメンターの得た「最高」評価を一度のクエリーで得る、というようなものです。すなわち、「平均」「最高*2」といった集計・集約関数を使うことができ、さらに入れ子にすることが可能だということです。こちらもQAで答えて頂いていたのですが、Kibana 4 でフルサポートする予定とのことで、これにより更に柔軟なビジュアライズが可能になると思います。（現状は、ヒットした件数を積み上げたグラフは作れても、ヒットした項目の値を合計して表示するという機能は Kibana 3 にはないようです）

"explorer data" と機械学習

私が、aggrigation 機能についてすごいなと思った理由は explorer data とおっしゃっていた点で、aggrigation により、データを集計する粒度や角度を柔軟に変えることで、まさに”データを探検する”ことができるという点です。もしこれが、十分なパフォーマンスを保ってできるのであれば、かなり衝撃的だと思います。時系列に並ぶデータはとりあえず es + kibana 入れとけば、簡単な集計や分析ぐらいは十分となるかと思います。

また、machine learning 的な機能も付けたいとおっしゃっていたように思います。*3実は、プロプライエタリな検索エンジンでは FAST や Autonom IDOL のように、昔から機械学習的な機能を持っている検索エンジンはありましたが、多くは tf-idf による term vector を元にした類似文書検索やファセット、vector を使ったクラスタリングといったもので絞られたものだったし、正直なところ実用性はあまりありませんでした。es についてはどうなるか、単なる個人的な予想と希望ですが、aggrigation の関数としてつけるのであれば、集計・集約という観点になると思いますので、単にその範囲にはとどまらずより実用的な機能に仕上げてくるのではと思っています。

具体的にどのような機能を作るのかはわかりませんが、個人的には”教師あり”の分類アルゴリズムを搭載すると面白いのではと思いました。例えば Nural Network などのアルゴリズムを組み込んで、自動でタグの推定、タグ付けができるとか面白いのではと思いました。タグが予め設定されている文書は学習データとして扱い、モデルを作成し、タグが付けられていない文書のタグを推定するということは理屈上は可能なんじゃないかと。あるいは、線形回帰で時系列に並べたデータの推移を予測する、というのも面白いかと思います。kibana で可視化されると更にステキなことになりそうな予感です。

なんとなく、そこまでやろうとすると、spark などと外部のツールと連携して、学習や判別用のクラスタを別途用意しないといけないような気がしますが。とにかく、実現してくれそうな気にさせてくれるスペシャルセミナーでした。

最後に、主催の @johtani さん、Elasticsearch 社の皆様、会場・運営のリクルートテクノロジーズの皆様、ありがとうございました！