よしだのブログ

サブタイトルはありません。

2014-09-01から1ヶ月間の記事一覧

Solr のクエリログを fluentd と kibana で可視化

かなり遅ればせながらですが、ELK*1を試してみました。 Solr は検索機能としては、十分すぎるほどの機能があるのですが、運用系のUIがプロプライエタリな検索エンジンに比べて弱い部分があります。例えば、クエリログの分析画面がそれだったりしますが、そこ…

Solr 4.10 のリリースハイライト

リリースから1ヶ月近く立ってしまいましたが、9月3日にSolr 4.10 がリリースされました。というわけで、リリースハイライトを整理してみました。 http://lucene.apache.org/solr/solrnews.html#03-september-2014-apache-solr-4100-available Solr Cell で…

Solr の block join を調べてみたけど、ちょっと違ったという話。

Twitter でこんな投稿をしていたのですが。Elasticsearch のネストの話で、Elasticsearch のドキュメントの定義は、従来の検索エンジンと異なり、ドキュメントやフィールドをネストでき、子ドキュメントだとか子フィールドを持つことができます。 まぢか、す…

勉強会メモ - 第6回elasticsearch勉強会

どうも!久しぶりの勉強会参加です。 今日も大谷さん、スピーカーの皆様、ならびにリクルートテクノロジーズ様、ありがとうございました! Aggregationあれこれ Elasticsearch Inc. 大谷さん @johtani 1.0から導入、検索結果に対する集計機能。facet よりも…

kuromoji のサイトに行くと、トークナイズの処理を分析することができる。

前回の記事の続きです。Solrでうまくヒットしない理由を調べていくと、kuromoji の中に入っている mecab-ipadic という辞書に行き着きました。辞書の中に設定されている、単語コストと連結コストの値がうまく設定されていないということが調べたところ分かり…

Solr + kuromoji で単語の切れ方がおかしかったのでガッツリ調べてみた、理由と調べ方その方法を公開します!

調査のきっかけは「デジタル一眼レフ」という文字列が含まれているフィールドに「一眼レフ」で検索してもヒットしないという現象です。日本語の形態素解析をつかった検索では結構在りがちで、大体ユーザー辞書に登録すれば良くなるのですが*1、今回は表面的…

Elasticsearch 用 インデックス作成処理を java で書いた。

Java の API を使って勢いで書いてみたら、結構簡単でした。まあ、基本は JSON にして、PUT するだけですしね。 社内で使っている、クローラのフレームワークに沿って書いたのでそのままでは使えないと思いますが、ちょっと改変すれば行けると思います。 依…

elasticsearch の plugin マネージャー用 proxy の設定方法@Windows

kuromoji が何故か素直に入らなかった。。git clone して git tag して、mvn clean install で、plugin -i -f で OK !— よしだ (@yoshi0309) 2014, 9月 3 先日はお騒がせして申し訳ありませんでした。改めて、確認しました。結果、プロキシの設定がきちんと…

Solr 風 Dynamic Mapping Template を作った。(Elasticsearch 1.3.2)

Elasticsearch で、Solr のデフォルトのスキーマに定義されているダイナミックフィールドを再現したかったので mapping ファイルを作ってみました。細かいテストはやっていませんが、多分うまくいくかと。 作った経緯。 Elasticsearch の特長的な機能の一つ…