検索エンジン
こんにちは!この記事は Solr Advent Calendar 2017 の1日目の記事です! https://qiita.com/advent-calendar/2017/solr さて、最近のハードウェア、特に RAM の容量の増加と QPS の増加などに伴い、それにあった malloc が登場してきています。特に有名なの…
Lucene/Solr 7 が先日リリースされました! Lucene/Solr 7 の新機能も気になるところですが(別エントリでまとめようかと)、7 では index-time boost の機能が無効になるとの情報をキャッチしました。 Lucene/Solr 7.0にてインデクシング時重み付け指定でき…
こんばんは!宿題が遅れてすいませんw 今日は、ちょっとポエムみたいになるので余り役に立たないかもしれませんが、G1GC とOSSコミュニティのお話です。 お約束の、この記事は、Solr Advent Calendar 19日目の記事です。 qiita.com きっかけ ツイッター某所…
こんにちは!今日は Solr の小ネタを書こうかと思います。この記事は Solr Advent Calendar 2016 の16日目の記事です! qiita.com qf に存在しないフィールドを含めると、q に指定したオペレータが検索キーワードとして扱われる。 今日ご紹介するのは、罠と…
こんにちは!久しぶりの Lucene Solr 勉強会です。 メモを公開しますー。 NLP4Lを使ったランキング学習 株式会社シーマーク 山本 高志 様 第19回 Lucene/Solr勉強会資料 「NLP4Lを使ったランキング学習」 from 高志 山本 www.slideshare.net 講演内容メモ Ap…
こんにちは!ご無沙汰しております。 この記事は Solr Advent Calendar 2016 の 1日目です! qiita.com 一日目の出だしにしてはかなり渋め(アドバンスド)な内容かなと思いますが、SolrCloud のリカバリー処理についてコードを読んだり調べてみたので書いて…
こんにちは! fluentd の兄弟で、オープンソースのバルクローダー Embulk の Solr 用 Output プラグイン embulk-output-solr を公開しました。 ぜひご利用ください。Github のリポジトリは以下です。 https://github.com/yahoojapan/embulk-output-solr 使い…
だいぶ時間が立ってしまいましたが、Solr 6 がリリースされました!というわけで、Solr 6 の新機能をドキュメントから調査してみました。調査する新機能は、yonik さんの以下のエントリを参考にしました。*1 http://yonik.com/solr-6/ Parallel SQL https://…
よしだです。今日は Solr のパッチを作ったり機能追加をするために必要な開発環境の構築手順を公開してみたいと思います。subversion からのチェックアウトからeclipseの環境構築までをカバーします。 前提条件 以下のソフトウェアは導入、設定済みとします…
取り急ぎ、公開しておきます! https://solr.doorkeeper.jp/events/32633 タイトル:「Solrの対話型ゲームへの応用」 株式会社リクルートテクノロジーズ 大杉様 / 株式会社NTTデータCCS 鈴木 脳内彼氏具現化計画 (脳カレXGAME) http://atl.recruit-tech.co.j…
どうも! Solr がメジャーバージョンアップしましたね!いぇい。 というわけで、lucidworks 社のブログエントリーから今回のハイライトを見ていきたいと思います。 Apache Solr 5.0 Highlights - Lucidworks Apache Solr 5.0 Highlights - Lucidworks 所感と…
どうも!今日も勉強会に参加いたしました。 今日の勉強会は、初心者向けから上級者向け、ハイパフォーマンスから自然言語処理を活用したディープダイブまで、とかなり幅広く面白い勉強会でした。個人的に面白かったのは、はてなの事例 B!KUMA は Elasticsear…
これは Elasticsearch Advent Calendar 2014 - Qiita 、8日目の記事です。 Elasticsearch については、このブログや ES Advent Calendar を見ている方には不要かと思います。NewRelic とは、パフォーマンス監視サービスで、ユーザー登録を行い、サーバー上…
どうも!Amazon CloudSearch が値下げされたようなので、内容をまとめてみました。 なお、内容の正誤については一切こちらでは保証しませんので、きちんとご自分でご確認くださいますようお願いします。 http://aws.amazon.com/jp/blogs/aws/cloudsearch-pri…
どうも!久しぶりのエントリーです。 今日も elasticsearch の勉強会に参加してきましたので、勉強会メモを共有します。イベントの詳細は、こちら↓からどうぞ。 大谷さん、登壇者の皆様、リクルートテクノロジーズ様、いつもありがとうございます! http://e…
どうも! かなり出遅れ感ありますが、Amazon CloudSearch のアップデートの確認と、特に目玉機能の日本語用ユーザー辞書を試してみました。ところで、他の CJKV のユーザー辞書に先駆けて日本語で・・というのはちょっと嬉しいですね。 リリースノート Relea…
どうも! 社内向けのデモのため EC2 上に、elasticsearch を立てていたのですがその際に直面した課題と解決策を紹介したいと思います。 私のいる会社のネットワークは、セキュリティや監査を目的として、HTTP Proxy を経由してインターネットにつながります…
どうも! Elasticsearch の ZenDiscovery は、同一ネットワーク上の ES を発見し、クラスタに追加することが出来る機能ですが、クラスターに入った後は、シャードの再分配が自動で行われます。これにより、Solr と比べても非常に簡単にノードの追加が可能に…
Kibana 4 Beta1 リリースされましたね!今回の目玉は Aggregation が使えることと、デザインの全面変更でしょうか。個人的には、白バックの画面はスッキリしていて大変好みですが、大幅な変更なので賛否ありそうですね。また、クエリとグラフ作成の画面が分…
先日、elasticsearch 1.4.0 Beta1 がリリースされましたね。前々回の勉強会で聞いていたとおりで、安定性の向上が中心のエンハンスメントでした。詳細は、johtani さんの記事をどうぞ。 elasticsearch 1.4.0.Beta1のリリース - @johtaniの日記 2nd elasticse…
かなり遅ればせながらですが、ELK*1を試してみました。 Solr は検索機能としては、十分すぎるほどの機能があるのですが、運用系のUIがプロプライエタリな検索エンジンに比べて弱い部分があります。例えば、クエリログの分析画面がそれだったりしますが、そこ…
リリースから1ヶ月近く立ってしまいましたが、9月3日にSolr 4.10 がリリースされました。というわけで、リリースハイライトを整理してみました。 http://lucene.apache.org/solr/solrnews.html#03-september-2014-apache-solr-4100-available Solr Cell で…
Twitter でこんな投稿をしていたのですが。Elasticsearch のネストの話で、Elasticsearch のドキュメントの定義は、従来の検索エンジンと異なり、ドキュメントやフィールドをネストでき、子ドキュメントだとか子フィールドを持つことができます。 まぢか、す…
どうも!久しぶりの勉強会参加です。 今日も大谷さん、スピーカーの皆様、ならびにリクルートテクノロジーズ様、ありがとうございました! Aggregationあれこれ Elasticsearch Inc. 大谷さん @johtani 1.0から導入、検索結果に対する集計機能。facet よりも…
前回の記事の続きです。Solrでうまくヒットしない理由を調べていくと、kuromoji の中に入っている mecab-ipadic という辞書に行き着きました。辞書の中に設定されている、単語コストと連結コストの値がうまく設定されていないということが調べたところ分かり…
調査のきっかけは「デジタル一眼レフ」という文字列が含まれているフィールドに「一眼レフ」で検索してもヒットしないという現象です。日本語の形態素解析をつかった検索では結構在りがちで、大体ユーザー辞書に登録すれば良くなるのですが*1、今回は表面的…
Java の API を使って勢いで書いてみたら、結構簡単でした。まあ、基本は JSON にして、PUT するだけですしね。 社内で使っている、クローラのフレームワークに沿って書いたのでそのままでは使えないと思いますが、ちょっと改変すれば行けると思います。 依…
kuromoji が何故か素直に入らなかった。。git clone して git tag して、mvn clean install で、plugin -i -f で OK !— よしだ (@yoshi0309) 2014, 9月 3 先日はお騒がせして申し訳ありませんでした。改めて、確認しました。結果、プロキシの設定がきちんと…
Elasticsearch で、Solr のデフォルトのスキーマに定義されているダイナミックフィールドを再現したかったので mapping ファイルを作ってみました。細かいテストはやっていませんが、多分うまくいくかと。 作った経緯。 Elasticsearch の特長的な機能の一つ…
今回はテクニカルなメモです。 クライアントのIPアドレスで、Solr でアクセス可能かどうかを制限したい要件って結構あると思います。Apache とか Tomcat なら楽勝なのですが、デフォルトの Jetty でやってみると意外とハマったのでメモ。 環境 Apache Solr 4…