IT、プログラミング
こんにちは!この記事は Solr Advent Calendar 2017 の1日目の記事です! https://qiita.com/advent-calendar/2017/solr さて、最近のハードウェア、特に RAM の容量の増加と QPS の増加などに伴い、それにあった malloc が登場してきています。特に有名なの…
Lucene/Solr 7 が先日リリースされました! Lucene/Solr 7 の新機能も気になるところですが(別エントリでまとめようかと)、7 では index-time boost の機能が無効になるとの情報をキャッチしました。 Lucene/Solr 7.0にてインデクシング時重み付け指定でき…
こんばんは!宿題が遅れてすいませんw 今日は、ちょっとポエムみたいになるので余り役に立たないかもしれませんが、G1GC とOSSコミュニティのお話です。 お約束の、この記事は、Solr Advent Calendar 19日目の記事です。 qiita.com きっかけ ツイッター某所…
こんにちは!今日は Solr の小ネタを書こうかと思います。この記事は Solr Advent Calendar 2016 の16日目の記事です! qiita.com qf に存在しないフィールドを含めると、q に指定したオペレータが検索キーワードとして扱われる。 今日ご紹介するのは、罠と…
こんにちは!久しぶりの Lucene Solr 勉強会です。 メモを公開しますー。 NLP4Lを使ったランキング学習 株式会社シーマーク 山本 高志 様 第19回 Lucene/Solr勉強会資料 「NLP4Lを使ったランキング学習」 from 高志 山本 www.slideshare.net 講演内容メモ Ap…
こんにちは!ご無沙汰しております。 この記事は Solr Advent Calendar 2016 の 1日目です! qiita.com 一日目の出だしにしてはかなり渋め(アドバンスド)な内容かなと思いますが、SolrCloud のリカバリー処理についてコードを読んだり調べてみたので書いて…
こんにちは! fluentd の兄弟で、オープンソースのバルクローダー Embulk の Solr 用 Output プラグイン embulk-output-solr を公開しました。 ぜひご利用ください。Github のリポジトリは以下です。 https://github.com/yahoojapan/embulk-output-solr 使い…
だいぶ時間が立ってしまいましたが、Solr 6 がリリースされました!というわけで、Solr 6 の新機能をドキュメントから調査してみました。調査する新機能は、yonik さんの以下のエントリを参考にしました。*1 http://yonik.com/solr-6/ Parallel SQL https://…
よしだです。今日は Solr のパッチを作ったり機能追加をするために必要な開発環境の構築手順を公開してみたいと思います。subversion からのチェックアウトからeclipseの環境構築までをカバーします。 前提条件 以下のソフトウェアは導入、設定済みとします…
取り急ぎ、公開しておきます! https://solr.doorkeeper.jp/events/32633 タイトル:「Solrの対話型ゲームへの応用」 株式会社リクルートテクノロジーズ 大杉様 / 株式会社NTTデータCCS 鈴木 脳内彼氏具現化計画 (脳カレXGAME) http://atl.recruit-tech.co.j…
今年ぐっと来た エイプリルフールネタ。本気だと思って深夜に読んでしまいましたw 字が小さいよ! JIRA のチケットまであるから本気だと思ったわ! 昨日 4/1 エイプリルフールの日に Spark の開発主体である、databrics 社のブログで Apache Spark 2.0 の目指…
こんばんは! 去る日曜日に行われました、Learning Spark 読書会にてお時間を頂いて LT をさせていただきました。手持ちの小ネタを集めたコネタ集的な LT でしたが、参考になったなどの感想いただき、とても嬉しかったです!また、ネタがまとまったら機会を…
今日は、Hadoop のセミナーを見るために IIJ さんにお邪魔してきました。 内容としては、Hadoop の歴史と現状の流れを技術的な面から紐解いた第一部と、Hadoop コミュニティやオープンソースコミュニティを解説した二部という構成でした。技術的な面では、何…
どうも!最近、いじり倒している Spark の読書会があるとことで、参加してきましたので、メモを公開! http://readlearningspark.connpass.com/event/11846/ 本はこちら!英語版のみですが、Spark の実質初の実践的な解説書です。 Learning Spark: Lightning…
どうも!翻訳者の角さんから献本いただきました。人生初。頂いてから随分たってしまいましたが、僭越ながら書評させていただければと思います。 本書、LEAN ANALYTICS は、一連のリーンシリーズの最新作です。他のシリーズと同様に、主にいわゆるスタートア…
どうも! Solr がメジャーバージョンアップしましたね!いぇい。 というわけで、lucidworks 社のブログエントリーから今回のハイライトを見ていきたいと思います。 Apache Solr 5.0 Highlights - Lucidworks Apache Solr 5.0 Highlights - Lucidworks 所感と…
どうも!今日も勉強会に参加いたしました。 今日の勉強会は、初心者向けから上級者向け、ハイパフォーマンスから自然言語処理を活用したディープダイブまで、とかなり幅広く面白い勉強会でした。個人的に面白かったのは、はてなの事例 B!KUMA は Elasticsear…
どうも!最近 Spark を触りたおしているよしだです。 先日、いつものように改修をしていたら、例外がでるようになってしまい、1日つぶしてしまったので皆様が同じ轍を踏むように、共有しようと思います(笑) 結論から言えば、Spark において、 RDD のネス…
どうも!今年の初エントリーです。今年もよろしくお願い致します。 今回は、Apache Spark 1.2.0 を Amazon EMR で動かしてみることに挑戦しました。Spark ではずっと遊んでいたんですが、MLLib をつかうのが目的だったので開発中はクラスタで動かすひつよう…
このエントリーは、Machine Learning Advent Calendar 2014 - Qiita の15日目の記事です。 まずはじめに、初心者向けの記事です。機械学習に興味があって、とりあえずレコメンドをやってみたいけど、数学とか線形代数とかわからないし、Spark も Hadoop も概…
どうも!ちょっと仕事で Elasticsearch + Kibana (ELK) と Splunk の比較を簡単に調べてみたので公開します。 先にまとめ。 ELK は、OSS で安くクイックスタートできるので、データソースが明確で、ソースに対応しており、導入できる技術者がいる場合におす…
どうも!今日も勉強会に参加していますーので、勉強会メモを公開します。@yamakatu さんがお休みで残念! 「はじめまして、Spark&MLlib 」 株式会社 NTT データ 土橋さん hadoop はスループットを重視しているため、レイテンシの低さが求められる処理や、複…
どうも!Amazon CloudSearch が値下げされたようなので、内容をまとめてみました。 なお、内容の正誤については一切こちらでは保証しませんので、きちんとご自分でご確認くださいますようお願いします。 http://aws.amazon.com/jp/blogs/aws/cloudsearch-pri…
どうも!久しぶりのエントリーです。 今日も elasticsearch の勉強会に参加してきましたので、勉強会メモを共有します。イベントの詳細は、こちら↓からどうぞ。 大谷さん、登壇者の皆様、リクルートテクノロジーズ様、いつもありがとうございます! http://e…
どうも! かなり出遅れ感ありますが、Amazon CloudSearch のアップデートの確認と、特に目玉機能の日本語用ユーザー辞書を試してみました。ところで、他の CJKV のユーザー辞書に先駆けて日本語で・・というのはちょっと嬉しいですね。 リリースノート Relea…
どうも! 社内向けのデモのため EC2 上に、elasticsearch を立てていたのですがその際に直面した課題と解決策を紹介したいと思います。 私のいる会社のネットワークは、セキュリティや監査を目的として、HTTP Proxy を経由してインターネットにつながります…
どうも! Elasticsearch の ZenDiscovery は、同一ネットワーク上の ES を発見し、クラスタに追加することが出来る機能ですが、クラスターに入った後は、シャードの再分配が自動で行われます。これにより、Solr と比べても非常に簡単にノードの追加が可能に…
Kibana 4 Beta1 リリースされましたね!今回の目玉は Aggregation が使えることと、デザインの全面変更でしょうか。個人的には、白バックの画面はスッキリしていて大変好みですが、大幅な変更なので賛否ありそうですね。また、クエリとグラフ作成の画面が分…
AWS の Tokyo リージョンに作った仮想マシンとと、GCP こと Google Cloud Platform の Asia リージョンに作った仮想マシンのレイテンシを比較しました。 AWS の Tokyo リージョンは 10ms ほど。さすがは国内DS。 Google も 45ms 程度と思ったほど遅くない。…
先日、elasticsearch 1.4.0 Beta1 がリリースされましたね。前々回の勉強会で聞いていたとおりで、安定性の向上が中心のエンハンスメントでした。詳細は、johtani さんの記事をどうぞ。 elasticsearch 1.4.0.Beta1のリリース - @johtaniの日記 2nd elasticse…