よしだのブログ

サブタイトルはありません。

IT、プログラミング

Solr で使う malloc を差し替えてみたら幸せになれるかもしれない話

こんにちは!この記事は Solr Advent Calendar 2017 の1日目の記事です! https://qiita.com/advent-calendar/2017/solr さて、最近のハードウェア、特に RAM の容量の増加と QPS の増加などに伴い、それにあった malloc が登場してきています。特に有名なの…

【Lucene/Solr 7.0】index-time boost の無効化を理解するための前提の調査

Lucene/Solr 7 が先日リリースされました! Lucene/Solr 7 の新機能も気になるところですが(別エントリでまとめようかと)、7 では index-time boost の機能が無効になるとの情報をキャッチしました。 Lucene/Solr 7.0にてインデクシング時重み付け指定でき…

【Lucene / Solr】G1GC か CMS か?

こんばんは!宿題が遅れてすいませんw 今日は、ちょっとポエムみたいになるので余り役に立たないかもしれませんが、G1GC とOSSコミュニティのお話です。 お約束の、この記事は、Solr Advent Calendar 19日目の記事です。 qiita.com きっかけ ツイッター某所…

【Solr】クエリのオペレータが無視される、仕様?!

こんにちは!今日は Solr の小ネタを書こうかと思います。この記事は Solr Advent Calendar 2016 の16日目の記事です! qiita.com qf に存在しないフィールドを含めると、q に指定したオペレータが検索キーワードとして扱われる。 今日ご紹介するのは、罠と…

第19回Lucene/Solr勉強会 #SolrJP

こんにちは!久しぶりの Lucene Solr 勉強会です。 メモを公開しますー。 NLP4Lを使ったランキング学習 株式会社シーマーク 山本 高志 様 第19回 Lucene/Solr勉強会資料 「NLP4Lを使ったランキング学習」 from 高志 山本 www.slideshare.net 講演内容メモ Ap…

SolrCloud のリカバリー処理

こんにちは!ご無沙汰しております。 この記事は Solr Advent Calendar 2016 の 1日目です! qiita.com 一日目の出だしにしてはかなり渋め(アドバンスド)な内容かなと思いますが、SolrCloud のリカバリー処理についてコードを読んだり調べてみたので書いて…

embulk-output-solr を公開しました!

こんにちは! fluentd の兄弟で、オープンソースのバルクローダー Embulk の Solr 用 Output プラグイン embulk-output-solr を公開しました。 ぜひご利用ください。Github のリポジトリは以下です。 https://github.com/yahoojapan/embulk-output-solr 使い…

Solr 6 新機能の紹介

だいぶ時間が立ってしまいましたが、Solr 6 がリリースされました!というわけで、Solr 6 の新機能をドキュメントから調査してみました。調査する新機能は、yonik さんの以下のエントリを参考にしました。*1 http://yonik.com/solr-6/ Parallel SQL https://…

Solr 開発環境構築手順

よしだです。今日は Solr のパッチを作ったり機能追加をするために必要な開発環境の構築手順を公開してみたいと思います。subversion からのチェックアウトからeclipseの環境構築までをカバーします。 前提条件 以下のソフトウェアは導入、設定済みとします…

勉強会メモ - 第17回 Lucene/Solr勉強会

取り急ぎ、公開しておきます! https://solr.doorkeeper.jp/events/32633 タイトル:「Solrの対話型ゲームへの応用」 株式会社リクルートテクノロジーズ 大杉様 / 株式会社NTTデータCCS 鈴木 脳内彼氏具現化計画 (脳カレXGAME) http://atl.recruit-tech.co.j…

Apache Spark 2.0 はスマホで動く?!

今年ぐっと来た エイプリルフールネタ。本気だと思って深夜に読んでしまいましたw 字が小さいよ! JIRA のチケットまであるから本気だと思ったわ! 昨日 4/1 エイプリルフールの日に Spark の開発主体である、databrics 社のブログで Apache Spark 2.0 の目指…

詳説 4 Tips of using Apache Spark (LT してきました!@ 第2回 Learning Spark 読書会)

こんばんは! 去る日曜日に行われました、Learning Spark 読書会にてお時間を頂いて LT をさせていただきました。手持ちの小ネタを集めたコネタ集的な LT でしたが、参考になったなどの感想いただき、とても嬉しかったです!また、ネタがまとまったら機会を…

勉強会メモ - Apache Hadoop エコシステムを中心とした分散処理の今と未来

今日は、Hadoop のセミナーを見るために IIJ さんにお邪魔してきました。 内容としては、Hadoop の歴史と現状の流れを技術的な面から紐解いた第一部と、Hadoop コミュニティやオープンソースコミュニティを解説した二部という構成でした。技術的な面では、何…

勉強会メモ - 第1回“Learning Spark”読書会

どうも!最近、いじり倒している Spark の読書会があるとことで、参加してきましたので、メモを公開! http://readlearningspark.connpass.com/event/11846/ 本はこちら!英語版のみですが、Spark の実質初の実践的な解説書です。 Learning Spark: Lightning…

あなたのビジネスの指標をどうやって決めるのか? - 書評 -「LEAN ANALYTICS リーンアナリティクス」

どうも!翻訳者の角さんから献本いただきました。人生初。頂いてから随分たってしまいましたが、僭越ながら書評させていただければと思います。 本書、LEAN ANALYTICS は、一連のリーンシリーズの最新作です。他のシリーズと同様に、主にいわゆるスタートア…

Solr 5.0 リリース!

どうも! Solr がメジャーバージョンアップしましたね!いぇい。 というわけで、lucidworks 社のブログエントリーから今回のハイライトを見ていきたいと思います。 Apache Solr 5.0 Highlights - Lucidworks Apache Solr 5.0 Highlights - Lucidworks 所感と…

勉強会メモ - 第8回elasticsearch勉強会

どうも!今日も勉強会に参加いたしました。 今日の勉強会は、初心者向けから上級者向け、ハイパフォーマンスから自然言語処理を活用したディープダイブまで、とかなり幅広く面白い勉強会でした。個人的に面白かったのは、はてなの事例 B!KUMA は Elasticsear…

Spark / RDD のネストできない!

どうも!最近 Spark を触りたおしているよしだです。 先日、いつものように改修をしていたら、例外がでるようになってしまい、1日つぶしてしまったので皆様が同じ轍を踏むように、共有しようと思います(笑) 結論から言えば、Spark において、 RDD のネス…

Spark 1.2.0 を Amazon EMRで動かす。

どうも!今年の初エントリーです。今年もよろしくお願い致します。 今回は、Apache Spark 1.2.0 を Amazon EMR で動かしてみることに挑戦しました。Spark ではずっと遊んでいたんですが、MLLib をつかうのが目的だったので開発中はクラスタで動かすひつよう…

Spark MLLib への最速の入り口! (と、インプレとJubatusとの比較)

このエントリーは、Machine Learning Advent Calendar 2014 - Qiita の15日目の記事です。 まずはじめに、初心者向けの記事です。機械学習に興味があって、とりあえずレコメンドをやってみたいけど、数学とか線形代数とかわからないし、Spark も Hadoop も概…

バトルだ! Elasticsearch + Kibana (ELK) vs Splunk

どうも!ちょっと仕事で Elasticsearch + Kibana (ELK) と Splunk の比較を簡単に調べてみたので公開します。 先にまとめ。 ELK は、OSS で安くクイックスタートできるので、データソースが明確で、ソースに対応しており、導入できる技術者がいる場合におす…

勉強会メモ - Machine Learning with Apache Spark

どうも!今日も勉強会に参加していますーので、勉強会メモを公開します。@yamakatu さんがお休みで残念! 「はじめまして、Spark&MLlib 」 株式会社 NTT データ 土橋さん hadoop はスループットを重視しているため、レイテンシの低さが求められる処理や、複…

Amazon CloudSearch 値下げ! 2014年11月

どうも!Amazon CloudSearch が値下げされたようなので、内容をまとめてみました。 なお、内容の正誤については一切こちらでは保証しませんので、きちんとご自分でご確認くださいますようお願いします。 http://aws.amazon.com/jp/blogs/aws/cloudsearch-pri…

勉強会メモ - 第7回elasticsearch勉強会

どうも!久しぶりのエントリーです。 今日も elasticsearch の勉強会に参加してきましたので、勉強会メモを共有します。イベントの詳細は、こちら↓からどうぞ。 大谷さん、登壇者の皆様、リクルートテクノロジーズ様、いつもありがとうございます! http://e…

出遅れたけど Amazon CloudSearch のアップデートと日本語ユーザー辞書を試してみる。

どうも! かなり出遅れ感ありますが、Amazon CloudSearch のアップデートの確認と、特に目玉機能の日本語用ユーザー辞書を試してみました。ところで、他の CJKV のユーザー辞書に先駆けて日本語で・・というのはちょっと嬉しいですね。 リリースノート Relea…

Elasticsearch の Client API はHTTPプロキシを越えられない。

どうも! 社内向けのデモのため EC2 上に、elasticsearch を立てていたのですがその際に直面した課題と解決策を紹介したいと思います。 私のいる会社のネットワークは、セキュリティや監査を目的として、HTTP Proxy を経由してインターネットにつながります…

Elasticsearch のスケールアウトを EC2 で構築する手順。

どうも! Elasticsearch の ZenDiscovery は、同一ネットワーク上の ES を発見し、クラスタに追加することが出来る機能ですが、クラスターに入った後は、シャードの再分配が自動で行われます。これにより、Solr と比べても非常に簡単にノードの追加が可能に…

Kibana4 beta1 リリースきた!ハマりどこと、グラフの作例。Aggregation でグラフを作るには、ちょっと頭の体操が必要です。

Kibana 4 Beta1 リリースされましたね!今回の目玉は Aggregation が使えることと、デザインの全面変更でしょうか。個人的には、白バックの画面はスッキリしていて大変好みですが、大幅な変更なので賛否ありそうですね。また、クエリとグラフ作成の画面が分…

AWS EC2 東京リージョン vs GCP Google Computing Engine アジアリージョン: 仮想マシンのレイテンシー調査。

AWS の Tokyo リージョンに作った仮想マシンとと、GCP こと Google Cloud Platform の Asia リージョンに作った仮想マシンのレイテンシを比較しました。 AWS の Tokyo リージョンは 10ms ほど。さすがは国内DS。 Google も 45ms 程度と思ったほど遅くない。…

Elasticsearch 1.4.0 Beta1 のリリースノートに出てきた DocValues とは何か?

先日、elasticsearch 1.4.0 Beta1 がリリースされましたね。前々回の勉強会で聞いていたとおりで、安定性の向上が中心のエンハンスメントでした。詳細は、johtani さんの記事をどうぞ。 elasticsearch 1.4.0.Beta1のリリース - @johtaniの日記 2nd elasticse…