よしだのブログ

サブタイトルはありません。

出遅れたけど Amazon CloudSearch のアップデートと日本語ユーザー辞書を試してみる。

どうも! かなり出遅れ感ありますが、Amazon CloudSearch のアップデートの確認と、特に目玉機能の日本語用ユーザー辞書を試してみました。ところで、他の CJKV のユーザー辞書に先駆けて日本語で・・というのはちょっと嬉しいですね。 リリースノート Relea…

Elasticsearch の Client API はHTTPプロキシを越えられない。

どうも! 社内向けのデモのため EC2 上に、elasticsearch を立てていたのですがその際に直面した課題と解決策を紹介したいと思います。 私のいる会社のネットワークは、セキュリティや監査を目的として、HTTP Proxy を経由してインターネットにつながります…

Elasticsearch のスケールアウトを EC2 で構築する手順。

どうも! Elasticsearch の ZenDiscovery は、同一ネットワーク上の ES を発見し、クラスタに追加することが出来る機能ですが、クラスターに入った後は、シャードの再分配が自動で行われます。これにより、Solr と比べても非常に簡単にノードの追加が可能に…

Kibana4 beta1 リリースきた!ハマりどこと、グラフの作例。Aggregation でグラフを作るには、ちょっと頭の体操が必要です。

Kibana 4 Beta1 リリースされましたね!今回の目玉は Aggregation が使えることと、デザインの全面変更でしょうか。個人的には、白バックの画面はスッキリしていて大変好みですが、大幅な変更なので賛否ありそうですね。また、クエリとグラフ作成の画面が分…

AWS EC2 東京リージョン vs GCP Google Computing Engine アジアリージョン: 仮想マシンのレイテンシー調査。

AWS の Tokyo リージョンに作った仮想マシンとと、GCP こと Google Cloud Platform の Asia リージョンに作った仮想マシンのレイテンシを比較しました。 AWS の Tokyo リージョンは 10ms ほど。さすがは国内DS。 Google も 45ms 程度と思ったほど遅くない。…

Elasticsearch 1.4.0 Beta1 のリリースノートに出てきた DocValues とは何か?

先日、elasticsearch 1.4.0 Beta1 がリリースされましたね。前々回の勉強会で聞いていたとおりで、安定性の向上が中心のエンハンスメントでした。詳細は、johtani さんの記事をどうぞ。 elasticsearch 1.4.0.Beta1のリリース - @johtaniの日記 2nd elasticse…

勉強会メモ - 第23回 AWS User Group - Japan 東京勉強会

今日は、久しぶりにAWSの勉強会に参加してきましたのでいつもどおり勉強メモをお送りします!今回のテーマは AWS の歴史を振り返る、でした。 Jeff & Ken & Hideki による、AWS振り返りスペシャル Jeff Barr さん、玉川さん、小島さん Jeff Barr さんは、チ…

Jubatusハッカソンに参加して、イベントのレコメンデーションを作ってみた。

4日金曜日から5日にかけて、Jubatus ハッカソンに会社の後輩と2人で参加してきました! 今回のハッカソンは、初心者向けとあったので Jubatus は未経験でしたが勢いで参加してきました。ハッカソンへの参加はもちろんのこと、Jubatus 自体も初めてでしたが…

Solr のクエリログを fluentd と kibana で可視化

かなり遅ればせながらですが、ELK*1を試してみました。 Solr は検索機能としては、十分すぎるほどの機能があるのですが、運用系のUIがプロプライエタリな検索エンジンに比べて弱い部分があります。例えば、クエリログの分析画面がそれだったりしますが、そこ…

Solr 4.10 のリリースハイライト

リリースから1ヶ月近く立ってしまいましたが、9月3日にSolr 4.10 がリリースされました。というわけで、リリースハイライトを整理してみました。 http://lucene.apache.org/solr/solrnews.html#03-september-2014-apache-solr-4100-available Solr Cell で…

Solr の block join を調べてみたけど、ちょっと違ったという話。

Twitter でこんな投稿をしていたのですが。Elasticsearch のネストの話で、Elasticsearch のドキュメントの定義は、従来の検索エンジンと異なり、ドキュメントやフィールドをネストでき、子ドキュメントだとか子フィールドを持つことができます。 まぢか、す…

勉強会メモ - 第6回elasticsearch勉強会

どうも!久しぶりの勉強会参加です。 今日も大谷さん、スピーカーの皆様、ならびにリクルートテクノロジーズ様、ありがとうございました! Aggregationあれこれ Elasticsearch Inc. 大谷さん @johtani 1.0から導入、検索結果に対する集計機能。facet よりも…

kuromoji のサイトに行くと、トークナイズの処理を分析することができる。

前回の記事の続きです。Solrでうまくヒットしない理由を調べていくと、kuromoji の中に入っている mecab-ipadic という辞書に行き着きました。辞書の中に設定されている、単語コストと連結コストの値がうまく設定されていないということが調べたところ分かり…

Solr + kuromoji で単語の切れ方がおかしかったのでガッツリ調べてみた、理由と調べ方その方法を公開します!

調査のきっかけは「デジタル一眼レフ」という文字列が含まれているフィールドに「一眼レフ」で検索してもヒットしないという現象です。日本語の形態素解析をつかった検索では結構在りがちで、大体ユーザー辞書に登録すれば良くなるのですが*1、今回は表面的…

Elasticsearch 用 インデックス作成処理を java で書いた。

Java の API を使って勢いで書いてみたら、結構簡単でした。まあ、基本は JSON にして、PUT するだけですしね。 社内で使っている、クローラのフレームワークに沿って書いたのでそのままでは使えないと思いますが、ちょっと改変すれば行けると思います。 依…

elasticsearch の plugin マネージャー用 proxy の設定方法@Windows

kuromoji が何故か素直に入らなかった。。git clone して git tag して、mvn clean install で、plugin -i -f で OK !— よしだ (@yoshi0309) 2014, 9月 3 先日はお騒がせして申し訳ありませんでした。改めて、確認しました。結果、プロキシの設定がきちんと…

Solr 風 Dynamic Mapping Template を作った。(Elasticsearch 1.3.2)

Elasticsearch で、Solr のデフォルトのスキーマに定義されているダイナミックフィールドを再現したかったので mapping ファイルを作ってみました。細かいテストはやっていませんが、多分うまくいくかと。 作った経緯。 Elasticsearch の特長的な機能の一つ…

(Jetty編) Solr にアクセス可能なIPアドレスを制限する。

今回はテクニカルなメモです。 クライアントのIPアドレスで、Solr でアクセス可能かどうかを制限したい要件って結構あると思います。Apache とか Tomcat なら楽勝なのですが、デフォルトの Jetty でやってみると意外とハマったのでメモ。 環境 Apache Solr 4…

書評 - マッチ箱の脳(AI)-使える人工知能のお話

どうも!かなり久しぶりです。今日も書評です。 マッチ箱の脳(AI)―使える人工知能のお話作者: 森川幸人出版社/メーカー: 森川幸人発売日: 2014/01/05メディア: Kindle版この商品を含むブログ (7件) を見る この本は、2000年に発売され、Amazon での評価も非…

感想戦:aggrigation から見える検索エンジンの次 - 第5回 Elasticsearch勉強会

どうも!昨日は Elasticsearch 勉強会へ参加してきました。 恒例のメモの半リアルタイム更新をしようと思っていたのですが、全編英語のためメモをしている余裕が基本的にありませんでした。理解するのに精一杯で・・、前半についてはある程度取れました。 と…

勉強会メモ - Norikra meetup

昨日の今日で Norikra meetup に参加しています!アツい!かなり参考になった&早速つかってみようと思いました!まずは、ログの集計からかなー。 というわけで、以下メモです。 ストリーム処理とは、およびNorikraの概要と機能 @tagomoris Stream processin…

勉強会メモ - Hadoop Conference Japan 2014

今日は Hadoop Conference Japan 2014 に参戦しました!おもに、機械学習関連のセッションを中心に参加しましたが、参考になること、勉強になることが盛りだくさんでした。あと、神様にも会えましたよ! 登壇者の皆様、スポンサーのリクルートテクノロジーズ…

書評 - 実践 機械学習 レコメンデーションにおけるイノベーション

どうも!久しぶりに書評にチャレンジしてみます。今回は e-Book の「実践 機械学習 レコメンデーションにおけるイノベーション」です。フリーで読めます。ダウンロードは以下から。 http://www.hadoop-times.com/technology/pdf-practical-machine-learning.…

Java のアプリを、Windowsでサービス化する

どうも!最近プロジェクトが始まって忙しく過ごしています。そのプロジェクトで使用する予定の OS が Windows なのですが、その関連で Solr と Zookeeper をサービス化する方法を調べました。*1 結論としては、nssm というツールで、かなり簡単に実現するこ…

機械学習ライブラリのアルゴリズム一覧 - 勉強メモ - 機械学習

Apache Mahout https://mahout.apache.org/ - Hadoop MapReduce で稼働するライブラリ - 次バージョンからは Spark で、とのこと。 - バージョンは 0.9 アルゴリズム https://mahout.apache.org/users/basics/algorithms.html レコメンデーション 協調フィル…

勉強メモ - パターン認識 - その1

ども!ご無沙汰しております。最近、機械学習の勉強をはじめました。その最初の入口として、パターン認識を勉強しています。今回は勉強メモを公開しようと思います。なお、裏テーマは数学の分からないエンジニアでもわかる機械学習です。 勉強中なので、間違…

勉強会メモ -【東京】JJUG ナイトセミナー 「6.11 ドメイン駆動設計特集! 」

どうも!今日も勉強会に来ています。初めての JJUG ですが、かなり面白いです。 DDD本、読まなきゃーー。。。 感想 実際に使うにあたって、何が重要か?何に気を付けなければいけないか?をたくさん聞くことができてかなり有用性の高い公演だったと思います…

AWS Certified Solutions Architect - Associate 合格しました!

どうも!AWS 認定のソリューションアーキテクト・アソシエイトレベルに合格しました。やったね!*1というわけで、感想を書いておきます。 基本的な対策は様々なブログで書いてあるので、そちらをご参考にしていただければと思います。基本的には、以下のサイ…

AWS への Billing DDoS攻撃について。有効な対策はなさそう。

Billing DDoS攻撃とは、よしだの造語です。データ転送やリクエスト数に課金されるAWSサービスへ DDoS 攻撃を受けると、サービスはダウンしないかもしれません。でも、インターネットにエンドポイントを持つサービスの多くが、データ転送量やリクエスト数に対…

Amazon CloudSearch 用 deleteByQuery を書きました。

どうも!だいぶ間が空きました。。 Amazon CloudSearch で色々やっていると、まとめてドキュメントを削除したくなることってありませんか?例えば、ドメインを削除せずに、ドキュメントだけ全て消したい、など。ドメインを作り直すのが確実ではあるのですが…