よしだのブログ

サブタイトルはありません。

Apache ManifoldCF の Amazon CloudSearch 用コネクター書いた!

どうも!

先日、日本語対応された Amazon CloudSearch ですが、クロールする機能が全くありません。そこで、汎用コネクタフレームワークである ManifoldCF に Amazon CloudSearch 用のコネクターを書いてみました!

そして、人生初のプルリクエスト送信!!!

機能

  • HTMLページからメタと本文を展開、SDF*1に変換して CloudSearch に送信し検索可能にします
  • サポートしているメタは、title / content-type / size / keywords /description 。keywords は text-array 型*2です。
  • Proxy は、環境変数の HTTP_PROXY から取得します。

制限、というか TODO

  • Configuration ページから各種設定を書けるようにする。プロキシ、Document Endpoint URL など。
  • サポートできるファイルの種類を増やす。現在 HTML のみ・・。複数種類のファイルを Connector 内で展開するなら、フィールドのマッピングが難しくなってくるので Connector でやらずに外でやる前提で書く必要があるかも。。

And Pull Request...!

f:id:yoshi0309:20140403001012p:plain

Connector for Amazon CloudSearch. by yoshi0309 · Pull Request #1 · apache/manifoldcf · GitHub

コードもコメントも自信がありませんが、どうなるか楽しみです(笑)。

*1:実体はJSONデータ。CloudSearchに登録するための決まったフォーマットのJSONに変換しています。

*2:値が複数持てる型