Apache ManifoldCF の Amazon CloudSearch 用コネクター書いた!
どうも!
先日、日本語対応された Amazon CloudSearch ですが、クロールする機能が全くありません。そこで、汎用コネクターフレームワークである ManifoldCF に Amazon CloudSearch 用のコネクターを書いてみました!
そして、人生初のプルリクエスト送信!!!
機能
- HTMLページからメタと本文を展開、SDF*1に変換して CloudSearch に送信し検索可能にします
- サポートしているメタは、title / content-type / size / keywords /description 。keywords は text-array 型*2です。
- Proxy は、環境変数の HTTP_PROXY から取得します。
制限、というか TODO
- Configuration ページから各種設定を書けるようにする。プロキシ、Document Endpoint URL など。
- サポートできるファイルの種類を増やす。現在 HTML のみ・・。複数種類のファイルを Connector 内で展開するなら、フィールドのマッピングが難しくなってくるので Connector でやらずに外でやる前提で書く必要があるかも。。
And Pull Request...!
Connector for Amazon CloudSearch. by yoshi0309 · Pull Request #1 · apache/manifoldcf · GitHub
コードもコメントも自信がありませんが、どうなるか楽しみです(笑)。