f:id:yoshi0309:20140704072717p:plain

どうも！久しぶりに書評にチャレンジしてみます。今回は e-Book の「実践機械学習レコメンデーションにおけるイノベーション」です。フリーで読めます。ダウンロードは以下から。

http://www.hadoop-times.com/technology/pdf-practical-machine-learning.html

本書は Hadoop を使って、どのようにして実際に役に立つレコメンデーションエンジンを作るかを説いた本です。単にレコメンデーションの作り方を説いただけではなく、「実践的」であることがとても画期的でした。 Mahout で一応強調フィルタリングやってみたけど使えるとは思えない、という人は必読だと思います。逆に言えば、応用編といった趣が強い本なので、レコメンデーション、Hadoop、機械学習、Solr (検索エンジン) が全く初めてという人にはピンと来ないと思います。ページ数もかなり薄く、詳細やコード、実際の実装内容やコマンドは全て省かれています。

レコメンデーション（共起分析）は様々なアルゴリズムがあるが、正直なところビジネスの視点からは大差がない。ならば、シンプルで実績のあるものを使おう（Mahout の RowSimilarityJob)
作成したインジケータ (共起分析の結果、アイテム同士の関連) は、アイテムのメタデータとともに Solr に投入しよう。そうすることで、関連度に従ったソートができる
改善の手法として、ディザリング、アンチフラッド、マルチモーダルとクロスレコメンデーションを紹介

特に改善のディザリングを理由についてについてなるほどと思ったのは以下の箇所。

この行動は、レコメンデーションのエンジンに大きな影響があります。それは、ユーザーが 2 ページ目以降の結果をまったく見ないのであれば、ユーザーからは、2 ページ目の結果の良し悪しに関して、行動によるレコメンデーションエンジンへのフィードバックがまったく得られないということになるからです。その結果、レコメンデーションエンジンが受け取るフィードバックは、すでに知っている結果に関するものがほとんどになり、その時点の知識の境界線上にある結果については、ほとんどフィードバックが得られないことになるのです。

7.1 「ディザリング」より

このような状態を避けるために、関連度が低いアイテムをいくつかレコメンドに紛れ込ませる、という方法がディザリングです。いかにも当たり前の様にも見えるのですが、私だけかもしれませんがこのような現象を事前に予想しておき対策を予め打つことはなかなか難しいことだと思います。むしろ、蓄積されたノウハウというものはこのようにあとで見ると当たり前のようにしか見えないもので、当たり前のようにしか見えないがゆえに直感的に有用であることがわかるし、実際に役に立つと思うのです。

Solrを使うことについての、私なりの補足。

本書の残念な点は、検索エンジン Solr を使う理由を関連度に元づいてソートするため、としか書いていないことです。このため、Solr に入れるメリットがイマイチ伝わりません。が、おそらく、この点が最も本書の売りで画期的な点だと私は考えています。というわけで、私なりに補足を試みてみようと思います。

まず、説明にあたりどのようなレコメンドかの共通イメージを持たなければいけません。Amazon の商品詳細に表示されるこれをイメージしてください。

f:id:yoshi0309:20140704072250p:plain

(実際にはどうかはわかりませんが) このアイテムを、本書で説明されている方法で分析取得していると仮にします。表示している商品に対するレコメンドとして「こんな商品」を引いてくる、という目的だけであればDBやNoSQLでも十分です。また、ソートについても、アイテムのメタデータ（商品名や発売日、カテゴリーなど）をベースにできれば検索エンジンを使う理由は全くありません。ではなぜ検索エンジンを使うのでしょうか？

ポイントは、改善の章にあると考えています。以下のような改善の手法を一発の検索クエリで実現することができるのです。また、非常に高速かつスケーラビリティが高いことが、より実践向きであることは言うまでも無いでしょう。