詳説 4 Tips of using Apache Spark (LT してきました！@ 第2回 Learning Spark 読書会)

こんばんは！

去る日曜日に行われました、Learning Spark 読書会にてお時間を頂いて LT をさせていただきました。手持ちの小ネタを集めたコネタ集的な LT でしたが、参考になったなどの感想いただき、とても嬉しかったです！また、ネタがまとまったら機会をいただければと思います。

前フリはここまでにして。以下が、その時のスライドです。

今日のエントリは、その時お話した LT の解説をしたいと思います。コピペでもなんでもして使っていただければ。内容の真偽についてはできるだけ、正しいことを確認していますが、ご自分の責任でくれぐれもご利用くださいませ。バージョンは spark 1.2.1 を前提とします。

その１：Easiest way running Spark on Cluster

自分でアプリを作れるようになったら、Spark の速さを体感したくなると思います。そこで、ひとつのお手軽な方法として、Amazon EMR で Spark を動かすという方法があります。実際のやり方については、こちらのエントリを参照ください。

<a href="http://blog.yoslab.com/entry/2015/01/29/225938">Spark 1.2.0 を Amazon EMRで動かす。 - よしだのブログ</a>blog.yoslab.com

ちなみに、さきほど確認したら、もう 1.3.0 にも対応していました！素晴らしいですね。

上記のエントリでは、記載していませんが bootstrap-action を使うと、さらにクラスタのセットアップが楽になります。よくあるのが、自分のアプリを作ってその中から他のライブラリの jar を使うようにすると、大量の jar に依存していてクラスタ上にデプロイするのがシンドイという場合があります。bootstrap-action では、このようなケースを楽にできます。

bootstrap-action は、実体としてはただの bash スクリプトです。このスクリプトを指定して、create-cluster すると、クラスタの起動処理の中で、クラスタ内の各サーバー上で root 権限でこのスクリプトを実行してくれます。*1 なので、bootstrap-action の中で、scala を入れて、sbt を入れて、git-clone して、sbt package すると、sbt が自動的に必要な jar を落としてきてくれるので、いちいち大量の jar をクラスタ上に配置する手間がなくなります。唯一の欠点としては、github や bitbucket などのオンラインの git レポジトリにコードを置いておく必要があります。

参考に、実際に作成したスクリプトを貼っておきます。

gist084f66eba95adfe5fdf6

その２：オプションの指定順序を間違えると、パラメータが無視される。

自作したアプリケーションを起動する際は bin/spark-submit コマンドを呼び出すと思います。この時に指定するオプションには、自作の jar とクラス以外にも、色々なオプションがあります。例えば、クラスター環境で起動するときには、使用するメモリ、CPU、executor の数などなど指定することができます。 このオプションですが、指定する順番を間違えると、指定した値が無視され、デフォルト値で起動します。

いつものコマンドラインツールのつもりで使うと痛い目にあうという例です。。

まず、ダメな例のコマンドラインです。これでアプリを起動します。 urge-recommend-user-to-item_2.10-0.1.jar というのが、アプリの jar でそこから後ろの rates.txt までがアプリの引数、そこから後ろはそれ以外のオプションになります。適当な場所で開業しえいますが、実際には一行です。

~/spark/bin/spark-submit
--master yarn-cluster 
--jars  (省略) 
--class RecommendU2I 
urge-recommend-user-to-item_2.10-0.1.jar
s3n://abc-takumiyoshida/datasets/ s3n://abc-takumiyoshida/rates.txt 
--driver-memory 2g --num-executors 4 --executor-memory 4g --executor-cores 2

以下は、実行後に Spark の Web UI で、コマンドラインを見ることができる画面です。色付きでハイライトされている箇所にご注目いただきたいのですが、 --num-executors が２つあるのがわかると思おいます。実際の動作を観察していると、後ろで指定されている --num-executors 2 が採用されて動いていました。すなわち、指定した 4 は無視されています。。

f:id:yoshi0309:20150401230740p:plain

そこで、以下のとおり、ドキュメントに記載されている順番で並べ替えて起動すると、きちんと呼んでくれるようになりました。

~/spark/bin/spark-submit 
--class RecommendU2I 
--master yarn-cluster 
--driver-memory 2g --num-executors 5 --executor-memory 2g --executor-cores 4 
--jars (省略) 
urge-recommend-user-to-item_2.10-0.1.jar 
s3n://abc-takumiyoshida/datasets/ s3n://abc-takumiyoshida/rates.txt

ドキュメントから、全体を引用すると以下のようになります。

./bin/spark-submit \
--class <main-class>
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]

メインクラスを指定する --class が先頭で、アプリの jar が離れているのが罠です。。