注意すべき2つのポイント:Hadoopの使用は、0.23.x、2.0.x、2.x.xまたはCDH4、CDH5などの2.0シリーズである必要があります、Hadoop上で実行されるSparkは、基本的にHadoop YARN上でSparkを実行している、Spark自体はジョブ管理機能を提供するだけであるため、リソーススケジューリングは、YARNやMesosなどのサードパーティ製のシステムに依存しています。私たちがMesosを使わずYARNを使うのは、YARNがコミュニティから強く支持されており、リソース管理システムの標準になりつつあるからです。
なお、正式版0.8.1がリリースされましたので、hadoop 2.2.0またはCDH5をお使いの方は、適切なバージョンを選択して直接ダウンロードできます。
Spark を Hadoop 2.2.0 にデプロイするには、以下の手順が必要です:
ステップ1:ベースソフトウェアの準備
ステップ2: spark 0.8.1以降をダウンロードしてコンパイルします。
ステップ3:Sparkインスタンスの実行
これらのステップについては、次に詳しく説明します。
ステップ1:ベースソフトウェアの準備
基本ソフトウェア
ハードウェアの準備
Spark 2.2.0は特にhadoop 2.2.0に対応したyarn-newが登場していますが、hadoop 2.2.0のAPIは互換性がないまま変更されているため、コンパイルとパッケージングをMavenで個別に行う必要があり、コンパイル処理が非常に遅く、メモリも多く消費するため、コンパイラマシンとして以下の条件を満たすマシンが必要です:
条件1:ネットワークに接続することができます:コンパイルする最初の時間は、mavenは、インターネットからjarパッケージを大量にダウンロードする必要があり、速度が比較的遅い、ネットワークに接続できない場合は、直接コンパイルをあきらめることをお勧めします。
条件2:2GB以上のRAM
ステップ2: spark 0.8.1以降をダウンロードしてコンパイルします。
ダウンロードには git を使うか、wget または spark バージョン 0.8.1 を使ってください。
| wget /-//...-.ip |
hadoop 2.2.0 はバージョン 0.8.1 ではサポートされておらず、バージョン 0.8.1 以降でサポートされることに注意してください。
ダウンロード後、解凍してください:
| unzip v0.8.1-incubating |
次に、解凍したディレクトリに移動し、以下のコマンドを入力します:
|
通常、コンパイルが完了するのを待ち、以下のコマンドでスパーク・カーネルを別のjarパッケージにパッケージ化するには長い時間がかかります:





