Spark を Hadoop 2.2.0 にデプロイする #Spark #Hadoop #スパーク

注意すべき2つのポイント：Hadoopの使用は、0.23.x、2.0.x、2.x.xまたはCDH4、CDH5などの2.0シリーズである必要があります、Hadoop上で実行されるSparkは、基本的にHadoop YARN上でSparkを実行している、Spark自体はジョブ管理機能を提供するだけであるため、リソーススケジューリングは、YARNやMesosなどのサードパーティ製のシステムに依存しています。私たちがMesosを使わずYARNを使うのは、YARNがコミュニティから強く支持されており、リソース管理システムの標準になりつつあるからです。

なお、正式版0.8.1がリリースされましたので、hadoop 2.2.0またはCDH5をお使いの方は、適切なバージョンを選択して直接ダウンロードできます。

Spark を Hadoop 2.2.0 にデプロイするには、以下の手順が必要です：

ステップ1：ベースソフトウェアの準備

ステップ2: spark 0.8.1以降をダウンロードしてコンパイルします。

ステップ3：Sparkインスタンスの実行

これらのステップについては、次に詳しく説明します。

ステップ1：ベースソフトウェアの準備

基本ソフトウェア

ハードウェアの準備

Spark 2.2.0は特にhadoop 2.2.0に対応したyarn-newが登場していますが、hadoop 2.2.0のAPIは互換性がないまま変更されているため、コンパイルとパッケージングをMavenで個別に行う必要があり、コンパイル処理が非常に遅く、メモリも多く消費するため、コンパイラマシンとして以下の条件を満たすマシンが必要です：

条件1：ネットワークに接続することができます：コンパイルする最初の時間は、mavenは、インターネットからjarパッケージを大量にダウンロードする必要があり、速度が比較的遅い、ネットワークに接続できない場合は、直接コンパイルをあきらめることをお勧めします。

条件2：2GB以上のRAM

ステップ2: spark 0.8.1以降をダウンロードしてコンパイルします。

ダウンロードには git を使うか、wget または spark バージョン 0.8.1 を使ってください。

wget /-//...-.ip

hadoop 2.2.0 はバージョン 0.8.1 ではサポートされておらず、バージョン 0.8.1 以降でサポートされることに注意してください。

ダウンロード後、解凍してください：

unzip v0.8.1-incubating

次に、解凍したディレクトリに移動し、以下のコマンドを入力します：

cd incubator-spark-0.8.1-incubating

通常、コンパイルが完了するのを待ち、以下のコマンドでスパーク・カーネルを別のjarパッケージにパッケージ化するには長い時間がかかります：

Spark を Hadoop 2.2.0 にデプロイする

Read next

例による議論：NSAはセキュリティ標準にバックドアを仕込んだ

米軍はWhatsUp Goldでイラクの再建を支援する

エンタープライズ・ビッグデータの始め方：まず小さなデータ分析を行う

シャオミは、家庭を制御している？

プロダクトマネージャーは、二度と反人間的であってはならない！

モノのインターネット（IOT）：組織が考慮すべき7つのリスク要因