blog

Spark を Hadoop 2.2.0 にデプロイする

2つのポイントに注意を払う必要があります:Hadoopの使用は、0.23.x、2.0.x、2.x.xまたはCDHCDH5など、2.0シリーズでなければなりません、基本的にHadoop YARN上でSp...

Jun 26, 2025 · 2 min. read
シェア

注意すべき2つのポイント:Hadoopの使用は、0.23.x、2.0.x、2.x.xまたはCDH4、CDH5などの2.0シリーズである必要があります、Hadoop上で実行されるSparkは、基本的にHadoop YARN上でSparkを実行している、Spark自体はジョブ管理機能を提供するだけであるため、リソーススケジューリングは、YARNやMesosなどのサードパーティ製のシステムに依存しています。私たちがMesosを使わずYARNを使うのは、YARNがコミュニティから強く支持されており、リソース管理システムの標準になりつつあるからです。

なお、正式版0.8.1がリリースされましたので、hadoop 2.2.0またはCDH5をお使いの方は、適切なバージョンを選択して直接ダウンロードできます

Spark を Hadoop 2.2.0 にデプロイするには、以下の手順が必要です:

ステップ1:ベースソフトウェアの準備

ステップ2: spark 0.8.1以降をダウンロードしてコンパイルします。

ステップ3:Sparkインスタンスの実行

これらのステップについては、次に詳しく説明します。

ステップ1:ベースソフトウェアの準備

基本ソフトウェア

ハードウェアの準備

Spark 2.2.0は特にhadoop 2.2.0に対応したyarn-newが登場していますが、hadoop 2.2.0のAPIは互換性がないまま変更されているため、コンパイルとパッケージングをMavenで個別に行う必要があり、コンパイル処理が非常に遅く、メモリも多く消費するため、コンパイラマシンとして以下の条件を満たすマシンが必要です:

条件1:ネットワークに接続することができます:コンパイルする最初の時間は、mavenは、インターネットからjarパッケージを大量にダウンロードする必要があり、速度が比較的遅い、ネットワークに接続できない場合は、直接コンパイルをあきらめることをお勧めします。

条件2:2GB以上のRAM

ステップ2: spark 0.8.1以降をダウンロードしてコンパイルします。

ダウンロードには git を使うか、wget または spark バージョン 0.8.1 を使ってください。

wget /-//...-.ip

hadoop 2.2.0 はバージョン 0.8.1 ではサポートされておらず、バージョン 0.8.1 以降でサポートされることに注意してください。

ダウンロード後、解凍してください:

  unzip v0.8.1-incubating

次に、解凍したディレクトリに移動し、以下のコマンドを入力します:



cd incubator-spark-0.8.1-incubating

通常、コンパイルが完了するのを待ち、以下のコマンドでスパーク・カーネルを別のjarパッケージにパッケージ化するには長い時間がかかります:

Read next

例による議論:NSAはセキュリティ標準にバックドアを仕込んだ

少し前に、NSA がセキュリティ標準にバックドアを仕込む可能性について書きました。今日は、NSA が標準規格にバックドアを仕込んだと非難されている 2 つの事例について話し、2 つのタイプのバックドアの違いを区別するために、この事例を使用します。

Jun 26, 2025 · 3 min read