アパッチ・ソフトウェア・ファウンデーション(Apache Software Foundation)は2日、オープンソースのデータ処理プログラム「Hadoop」の最新バージョン「Hadoop 2」を発表。
Apache Hadoopは、シンプルなプログラミングモデルを使用して、コンピュータのクラスタ間で大規模なデータセットの分散処理を可能にするアーキテクチャです。このアーキテクチャにより、企業は日常的に収集される新しいデータを、より効率的かつコスト効率の高い方法で保存、処理、管理、分析できるようになります。
Hadoopはすでに、Amazon Web Services、AOL、Apple、eBay、Facebook、Netflix、Hewlett-Packardなどの有名企業を含む、世界中の数多くの企業に導入されています。
水曜日に発表されたプラットフォームの最新バージョンには、構築に4年以上を費やした数多くの新しいコンポーネントが追加されています。中でも最も注目すべきは、HadoopにおけるMapReduceの後継であるYARN(Yet Another Resource Negotiator)の追加です。新バージョンでは、主な機能を2つの別々のデーモンに分割し、1つはリソース管理、もう1つはタスクのスケジューリングと監視を担当します。
YARNは、ビッグデータアプリケーション用の大規模分散オペレーティングシステムとしてHDFS(Hadoop Distributed File System)の上に配置され、複数のアプリケーションを同時に実行できるようにすることで、ライフサイクル全体を通してデータをより効率的にサポートできるようにする、とApache Software Foundationはリリースで述べています。Hadoop 2とYARNは、安定したHadoopエコシステム基盤の中で、バッチ、インタラクティブ、リアルタイムのワークロードを混在させることを可能にします。
同財団はまた、YARNはMapReduceの2番目のバージョンであり、そのAPIは以前のバージョンとの互換性を維持していると述べています。MapReduce用に書かれたアプリケーションは、再コンパイルなしでYARN上でも実行可能。
Apache Software Foundationによると、現在12以上のApacheプロジェクトがHadoopを統合しており、今後さらに10以上のプロジェクトが統合する予定です。
Hadoop 2の一般リリースは、Apache Software Foundationが6月に発表したプレリリースに沿ったもので、YARNも含まれています。Apache Hadoop 2は、Apacheライセンスv2.0の下で利用可能です。