まず最初に見るべきは、Hadoop 2でどのような改善がなされたのか、ということだと思います。報告によると、Hadoop 2の最大の改良点はYARNデータ処理およびサービングエンジンのリリースで、これはMap/Reduceの改良に使用されるほか、Hadoop File Systemに高可用性機能を追加しています。
Hadoopデータにアクセスするための技術的な詳細を見てみると、Map/Reduceを実装するためのJavaアプリケーションを開発する必要があり、それを習得するのは少し難しいかもしれません。そのHiveデータウェアハウスでは、SQLに似たHiveSQLクエリ言語でクエリを作成し、MapReduceタスクに変換することができます。MapReduceタスク、Hiveクエリ、Hbase操作などはすべて交代で実行されます。
Hadoop 1.0と2.0の違いは、前者ではすべてがバッチ指向であるのに対し、後者では複数のアプリケーションが内部で同時にデータにアクセスできることだと、YARNプロジェクト・ディレクターのArun Murthy氏は指摘します。
言い換えれば、これらの機能を分離することで、Hadoopクラスタリソースの管理は、現在のMap/Reduceシステムが処理できるものよりも強力になります。その主な管理方法は、オペレーティングシステムがタスクを処理する方法に似ています。
YARNを使用すると、開発者は、多くのサードパーティ製ツールのように外部でデータを選別するのではなく、Hadoop内部で直接アプリケーションを開発することができます。
ユーザーのためのHadoop 1.0から2.0は、ビューの技術的な観点から、技術的な開発の難しさを簡素化するために、根本的に異なっていない、むしろ質的な変化ではなく、量的蓄積の一種です。エンドユーザーにとっては、Map/ReduceまたはYARNが、リソースのスケジューリングと使用の方法。





