Google Compute Engineの仮想マシンは、Apache Hadoopを実行するための高速で信頼性の高い方法を提供します。今日、Googleは、Google Cloud Storage Hadoopプレビューにより、Google Cloud Platform上でHadoopをさらにシンプルに実行できるように取り組んでいます。クラスタ管理やファイルシステムよりもデータ処理ロジックに集中できます。
シンプルなコネクタ・ライブラリを使用することで、HadoopはColossus上で作成されたオブジェクトストアであるGoogle Cloud Storage上で直接実行できるようになりました!.これは、ビッグデータを扱う際にGoogleの技術を活用できることを意味します。
Google Cloud StorageでHadoopを実行する利点は次のとおりです:
クイックスタート:データを処理する準備ができています。データがNameNodeだけでなくHDFSにもレプリケートされている場合、このセーフモードを終了するのにあまり長く待つ必要はありません。また、データレプリケーションのVM時間を費やす必要もありません。
高い可用性とスケーラビリティ: Google Cloud Storageはコンピュートノードとネームノードが分かれているため、HDFSよりも高い可用性を誇ります。
ストレージは、バックアップ用とHadoop実行用の2つのデータコピーを維持する必要がないため。コンピュートも、データ提供のためだけに常時VMを稼働させておく必要がないためです。また、分単位で課金されるため、複数のコアでHadoopをより高速に実行することができます。
ストレージ管理のオーバーヘッドがない:HDFSはファイルシステムのチェックサム、再編成、アップグレード、反転、NameNodeの再起動など、定期的なメンテナンスが必要であることを考えると、Google Cloud Storageが支払うのは計算コストのみです。データは安全で一貫性があり、追加の労力は必要ありません。
相互運用性:Google Cloud Storageにデータを保管することで、Googleの他の****コンバージドサービスを利用することができます。
パフォーマンス:Google Cloud Storageのおかげで、GoogleのインフラはHDFSよりも高いパフォーマンスを提供します。
Google Cloud Platformの利点を正確に知るには、こちらの簡単なガイドをご覧ください。 Google では、Google Cloud Platform 上で Hadoop と MapReduce をより効率的に実行する方法について、皆様からのフィードバックやアイデアをお待ちしています。
written in ***: AWSとそのEC2という主要なライバルに対抗するため、Googleはより高度なルーティング、最大10TBの大容量****ディスク、App Engineホスティングサービスの更新、コスト削減など、プラットフォームの優位性を強化する一連の新機能を追加しています。予想通り、これらの施策によってグーグルは数十億ドル規模のインフラ市場にアクセスできるようになり、グーグルがアプリのためにさらに多くのスペースを開放し続けることを期待しています。




