最近、LinkedInはSamzaという技術をオープンソース化しました。これは、リアルタイムデータ処理に特化した分散ストリーム処理フレームワークで、Twitterのストリーム処理システムStormに非常によく似ています。Kafka分散メッセージングシステムを使用している点です。
StormはSamzaと非常に似ており、LinkedInのChris Riccominiがブログ投稿で明言しているように、"[Samza]は、メッセージキューを処理するアプリケーションの構築を支援します、メッセージの変換など"Samzaのドキュメントでは、2つのシステムを比較しています。
Apache Software Foundationのプロジェクト・ホームページでは、KafkaとYARNの組み合わせの特徴と利点について説明しています。
高い耐障害性: サーバーやプロセッサーに障害が発生した場合、SamzaはYARNと連携してストリームプロセッサーを再起動します。
高い信頼性:SamzaはKafkaを使用して、すべてのメッセージがパーティションに書き込まれた順番に処理され、メッセージが失われることは絶対にありません。
スケーラビリティ:Samzaは、さまざまなレベルでパーティショニングされ、分散されています。Kafkaは、順序付けられ、パーティショニングされ、再展開可能で、耐障害性の高いシステムを提供します。
サムザの将来
それはSamzaが嵐のように技術革新に参加する多くのユーザーやコミュニティを誘致することができるかどうかを確認するために残っています。しかし、LinkedInは確かにSamzaの開発を確保するためにTwitterの開発ストームのようになり、後者は、より有利なの使いやすさで、結局のところ、YARNまたはSamzaのMesosフレームワーク上で実行もう少し柔軟性。
もしSamzaに良い未来があれば、YARNはStormだけでなく、Samza、さらには他の多くのものを実行することで、Hadoopコミュニティが過去1年半の間に生み出した誇大宣伝に応えることができるでしょう。というのも、結局のところ、多くのソフトウェアベンダーがビッグデータの「未来」をHadoopに託しており、最終的にこのプラットフォームが勝者になることを期待しているからです。
これまでのMapReduceテクノロジーへの依存はHadoopの適用性を制限してきましたが、YARNは大規模ストリーム処理、インタラクティブなSQLクエリ、機械学習、イメージ処理負荷のサポートを開放しました。テクノロジーが日々変化する中、Hadoopがすべてのビッグデータアプリケーションを支えるライブラリになるという考えは、より現実的なものになっています。