このような検索機能を実現するためには、何千ものサーバークラスタで並列に計算を分析できることが必要です。ビッグデータからインテリジェンス情報をマイニングするプロセスには、基本的に次の3つのステップが含まれます:1)データを複数のサーバーノードに分散する、2)データの各ブロックを並行して分析する、3)これらの結果を統合する。
これらの操作は、データセット全体の分析が完了するまで繰り返す必要があります。
このような並列計算のスプリット・マージの性質により、ビッグデータ解析は基礎となるネットワークに大きな負担をかけることになります。世界最大のサーバーでさえ、ネットワークがサーバー間でデータを転送できるのと同じ速度でしかデータを処理できません。たとえば、フェイスブックを調査したところ、連続するフェーズ間のデータ転送が総実行時間の33パーセントを占め、多くの場合、通信フェーズが総実行時間の50パーセント以上を占めていました。
このボトルネックに対処することで、ビッグデータ分析が大幅に高速化されます。このボトルネックには2つの意味があります。
必要なのは、計算の各段階を通じて、スプリット・マージ・フェーズで必要なデータ転送を調整し、速度だけでなく利用率も向上させるインテリジェントなネットワークです。
SDNの役割
SDN はビッグデータ解析のためのインテリジェントな適応型ネットワークを構築する可能性を秘めています。制御画面とデータ画面の分離により、SDN は高度にカスタマイズ可能で、スケーラブルで柔軟なビッグデータのニーズを満たすためにネットワークをプログラムするソフトウェアインテリジェンスのための明確に定義されたプログラミングインターフェースを提供します。
SDN はオンデマンドでネットワークを構成し、適切なサイズと形状の要件に適合させ、コンピューティング VM が互いに通信できるようにします。これはビッグデータが直面する最大の課題である遅い処理速度に直接対処します。処理速度が遅いのは、ビッグデータアプリケーションのほとんどのコンピュート VM が大量のデータが分散集約されたオペレーションを通過するのを待つのに多くの時間を費やしているからです。SDN を使えば、ネットワークはセキュアなパスを作成し、分散アグリゲーションオペレーション中にオンデマンドでキャパシティを拡張することができます。
基本的にアプリケーションがネットワークから何を必要としているかを理解するこのソフトウェア・インテリジェンスは、ビッグデータ・アプリケーションに大きな精度と効率をもたらします。1)Hadoopの分割マージやMap-Reduceパラダイムなど、明確に定義された計算と通信のパラダイム、2)Hadoop SchedulerやHbase Masterなど、アプリケーションレベルの情報を活用できる集中管理構造。
SDNコントローラの助けを借りて、このソフトウェアインテリジェンスはプログラミングネットワークを通してアプリケーションの要求を正確に解読することができます。
SDN はビッグデータの管理、統合、分析を支援する他の機能も提供します。OpenStack はネットワークエレメントのセットアップと設定の工数を削減し、OpenFlow はデータセンターの自動化、BYOD、セキュリティ、アプリケーションの高速化などをサポートします。
さらに、SDN はビッグデータ用のネットワークインフラを開発する上で重要な役割を果たし、何千ものスイッチの管理を簡素化し、ベンダー間の相互運用性を促進し、ネットワーク構築とアプリケーション開発を加速させる基盤を作ります。
ビッグデータの強力なインパクトとその可能性に対する認識の高まりに伴い、組織が長期的な成功を確実にするためには、彼らのネットワークがこれらの新たなニーズに対応できるように拡張されていることを保証しなければなりません。成功するソリューションが2つの重要な要素を利用することは明らかです: ビッグデータアプリケーションのパターンと SDN によって提供されるネットワークのプログラマビリティです。この観点から、SDN はネットワークをより速く、より進化させ、知識と革新のペースを促進するために重要な役割を果たすことは間違いないでしょう。





