フェイスブックはネットワークインフラのスケーラビリティにおいて業界をリードする存在となっていますが、フェイスブックのデータセンター運用責任者であるデルフィナ・エバリーは、7x24 Exchange Fall 2013カンファレンスでのプレゼンテーションで、フェイスブックの内部運用データの一部を明らかにしました。7x24 Exchange Fall 2013カンファレンスでのプレゼンテーションで、フェイスブックのデータセンター運用責任者であるデルフィナ・エバリー氏が、フェイスブック社内の運用・保守データの一部を明らかにしました。
[]
フェイスブック、データセンター運営責任者、デルフィナ・エバリー氏
1人で20,000台のサーバーを管理するという驚異的な台数。
フェイスブックの膨大な数のサーバーのハードウェア面では、「保守性」に重点を置いており、サーバーの初期設計や、データルーム内の機器のメンテナンスが可能な限りシンプルかつ時間効率よく行えるようにすることを目的とした一連の取り組みも含まれています。フェイスブックの各データセンターの運用スタッフは、少なくとも20,000台のサーバーを管理し、中には26,000台以上のシステムを管理しているスタッフもいると説明します。
フェイスブックのサーバー対マネージャー比率は最近最高を記録し、現在10,000:1を超えています。
ビッグデータは猛威を振るい、O&Mは簡単な仕事ではない
フェイスブックのデータセンターで運用や保守を行うのは簡単なことではありません。彼らは毎日大量のデータに直面しています。
自動化されたトラブルシューティング・システム:本来は保存の目的
運用と保守を管理するため、フェイスブックは、サーバーの問題を自動的に検出して修正するCYBORGなど、日常的な運用と保守作業を自動化するソフトウェアを開発しました。CYBORGが問題を自動修正できない場合、システムは自動的に注文システムにアラートを送信し、問題の詳細な追跡と分析のためにデータセンターのスタッフに割り当てます。
Eberly氏は、自動化努力の目標は、サーバーをオンサイトで処理する必要がない限り、問題解決のために技術者を現場に送り出すことを避けようとすることだと述べました。自動化を重視するのは、フェイスブックが無人のデータセンターを作ることに興味があるからではありません。
エバリーは、フェイスブックにとって人材を確保することは非常に重要だと説明します。なぜなら、人々は高度な仕事を好み、会社は彼らとともに進歩し、成長するために彼らを引き留めたいからです。
サーバー設計を支配する「保守性」:54%の時間節約
フェイスブックでは、運用チームの時間と作業量は、フェイスブックのハードウェアの設計に従って組織化されています。例えば、すべてのサーバーは「修理可能」であるように一から設計されているため、データセンターのスタッフがサーバールームに穴を開け続ける必要はありません。また、サーバーは工具なしでディスクやコンポーネントを交換できるように設計されています。その結果、フェイスブックはサーバーの修理に費やす時間を54%削減しました。
Eberly氏はまた、これらのシステムは複雑ですが、多くの開発者を必要とするわけではなく、フェイスブックのO&Mチームには3人のソフトウェア・エンジニアしかいませんが、データセンターの業務には欠かせないものだと述べています。
究極
経由





