blog

フェイスブックの運用・保守の内側:2万台のサーバーを1人で管理する

フェイスブックは、ネットワークインフラを拡張する能力において業界をリードする存在となっています。最近、フェイスブックのデータセンターで運用責任者を務めるデルフィナ・エバリーが、フェイスブックの運用保守...

Feb 18, 2015 · 3 min. read
シェア

フェイスブックはネットワークインフラのスケーラビリティにおいて業界をリードする存在となっていますが、フェイスブックのデータセンター運用責任者であるデルフィナ・エバリーは、7x24 Exchange Fall 2013カンファレンスでのプレゼンテーションで、フェイスブックの内部運用データの一部を明らかにしました。7x24 Exchange Fall 2013カンファレンスでのプレゼンテーションで、フェイスブックのデータセンター運用責任者であるデルフィナ・エバリー氏が、フェイスブック社内の運用・保守データの一部を明らかにしました。

[]

フェイスブック、データセンター運営責任者、デルフィナ・エバリー氏

1人で20,000台のサーバーを管理するという驚異的な台数。

フェイスブックの膨大な数のサーバーのハードウェア面では、「保守性」に重点を置いており、サーバーの初期設計や、データルーム内の機器のメンテナンスが可能な限りシンプルかつ時間効率よく行えるようにすることを目的とした一連の取り組みも含まれています。フェイスブックの各データセンターの運用スタッフは、少なくとも20,000台のサーバーを管理し、中には26,000台以上のシステムを管理しているスタッフもいると説明します。

フェイスブックのサーバー対マネージャー比率は最近最高を記録し、現在10,000:1を超えています。

ビッグデータは猛威を振るい、O&Mは簡単な仕事ではない

フェイスブックのデータセンターで運用や保守を行うのは簡単なことではありません。彼らは毎日大量のデータに直面しています。

自動化されたトラブルシューティング・システム:本来は保存の目的

運用と保守を管理するため、フェイスブックは、サーバーの問題を自動的に検出して修正するCYBORGなど、日常的な運用と保守作業を自動化するソフトウェアを開発しました。CYBORGが問題を自動修正できない場合、システムは自動的に注文システムにアラートを送信し、問題の詳細な追跡と分析のためにデータセンターのスタッフに割り当てます。

Eberly氏は、自動化努力の目標は、サーバーをオンサイトで処理する必要がない限り、問題解決のために技術者を現場に送り出すことを避けようとすることだと述べました。自動化を重視するのは、フェイスブックが無人のデータセンターを作ることに興味があるからではありません。

エバリーは、フェイスブックにとって人材を確保することは非常に重要だと説明します。なぜなら、人々は高度な仕事を好み、会社は彼らとともに進歩し、成長するために彼らを引き留めたいからです。

サーバー設計を支配する「保守性」:54%の時間節約

フェイスブックでは、運用チームの時間と作業量は、フェイスブックのハードウェアの設計に従って組織化されています。例えば、すべてのサーバーは「修理可能」であるように一から設計されているため、データセンターのスタッフがサーバールームに穴を開け続ける必要はありません。また、サーバーは工具なしでディスクやコンポーネントを交換できるように設計されています。その結果、フェイスブックはサーバーの修理に費やす時間を54%削減しました。

Eberly氏はまた、これらのシステムは複雑ですが、多くの開発者を必要とするわけではなく、フェイスブックのO&Mチームには3人のソフトウェア・エンジニアしかいませんが、データセンターの業務には欠かせないものだと述べています。

究極

経由

Read next

Storage vMotionの謎を解く

Storage vMotionは、データストア間で仮想マシンを移行する必要がある場合に便利な機能です。例えば、新しく購入したアレイに全てのVMを移行する必要があるかもしれません。Storage vMotionを使用すると、マウスを数回クリックするだけで、システムのダウンタイムなしにこれを行うことができます。Storage vMotionのもう1つのアプリケーションは、ワークロードをシックプロビジョニングからシンプロビジョニングに変換することです。

Feb 16, 2015 · 2 min read