blog

クラウドにおけるビッグデータセキュリティ:主要課題を理解する

クラウド・コンピューティング環境におけるデータ・セキュリティの課題トップ10に関する調査結果の抜粋と、ビッグデータ・プロジェクトの実装のセキュリティを確保するために組織が行うべきことに関するアドバイス...

Jan 6, 2014 · 6 min. read
シェア

最近のカンファレンスで、講演者の一人がハードウェア・セキュリティ・モジュールを通じて提供されるクラウドベースの鍵管理(HSM)について言及するのを聞きました。HSMとは何でしょうか?

簡単に言うと、HSMについてあまり聞いたことがないのであれば、情報セキュリティ管理にこの方法を使う必要はないでしょう。データを保護するには、もっと簡単で安価な方法が他にあります。

HSMは、セキュア・ソケット(SSL)証明書などの秘密鍵や公開鍵を保管・管理するために設計された特殊なハードウェア・システムです。AWSはCloudHSMを、顧客がデータを暗号化するための暗号鍵を安全に生成、保管、管理できるサービスと説明しています。

このシステムは、デジタル著作権管理や公開鍵基盤を運用する必要がある場合に便利です。このシステムは、規制遵守の確保など、高度なセキュリティが要求される製品に使用されます。

しかし、一般的なプロジェクトでは、それ以上のセキュリティが必要です。機密のガバナンス・データや医薬品の機密情報を扱うのでなければ、それ以上のセキュリティが必要です。

概念的には、ビッグデータは新しいものではなく、多くの組織が何十年も前から大量のデータを収集し、利用してきました。ビッグデータという考え方は、近年になって本格的に形作られるようになりましたが、その理由の大部分は、あらゆる規模の企業がクラウドを通じてインフラにアクセスするようになったことで、ビッグデータが成長する絶好の機会を得たことにあります。新たな機会が組織にとって大きなビジネスチャンスとなった一方で、多くの企業はビッグデータ・アプリケーションに組み込まれたセキュリティ問題についてまだ考えています。

今年6月、クラウド・セキュリティ・アライアンスのビッグデータ・ワーキング・グループは、「ビッグデータのセキュリティとプライバシーに関する課題トップ10」と題する調査結果を発表しました。この調査結果には、クラウド・コンピューティング・サービス環境において、大規模で多様な非構造化データの収集が直面する、さまざまな種類のセキュリティとプライバシーの問題が詳述されています。今日のビッグデータを取り巻く大騒ぎに伴い、ビジネス消費者はビッグデータのセキュリティについてこのレポートから何を学ぶことができるでしょうか?

この記事では、クラウド・コンピューティング環境におけるデータ・セキュリティの課題トップ10に関する調査結果の抜粋と、ビッグデータ・プロジェクトの実装のセキュリティを確保するために組織が行うべきことに関するアドバイスを紹介します。

セキュリティリスクのモデリング

クラウドコンピューティング環境におけるビッグデータアプリケーションに関連する個々のリスクを掘り下げるにあたり、CSAビッグデータ作業部会が最も即効性があり、効果的な取り組みの1つは、リスクに対するシンプルなアーキテクチャモデルを構築することでした。このモデルは、データがどのように処理され保存されるかを説明するもので、ビッグデータのソース、処理クラスタ、データのエンドポイントコンシューマ、さらに処理と保存のオペレーションが行われるクラウドコンピューティング環境を含みます。さらに、このモデルは、このエコシステムを通過するデータの単純な指向性のデータフローを示しており、これは間違いなく、ビジネスユーザーがクラウドコンピューティングの文脈でビッグデータが実際に何を意味するのかを理解するのに役立ちます。

CSA の作業部会はまた、リスクを「インフラ・セキュリティ」、「データ・プライバシー」、「データ管理」、「完全性と受動的セキュリティ」の 4 つに分類しました。

これらの分類を用いることで、組織は、既存のセキュリティ管理アーキテクチャのどこに主なリスクがあるかを特定することができます。

ビッグデータ・アプリケーションのセキュリティ課題

この調査を実施するために、CSA ワーキンググループは CSA メンバーにインタビューを行い、公共出版物やビジネスジャーナルを分析しました。

具体的な発見に関しては、ほとんどの組織が力を注いでいる主要な考え方、すなわち、分散プログラミングフレームワークにおける計算の安全確保について、以下に詳述します。最初に特定されたリスクは、MapReduceフレームワークのような計算要素のセキュリティと、2つの特定のセキュリティ問題に関するものです。第一に、「マッパー」の完全性で、コードがデータを断片的に分析し、評価する必要のあるキーと値のペアを出力します。第二に、プラットフォームからの機密データの漏洩を防ぐためのデータクレンジングと分離識別操作の実行能力です。MapReduceのような高度なツールを使用する企業は、SELinuxの必須アクセス制御ツールと分離識別手順を使用する必要があります。同様に、企業はクラウドプロバイダーに対して、その環境でどのように制御され、修復されているかについての情報を提供するよう要求する必要があります。

非リレーショナル・データ・ストアのセキュリティ・ベスト・プラクティス。NoSQLやその他の大規模な非リレーショナル・データ・ストアの使用は、本人認証、保管中や転送中のデータの暗号化、ロギングやデータ・タグ付け、分類など、多くの重要な分野における機能不足のために新たなセキュリティ問題を引き起こす可能性があります。組織は、認証とデータの完全性を強化するために、アプリケーションの分離やミドルウェア層の利用を検討する必要があります。パスワードはすべて暗号化し、システムへの接続にはセキュア・ソケット・レイヤー/トランスポート・レイヤーなどのセキュリティ対策を使用する必要があります。また、機密データに関連するすべてのトランザクションをカバーするログ記録が生成されるようにする必要があります。

安全なデータ保管とトランザクションログデータとトランザクションログは、複数のストレージメディアに保存することができますが、組織は不正アクセスを防止し、システムの継続性と可用性を確保する必要があります。ポリシーベースの鍵暗号化アルゴリズムを使用することで、許可されたユーザーとアプリケーションのみがプラットフォームにアクセスできるようにすることができます。

エンドポイント入力の検証/フィルタリング。ビッグデータ・プロジェクトの実装では、多数のエンドポイントが処理と保存のためにデータを送信します。信頼できるエンドポイントだけがデータを送信でき、偽のデータや悪意のあるデータが送信されないようにするために、組織は企業ネットワークに接続された各エンドポイントを承認する必要があります。しかし、CSA の作業部会は、信頼されたプラットフォーム・モジュール・チップを可能な限り検証プロセ スに導入することを推奨する以外に、このリスクを軽減する推奨される一連の対策を打ち出していません。ホストおよびモバイル・デバイス・ベースのセキュリティ管理は、信頼されていないエンドポイントに関連するリスクを軽減し、システム・インベントリの追跡と保守に関する強力なプロセスを実現します。

セキュリティのリアルタイム監視。ビッグデータ・プラットフォームの監視とセキュリティ分析の実行は、ほぼリアルタイムで行う必要があります。従来のセキュリティ情報・イベント管理プラットフォームの多くは、実際のビッグデータ・プロジェクトの実装で使用される実際のデータの規模に対応していません。現状では、データベースやその他のフロントエンド監視ツールが使用されていない限り、真のHadoop監視やその他のビッグデータ・プラットフォームはほとんどありません。

スケーラブル、コンポーザブル、プライバシー保護されたデータマイニングと分析。ビッグデータの実装は、データの漏洩や暴露に関連するプライバシーの問題を引き起こす可能性があります。実際、ストレージ内のデータに対する強力な暗号化の使用、データへのアクセス制御の実施、内部攻撃の成功を最小限に抑えるためのワークフローと制御の分離など、実際に導入されれば、組織がこの課題に対処することを可能にするセキュリティ制御がすでに数多く存在します。

データ中心のセキュリティを強化するためのパスワードの使用。歴史的に普及してきたデータ管理方法は、データそのものではなく、データを管理するシステムだけを保護するものでした。しかし、実践が示し続けているように、これらのアプリケーションやプラットフォームは極めて脆弱です。クラウド・プロバイダーの環境内で機密データをカプセル化するための強力な暗号化の使用と、鍵管理と安全な鍵交換を可能にする新しい革新的なアルゴリズムの使用は、データへのアクセスを管理する、より信頼性の高い方法です。

きめ細かなアクセス制御NoSQLデータベースやHadoop分散ファイルシステムなどのビッグデータストアにきめ細かなアクセス制御を採用するには、必須のアクセス制御と高度な認証が必要です。 Apache Accumuloのような新しいNoSQLの実装では、キーと値のペアに対して非常にきめ細かいアクセス制御が可能です。クラウドサービスプロバイダは、クラウドコンピューティング環境で使用するアクセス制御のタイプを指定できるようにする必要があります。

きめ細かな監査継続的なモニタリング、定期的な監査、ログとイベントデータの分析を組み合わせることで、ビッグデータ環境における侵入や攻撃イベントを検出することができます。ここでの重要なコントロールは、ビッグデータ環境の内外のすべてのレイヤーでロギングに集中することです。

データの実証性。 この文脈では、データ・プロテナンスは主にデータの検証と信頼性に関係します。認証、エンドツーエンドのデータ保護、きめ細かなアクセス制御などのアプローチは、ビッグデータ環境におけるデータ実証性の検証と検証の問題に対処するのに役立ちます。

はんけつをくだす

多くのクラウド・コンピューティング・サービス・プロバイダー環境では、ビッグデータの収集と処理が何らかの形で行われています。ほとんどの組織はまだビッグデータプラットフォームと内部統制を導入していないかもしれませんが、クラウドコンピューティング環境における企業データに対する主要な脅威とリスクを理解することは重要です。ビッグデータ・アプリケーションに関するCSAワーキンググループの調査結果を活用し、実施すべき主要な統制に明確に焦点を当てることで、ビジネス消費者は、サービス・プロバイダー環境におけるビッグデータ・プロジェクトのインフラとアプリケーションの状態を適切に評価できるようになります。

Read next

Clouderaは、Hadoopを万能データソリューションにすることを提案している。

Hadoopをエンタープライズ・データ・ハブとして利用するというClouderaの考えは大胆ですが、現実は大きく異なっており、Hadoopが他のビッグデータ・ソリューションを凌駕するにはまだ長い道のりがあります。

Jan 6, 2014 · 3 min read