プロジェクトの背景
最近、商業銀行のビッグデータプロジェクトに対処するために、ビッグデータリソースプールを構築することを目的とし、プロジェクトの境界確認プロセスは、プロジェクトの位置付けのためのビューの2つの異なるポイントが登場し、伝統的な業界でのビッグデータのアプリケーションは、新しいインスピレーションを持っています。ビューポイント1、ビッグデータは、運用データのリポジトリ、運用データベースデータのストレージの歴史として、過去のデータの長い期間を提供するために、過去のデータストレージと高速クエリサービスの高速検索。視点2、ビッグデータは、ライブラリの歴史のデータウェアハウスとして、データウェアハウスの履歴データストレージの問題を解決するために、フルボリュームのデータ分析と知識マイニングサービスのための大容量、高可用性のデータストレージプラットフォームを構築します。図書館の歴史のデータベースの操作として、プロジェクトの実施を完了しているが、図書館の歴史のデータウェアハウスとして、データ分析や知識マイニングを行うには、ビッグデータに基づいて、置き換えるために配置されているが、今だけ2つが互いに矛盾しないことを見つけるために、新しいエントリポイントを発見しました。
データウェアハウスと業務用データベース
データウェアハウスの定義は一つではありませんが、一般的に受け入れられているコンセプトは、「管理者の意思決定プロセスをサポートする、主体志向の、統合された、時間変化する、不揮発性のデータコレクション」です。簡単に言えば、データウェアハウスは、意思決定支援データモデルの物理的な実装として機能し、組織の戦略的意思決定に関連する重要な情報を格納するセマンティックデータストアです。
データウェアハウスは、オンライントランザクション処理システムと呼ばれる、オンライントランザクションとクエリ処理の実行を主な業務とする業務用データベースとは異なります。データウェアハウスシステムは、データ分析および意思決定支援、すなわちオンライン分析処理の面で、ユーザーまたは機械学習にサービスを提供します。両者の主な違いは、大きく5つの分野に分けられます。
1)ユーザーシステムの方向性:顧客と市場;
2) データ内容:現在および過去のもの;
3) データベース設計:ERとトピック指向
4) 表示: 現在とパノラマ
5) アクセス・モード:アトミック・トランザクションと読み取り専用操作
従来のデータウェアハウス・サーバのモデルはリレーショナル・データベースを使用するのが一般的であり、ソフトウェア実装の観点からは、データウェアハウスと運用データは同じモデルを使用することになります。このことは、データウェアハウスと運用データベースが、業界の独占によるコスト依存、データモデルによるストレージボトルネック、計算ボトルネックという同じ問題に直面していることを決定づけます。
ビッグデータの位置
ビッグデータ技術をデータウェアハウス・システムに適用するモデルはまだ模索中ですが、これまでにいくつかの適用分野をまとめました。
1) データウェアハウスの履歴データ保存システムとしてのビッグデータ:データウェアハウスが短期間のデータしか保存できないという問題の解決
(2)ビッグデータプラットフォームに基づくデータモデルを構築し、低コストのデータマイニングシステムにコミット:従来のBIのボトルネックは、ハードウェアとソフトウェアのバインディング、商業独占と処理性能であるが、データと並列コンピューティング能力のオープンソースシステムのアルゴリズムモデルに基づいて、フルボリュームのデータ分析とマイニングを構築するために、最終的な目標は、元の高コストのBIシステムを置き換えることであり、企業の負担を軽減します。
3) リアルタイム+オフラインモードの確立により、企業の既存のIT資源と設備をフルに活用し、成熟したBI技術をフルに活用し、企業により良いサービスを提供することができます。
遺産問題
ビッグデータはオフラインのデータウェアハウスとして位置づけられ、リアルタイム運用ライブラリ-データウェアハウス-ビッグデータリソースプールの3層のデータストレージモデルが存在することになり、位置づけの目標は明確になっていますが、具体的な実装はまだ模索中です、続く...




