I. アーカイバル・ビッグデータとは
アーカイブ・ビッグデータとは、現在主流となっているソフトウェア・ツールでは実現できないような大規模な情報量を、合理的な期間で取得、管理、処理、整理し、より積極的な目的のためにビジネスの意思決定に役立てるアーカイブのことです。
多くの場合、構造化されていない、あるいは半構造化された大量のデータとして理解され、それを取得して分析に使用するには時間とコストがかかりすぎます。
アーカイブ・ビッグデータ技術の戦略的意義は、膨大なデータ情報を使いこなすことにあるのではなく、歴史的意義のある価値の高いデータを専門的に処理することにあります。ビッグデータを産業に例えるなら、この産業の収益性の鍵は、データの「処理能力」を向上させ、「処理」を通じてデータの「付加価値」を実現することにあります。つまり、鉱山を持つだけでなく、探索、採掘、高付加価値製品の精製にさまざまな手段を通じて。方法と手段が同じでなければ、アウトプットの価値は異なります。
アーカイブ型ビッグデータの特徴:膨大なデータ量、多くの種類のデータ、低い値密度、速い処理速度。
価値密度の低さ:価値密度のレベルはデータ総量の大きさに反比例します。例えば、保険のファイルは、保険契約は、一つずつファイルされますが、請求の確率は非常に低いです。強力な機械アルゴリズム "純化 "を通じて、データの価値をより迅速に完成させる方法は、現在のビッグデータの文脈で解決すべき問題になっています。
高速処理:これは従来のデータマイニングと異なるビッグデータの最大の特徴です。膨大なデータを前に、データ処理の効率は企業の命です。アーカイブのビッグデータも同様です。
アーカイバル・ビッグデータは、インターネット・ビッグデータと同じ特徴を持ち、アーカイヴ自体の属性からも、一方では政府系企業の運営基盤を提供し、中核的な生産性やアプリケーションをサポートすることができる一方、他方ではコンプライアンス、eディスカバリー、セキュリティ、診断、その他のサポートアプリケーションにとってアーカイヴが依然として大きな価値を持つという特徴があります。
アーカイブ・ビッグデータの出現
過去のアーカイブ検索は、主に手作業による記録とカード検索に頼っていました。情報技術の進歩とデータベース技術の発展により、コンピュータを利用したアーカイブ管理は、アーカイブ管理をより迅速かつ便利にしました。1、業務部門が業務システムを通じて業務データをアーカイブデータに変換すること、2、アーカイブ部門が手作業で記入、入力、収集、分類してアーカイブデータに変換すること。
新しい状況において業務システムによって生成されるアーカイブデータは、タイムリーで広範囲、大規模かつ複雑です。よりスマートな業務システムは、事務システムや財務システムなど、いつでも業務データをアーカイブに配信することができ、文書が完成したら、すぐにデータをアーカイブに転送することができます。ビジネス部門の異なる機能は、裁判所のファイル、病院の医療記録、人事記録など、より広範なファイルを生成し、異なるアーカイブ部門は、異なるビジネス記録を生成します。業務システムが常時稼働しているということは、アーカイブデータも常時生成されているということであり、アーカイブデータの量は途方もなく膨大になります。同じ業務部門が生成するアーカイブデータであっても、アーカイブの分類や情報要素が異なるため、異なるアーカイブデータとなります。#p#
したがって、アーカイブからのビッグデータのソースは、十分に将来の適用範囲を考慮する必要があり、アーカイブデータの「速い、広い、大きい、カオス」の特性を把握し、タイムリーな方法で「速い」アーカイブデータを来て、「広い」アーカイブデータの生成に対処するために、「大きい」アーカイブデータのストックをゼロにし、整然とした方法で「カオス」アーカイブデータの内容を分類します。速い」アーカイブデータはタイムリーに処理され、「広い」アーカイブデータは分解され、「大きい」アーカイブデータはゼロになり、「カオス」アーカイブデータは整然と分類されます。
ビッグデータの保存
伝統的なデータウェアハウスアーキテクチャにアーカイブビッグデータは、影響と課題のシリーズをもたらした、唯一のストレージレベルから見直すために、ストレージビルダーは、2つの側面から不安に直面する必要があります:まず、データサイズの急速な成長は、既存の共有ディスクアーキテクチャは、大量のデータのストレージに適応することができます;第二は、データ構造の複雑さと多様性であり、構造化データストレージソリューションの本体に基づいて、既存の非構造化データのモードと互換性ができます。データ。
ビッグデータの挑戦に直面して、アイシノテクノロジーはどのように技術的にビッグデータの問題を解決しますか?既存のデータベースストレージアーキテクチャから実用的な研究まで、大規模で包括的なストレージアーキテクチャは、ビッグデータのストレージに対する完璧なソリューションではないようです。多くの企業は、異なる種類のデータを最適なストレージシステムに保存させ、異なる種類のデータを統合し、最終的に統合されたデータに基づいてビジネス分析を行うことを好むはずです。
まず、データを格納するのに十分なスペースが必要です。ビッグデータについては、企業がデータの急速な成長のコンテキストでデータの平衡状態を維持し、簡単に拡張を達成するために、分割と征服のアイデアを採用する必要があります、つまり、分散ストレージシステムを構築し、安定した処理を達成するためにノードの増加を容易にします。
第二に、複数の構造を持つストレージエンジン。ビッグデータの構造が複雑で多様であるため、データウェアハウスに直面しているソースデータがあまりにも複雑で、この時点で、現在の構造化された主な単一のストレージ方式として変更する必要があります、非構造化データは、ストレージの分散ファイルシステムを使用して、半構造化データの構造は、ドキュメント指向の分散キー/値ストレージエンジンのモデルなしで緩やかな最も適したソリューションです。
最後に、Aerostarテクノロジーは複数のストレージエンジンを接続する「コネクター」を確立します。この "接続 "を通じて、分散ストレージと分散ファイルシステムの関係を確立します。多様なデータを保存する主な目的は、統合と分析であり、複数の構造を分離して保存することは、統合と分析に最適な選択ではありません。コネクタを構築することで、非構造化データを構造化情報に処理し、分散データベースのリレーショナルデータと迅速に統合し、ビッグデータの俊敏な分析を実現することができます。
IV.アーカイブ・ビッグデータの活用
従来のアーカイブ情報管理は、アーカイブのカタログ管理、分類、アーカイブ、ストレージ、単純な統計クエリで立ち往生している、アーカイブのビッグデータの重要な情報は、特定の技術的な方法を介して抽出する必要があり、マイニングのための特定の法律に従って抽出された有効な情報のために。唯一のさまざまなアーカイブユーザーの情報ニーズを満たすために、データマイニング技術が大きな役割を果たすでしょう。大規模なアーカイブの情報マイニングでは、主にテキスト分析に相当するテキストデータマイニング技術で使用され、一般的に高品質の情報を生成するためのテキスト処理プロセスを指します。#p#
機械学習、数理統計学、自然言語処理を含むテキストデータマイニングの基本分野、この基礎の上にテキスト情報抽出、テキスト分類、テキストクラスタリング、テキストデータ圧縮、テキストデータ処理を含むテキストデータマイニングの基本的な技術です。レポート、データ分析、データ予測を含む知識発見。図に示すように:
つまり、テキストデータの分類、融合、圧縮、要約、およびテキストからの知識や情報の抽出と発見は、テキストデータマイニングとして考えることができます。これらの技術により、アーカイブを検索する際に、大規模なデータ範囲から小規模な範囲へと移行することが可能になり、効率と精度が向上します。
アーカイブ情報技術の分野では、知識管理の発展は主に5つのステップから構成されています:認知、情報蓄積、知識マイニング、知識応用、標準化発展。通常、情報検索、分析、マイニング技術と組み合わせて、情報を適切に分類し、抽出したり、質問と回答の一連の流れに形成したりします。この一連の流れは、特定の問題領域を解決するためのデータマートを形成するために抽出され、特定の専門知識が意思決定の基礎として機能するように採掘されます。
アーカイブ知識の出力と評価には、効率的で高速な知的検索支援技術も必要です。
意味ベースの検索。コンピュータが人間の言葉を理解できるようになったときの検索モードを提供します。
アーカイブのインテリジェントな補助分類。システムは既存のアーカイブ分類から自律的に学習し、将来の補助分類の精度を向上させます。多次元の動的分類をサポートし、ユーザー定義の分類の表示をサポートします。
そのため、アーカイブビッグデータシステムプラットフォームの全体的なアーキテクチャは、実際のコンテンツ応用のプロセス、すなわちデータ収集、インテリジェント処理、データマイニング、インテリジェント検索応用プラットフォームの3つのレベルから実現する必要があります。データ収集はマルチタイプのデータ収集プラットフォームで行われ、これらの非構造化情報、マルチメディア情報及びユーザー情報はインテリジェントデータ処理プラットフォームで分析され、最後にデータマイニング結果の検索プラットフォームとマルチメディア自動編集及び研究プラットフォームがアプリケーションプラットフォームで提供されます。
従来のアーカイブ・データよりもアーカイブ・ビッグデータを管理するには、管理プロセスや文化を変える必要がありますが、多くの組織は従来のやり方を変えることに消極的です。競合他社が先行していたかもしれませんが、保守的な企業はこの機会を逃すでしょう。





