機械学習はどこにでもあるものであり、たとえ機械学習だけを利用するのでなくても、ビッグデータ・アプリケーションにはよく登場します。典型的なビッグデータのユースケースをいくつかブログに書きました。言い換えれば、これらのアプリケーションは「極端なケース」において***の結果を出すことができるということです。最後に、バイトサイズのデータ容量、リアルタイムのデータ速度、および/または複数構造化データの多様性の組み合わせについても言及しました。
当時、私はアプリケーションのリストも作成しましたが、収集プロセスでは意図的に「機械学習アナリティクス」を避けました。その主な理由は、機械学習はこれらのユースケースにおいて、主要ではないにしても一般的なツールではあるものの、それ自体がユースケースではないからです。言い換えれば、機械学習はそれ自体のメリットで特化されたアプリケーション・ドメインではないということです。同じ理由で、ビッグデータのユースケースのようにスキーマ設計、メタデータ管理、データ統合を挙げていません。しかし、機械学習と同様に、これらはすべてビッグデータ分析アプリケーションの価値を実現するためにそれぞれ貢献しています。
ビッグデータ・アプリケーションの投資収益率に対する機械学習の貢献は2つあります。1つは、データサイエンティストの活躍を促進すること、もう1つは、***データサイエンティストでさえ無視してきた、見過ごされてきた解決策を発見することです。これらの価値は、機械学習の核となる機能、すなわち、人間の介入や明示的なプログラミングなしに、分析アルゴリズムが***データから学習できるようにすることから生まれます。ソリューションは、データ科学者が典型的なデータセットに基づいてモデルを作成し、アルゴリズムを使用してこれらの例や新しいデータソースから自動的に一般化し、学習することを可能にします。
多くの場合、機械学習はビッグデータ・イノベーション***の投資対効果です。機械学習への投資は、ビジネスにカスタマイズされたあらゆるビッグデータ案件を深化させることができます。機械学習アルゴリズムは、量、速度、種類の面でますます効率的になっているからです。マーク・ファン・ライメナム(Mark van Rijmenam)氏が機械学習に関する最近の記事で述べているように、「処理されるデータが多ければ多いほど、そのようなアルゴリズムが優位性を示すことができる」のです。彼は、音声認識や顔認識、クリックストリーム処理、検索エンジン最適化、レコメンデーションエンジンなど、多くの機械学習アプリケーションは意図的な分析と言えるかもしれないと主張しています。
[]
この素材から手がかりを見つけるために、「ディープラーニング」はビッグデータ科学者の機械学習指導システムの重要なツールとなっています。ファン・ライメナムが言うように、ニューラルネットワークを使ったディープラーニングは、これらのデータストリームから知覚力を引き出すのに役立ちます。"ディープラーニングは、異なる特徴を持つデータの構成要素間の壁を壊し、それらの特徴を利用して、それらの特徴から異なる特徴の組み合わせを識別し、それらが何を見ているのか、何をしているのかを把握することができます。"とファン・ライメナム氏。
機械学習が、動的な分散シナリオを感知・処理できる環境を構築するための基本的なツールであることは明らかです。テロ活動、自然災害、ハリケーンなどのリアルタイムの脅威やその他の脅威を検知し対応する人間の能力は、膨大なデータからの情報の自動フィルタリング、分類、相関関係によって決まります。この能力がなければ、人類はビッグデータの海に「溺れる」危険性があります。
36 ビッグデータの知識マッピング:機械学習について
機械学習は、確率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論、その他多くの学問分野にまたがる学際的な分野です。機械学習は、コンピュータが人間の学習行動をシミュレートまたは実装して、新しい知識やスキルを習得したり、既存の知識構造を再編成したりして、コンピュータ自身のパフォーマンスを継続的に向上させる方法を研究するものです。
これはAIの中核であり、コンピュータに知能を持たせるための基本的な方法です。その応用は、演繹ではなく帰納と合成を主に用いるAIのあらゆる分野で見られます。