blog

ビッグデータにおける非構造化データのマイニング:テキスト

クリックストリームに含まれる非構造化テキストデータとは?\nまず、非構造化テキストデータとは何かについて説明しますと、これはクリックストリームの元データに含まれるテキスト形式のデータのことで、元のLO...

Jun 24, 2025 · 9 min. read
シェア

I. クリックストリームに含まれる非構造化テキストデータとは?

まず、非構造化テキストデータとは何かについて説明しますと、Adobe AnalyticsのData FeedやWebtrekkのRaw Dataのような、クリックストリームの生データ(元のLOGログやデータベースに構造化されたデータの一部を含む)に含まれるテキスト形式のデータを指します。 もちろん、テキストや文字列の形式であっても、ブラウザの種類情報やレコメンデーションソースのように、値がテキストであるにもかかわらず、値が規則的であるなど、実際には非構造化ではないデータもあります。もちろん、一部のデータは、テキストまたは文字列の形式ですが、それは本当に非構造化されていない、ブラウザの種類情報、推奨ソースのように、値はテキストですが、値は規則性を持っている、ディメンションテーブルに関連付けられている外部キーとしてデータベース内のこれらのデータは、したがって、それらは非構造化データの厳密な意味であるとは見なされません。 など、実際の非構造化テキストデータ:

  • 検索語:ユーザーの検索語をすべて正確に定義することは不可能です;

  • 完全なURLアドレス:特に特定のモニタリングタグを含むもの;

  • 特定の監視タグ:通常、URLタグの形で監視の観点から;

  • ページ名:名前の正常性はシステム構成情報によって異なります;

  • ユーザー定義ラベル:例えば、ユーザー自身に対する評価ラベル(偉大、高飛車など);

  • 記事固有の情報:記事の概要、キーワードなど、ユーザーと同様に、記事情報も記事のみによるものです;

  • 固有のデバイス番号:IMEI、MACなど;

これらのメッセージの特徴は、1.値が通常テキストか文字列であること、2.長さに一貫性がなく、1つの値の結果が1バイトから1,000バイトの長さであること、3.値のドメインの範囲が明示されていないことです。

[]

II.これらのデータの出所は?

これらは通常、システムの結果として生成または収集される非構造化データそのものに加えて、ユーザーが定義します。

カスタムの非構造化テキストデータ。この情報は通常、webtrendsのmetea、Adobe AnalyticsのカスタムのPropとeVar、UAのDimensionなどのカスタムディメンションであるツールでキャプチャされます。eVarのフィールドフォーマットはPropのそれと同じですが、255より長いので、基礎となるデータサポートの観点から、パスの適用を考慮せずにディメンションをカスタマイズするプロセスの場合、ディメンションを定義するためにeVarを使用してみてください。

システムによって取得される非構造化テキストデータ。たとえば、Adobe Classification Rule Generator、処理ルール、または変数値のJS自動コピーによって生成されます。

III.非構造化テキストデータのアプリケーションシナリオは?

通常、非構造化データは、レポートやOLAPの様々に適用される分析の次元として、構造化データと同じように使用することができますが、これは唯一のその役割のほんの一部を再生することができます、その理由は、固定次元の従来の分析に頼ることは困難であることです暗黙の知識の非構造化データを掘るために、したがって、データマイニングの関連技術を借りる必要があります。 検索語を例として、基本的に局内のすべてのツールは検索語を監視しますが、検索語の通常のアプリケーションシナリオのほとんどは、次の種類に集中しています:

  • 運用システムは、最近のユーザーのホットな検索語句を見て、どの語句がどのような傾向を持っているか、コンバージョン効果と組み合わせて、検索語句の運用を導きます;

  • 商品ソーシングシステムでは、あるカテゴリーを購入するユーザーが普段どのような言葉で検索しているのかを知ることが重要で、その結果ページでのランキングを向上させることで、より良い表示やクリックを獲得し、販売機会を生み出すことができます;

これらのシナリオは確かに便利で実用的ですが、問題の一つは、キーワードの選択と拡張のためのSEOとSEMに加えて、アプリケーションのフルレンジを使用することができ、他のビジネスシステムは、直接再利用することはできません。言い換えれば、SEOやSEMは、すべてのキーワードを使用することができますが、他の事業部門は、それの一部を使用することができます、理由は単純な文字通りからキーワードの数が多い深い値を掘ることができないということです。 たとえば、家電製品の購入やマーケティングなど、特定のキーワードのルーツを検索することで、家電関連の検索用語の一定期間をフィルタリングする必要があり、その後、検索結果とさらなる分析に正規またはファジーマッチングを使用しますが、時間の大部分は常にあるビジネスは、たとえば、場所の値から抽出することはできませんです:

  1. 「サムスン "と "ノート2"、経験の浅い人々は、2つのオフをどのように知ることができないのですか?

  2. サムスン』と検索しても、彼がサムスンの携帯電話を探しているのか、サムスンのテレビを探しているのかわかりません;

  3. 1回の訪問でn個の単語を検索しました。

  4. 家電製品カテゴリーのターゲット顧客として、あなたは通常どのような言葉で検索しますか?

  5. 超薄型、赤、ビジネス機能など、隠れたユーザーの検索キーワードにある具体的なニーズとは?

IV.非構造化テキストデータのマイニング実装

デフォルトでは、データはData FeedまたはRaw Dataの形で採掘されるため、ここではデータの監視・収集やウェアハウスのプロセスは省略し、データマイニングの観点からのみ探ります。

1.アソシエーションルールに基づくテキストマイニング

最もよく使われる連想ルールはアプリオリ(Apriori)で、その中核は2相頻度集合の考え方に基づく再帰的アルゴリズムで、1次元1層のブール型連想ルールに分類され、2つの事象や物事が通常一緒に発生する1つの事象など、トランザクションマイニングルールでよく使われます。 このアソシエーションルールの問題点は、時間という要素が欠落しており、同じ期間内の事象の発生しか判断できないことです。例えば、サムスンを検索したユーザはアップルも検索しており、この結果は検索機能の経験に適用され問題はありませんが、シナリオ間の強い時間的関係の適用が問題になる場合、関連付けルールの問題は次のようになります:

A、Bの2つの記事は、それぞれ、2つの部分のコンテキストは、相関ルールを通じて、これらの2つの部分は、相関関係が必ずしも非常に強いことを示唆しているが、推奨ロジックの内部では、Bを見る前に、Aを見ることではなく、最初にBを見て、次にAを見ることをお勧めします;

A、Bの2つの商品は強い相関関係を持って、Aはマウス、Bはノートパソコン、通常、最初にノートパソコンを購入すると仮定すると、マウスを購入することです、その後、ノートパソコンを購入することをお勧めした後にマウスを購入する場合は、論理的な関係の損失を示しています。

これらのような多くのアプリケーションシナリオがあり、コアはその中で発生する物事の順序を取ることです。したがって、アソシエーションルールは、通常、サポートと信頼度の設定に加えて、実際のビジネス経験に応じて調整する必要があり、明らかな時系列のないビジネスアプリケーションのシナリオに適用され、ルールのうち、低すぎるサポートと信頼度が意味をなさない、高すぎる設定とあまりにも少ないルールをもたらします。 他のデータマイニングモデルと比較して、アソシエーションルールはシンプルで理解しやすく、適用しやすい、通常、例えば、 "何かをした後、他に何ができるか "として説明されています:

  1. あるキーワードで検索した後、ユーザーは他に何を検索するのでしょうか?

  2. あるチャンネルから入った後、通常はそのチャンネルから入るのですか?

2.シーケンスパターンマイニング

逐次パターンマイニングは、時間を考慮することと、アルゴリズムに3つのカテゴリーがあることを除けば、アソシエーションモデリングと同じ関係を説明します:

  • クラスAprioriアルゴリズム:典型的にはGSPアルゴリズム、SPADEアルゴリズムを表します;

  • 分割パターンに基づく成長アルゴリズム:典型的にはFreeSpanとPrefixSpanアルゴリズムに代表されます;

  • 配列比較に基づくアルゴリズム:Disc-allで表されます;

全体的なPrefixSpanとDisc-allは、アルゴリズムの効率とパフォーマンス性能の面でより良くなると同時に、時間に関するビジネス上の制約を考慮に入れて、例えば、分析でユーザーのリテンションサイクルが1年しかないことがわかった場合、1年以内に発生する行動を繰り返すユーザーにのみアクションをターゲットにしたい場合、1年が制約となります。これは、時系列ベースで行う場合にも同様に考慮する必要がある要素です。

3.テキストクラスターマイニング

クラスタ分析は、データマイニングのシナリオの最も基本的なニーズにビジネスであり、通常のニーズなど、ユーザーの特定のタイプの基本的な特性を記述すると同時に、これらの特性は、さらなるマイニングや分析のための基本的な条件として使用することができます。クラスタ分析で最も一般的に使用されるアルゴリズムは、K-MEANSクラスタリングと2ステップクラスタリングであり、クラスタリング法のシンプルさと実用性のために、我々はここで2つの違いのポイントと主なアプリケーションのポイントを分析するために行います:

K-MEANSクラスタリング:顧客特性の全体的なクラスタリング分析、クラスタリングのための多数のメンバーまたはユーザー、異なるグループの優れた特性を見つけるために。特徴:1.ノイズフィルタ、2.クラスタ数は自動/指定することができます、3.正規化によって極端な値の影響を低減します。

ツーステップクラスタリング:ツーステップクラスタリングとK平均法のアプリケーションのシナリオは同じですが、特徴:1つのサブグループの数を指定するための要件は、特定の経験的要件、2極値、ノイズの影響を受け、設定することはできません、3大規模なデータの大量オーバーヘッドリソースは、④の影響を受ける分類の初期素数の選択によって。

4.テキストルール抽出

いわゆるテキストルール抽出とは、テキストを変数としてユーザがルールを抽出することを指し、通常、決定木、SVM、SLRMがビジネスルールを抽出するために使用されます。例えば、家電製品を購入するユーザを見つけ、彼らがその製品に対してどのような需要ポイントを持っているかを見つけるには、次のような方法でルールを抽出することができます:

デシジョンツリー:デシジョンツリーマイニングモデルは、通常C 5.0、C&RT、CHAID、QUESTなどが使用されます。デシジョンツリーモデルは、ルールをツリー状に表示し、ターゲットに対するルールの影響度に応じて分岐することが特徴で、ビジネス理解とルール抽出に非常に適しています。

テキストルール抽出は、しばしば分類とも呼ばれ、特定のタイプの目標を持つユーザー間の要因***に影響を与えるいくつかのルールを抽出することを意味します。これは、ビジネスアプリケーションのための最も一般的に使用されるデータマイニングモデルの一つであり、一般的に使用されています:

  • 発見されたターゲットユーザーグループでは、*** 6ヶ月以上の購入間隔などのユーザーの特性を解約の濃度を発見し、この時点では、回復を解約する前に、ユーザーの6ヶ月以上を行うことができます;

  • クラスAの商品のプロモーションをターゲットにするには、ルールマイニングのためにクラスAの商品を購入したユーザーをターゲットにすることができます、Cの商品を購入することであることが判明する可能性があり、同時に所得が1,000よりも高く、地理的な領域は、東京のユーザーであり、この時点で、直接精密マーケティングのためのユーザーのルールで抽出されます;

  • 例えば、現在新製品の数がある促進する必要がある、ターゲット人口を見つける必要がある、あなたは既知の人口のために掘ることができ、最終的な結果は、検索検索黒、フィルタリングされた "新しい棚"、25歳以下の女性ユーザーの年齢かもしれませんが、ユーザーの精密マーケティングのためのこれらのルールでは、非常に良い効果があるとプルアップされます!の役割

上記の4つのカテゴリは、テキストデータマイニングで最も一般的に使用されるシナリオです。テキストの制限により、変数のタイプがデータ値に関連することが要求されるデータマイニングでは、テキストは文字セットのモデリングに関与することはできません。しかし、テキストはモデリング用の重要な変数として処理することができ、変数はその非構造化特性により多くの色を持っています。

しかし、もう一つの課題は、テキストの「意味論」です。中国語のテキストの豊富な色のために、テキストの感情的な属性の判断は、コンテキストに基づいて行う必要があります、例えば、単語 "非常に良い "は、通常、賞賛の意味で使用されますが、上記の否定的な単語と組み合わせると、明らかに皮肉を意味すると言われています。ユーザーの意見の風見鶏のテキストセマンティックマイニング、正、ユーザーの満足度と好意のアプリケーションのユーザー評価とその重要性は、効果的なマシンのソリューションはありませんが、現在のマシンのアルゴリズムと人工的な識別と組み合わせることが主流のソリューションです。

もちろん、機械学習アルゴリズムの綿密な研究とCPUの性能向上により、機械が人間の脳の能力に達するか、それを超える可能性は非常に高く、その時には言語の判断も実現できるかもしれませんし、さらに日本語の文脈の問題も、あらかじめ決められた固定シナリオと学習経路を人間が介在することで解決できるかもしれません。

Read next

手工芸品のスタートアップから学んだ経験と教訓の2年間

起業のプロセスは多くの困難を経験していますが、2年間を遵守することは容易ではなく、最終的に失敗に終わりました。旅を通して、多くの感情があり、2年間の闘争にこの賛辞を書き、その後、自分の新しい旅を再開。

Jun 24, 2025 · 4 min read