テキスト記述に基づくトランザクションクラスタリング #機械学習

挙げる

デジタル技術の時代に生きています。デジタル取引のないお店に入ったのはいつですか？

このようなデジタル取引技術は、瞬く間に日常生活の重要な一部となりました。

個人レベルだけでなく、こうしたデジタル技術はあらゆる金融機関の中核をなしています。決済取引や資金移動は、バックグラウンドで稼働する信頼性の高いシステムによって、幅広い選択肢の中から非常にスムーズに行えるようになりました。

各トランザクションに対して適切な説明が生成されます：

この論文では、金融機関が顧客ベースに合わせて商品をカスタマイズする実際のユースケースについて、クラスタリングを用いて説明します。

このケーススタディの動機

金融機関として、既存顧客の多様な関心に基づいてカスタマイズされたサービスを提供することは常に重要です。顧客の意向を捉えることは、どの金融機関にとっても大きな課題です。

Twitter、WhatsApp、Facebookなどのソーシャルメディア・プラットフォームは、顧客の興味や嗜好を分析するための主要な情報源となっています。

金融機関は、第三者からデータを取得するために多額のコストがかかることがよくあります。それでも、ソーシャルメディアのアカウントを固有の顧客にマッピングすることは非常に難しくなります。

では、どうやってこの問題を解決するのですか？

上記の問題に対する解決策の一部は、金融機関が提供する内部取引データを利用することで対処できます。

クライアントによって実行されたトランザクションは、トランザクション記述メッセージに基づいて異なるカテゴリに分類することができます。

この方法は、食品、スポーツ、衣料品、請求書支払い、家庭などの取引をマークするために使用できます。顧客の取引のほとんどが特定のカテゴリーに分類される場合、顧客の嗜好を推定することができます。

このようなアプローチ

問題提起にどのように取り組み、解決策を見出すためにどのようなステップを踏んだかをお知らせください。

特定されたトピックの数

すべてのトランザクションで処理を開始し、その説明メッセージを各クライアントにマッピングします。まず、クラスタ・カテゴリのトピック数を決定するという重要なタスクがあります。この目的を達成するために、トピックモデルを使用します。

トピックモデリングは、何を探すべきか不確かな場合に、自然なアイテムのグループを見つける、ドキュメントの教師なし分類です。主に潜在ディリクレ代入を使ってトピックモデルを当てはめます。

これは、各文書をトピックのミックスとして扱い、各トピックを単語のミックスとして扱います。

例：予算という言葉は映画や政治に登場することがあります。このLDAの基本的な仮定は、サンプル内のすべてのオブザベーションは、生成統計モデルの観点から解釈できる任意の未知の分布から来るということです。

この問題を解決する方法を見てみましょう。

トランザクション記述では、未知の分布からすべての単語を生成する生成統計モデルが存在します。単語が特定のトピックに属する確率を予測する統計モデルを構築する試み。

テーマの一貫性

トピックの総数は、各トピックのキーワードを手作業で調べて決定しました。

しかし、これでは全員の視点に矛盾が生じるため、正しいテーマ数を評価する方法が必要です。正しいテーマ数は、トピックの一貫性の尺度を用いて決定されます。

テーマの一貫性は、テーマの最初の N 語に適用。このスコアは、トピック単語のペアワイズ単語類似度スコアの平均/中央値として定義されます。良いモデルは、首尾一貫したテーマ、すなわち、高いテーマ一貫性スコアを持つテーマを生成します。

良いトピックとは、短いラベルで説明できるトピックです。

クラスタ

次にトピック/クラスタの総数を決定します。各トランザクション記述メッセージのトピックへの割り当てを開始します。文書をトピックに割り当てる場合、トピックモデルだけでは正確な結果が得られないことがあります。

ここでは、K-Means クラスタリングを使用してトランザクション記述メッセージをクラスタリングするために、トピックモデルの出力を他のいくつかの特徴とともに使用します。ここでは、K-Means クラスタリングのための特徴セットの構築に焦点を当てます。

診断特性

基本特性
- 単語数、数字数、特殊記号数
- 最も長い数値列の長さ、数値文字比率
- 平均語数、最大語数など
- トランザクションの週、日、月、日付の有無、週末のトランザクションかどうかなど。
- 月の最終日または最初の5日間に行われた取引
- 祝祭日、祝祭取引など
検索機能、業界のトップブランド、検索名として使用される一般名詞。取引説明の中で、特定の業界に関連する単語の数を数えます。
- 食品：野菜、ドミノ、フレッシュダイレクトなど。
- スポーツ：野球、アディダス、フットボール、フットボールクリートなど
- 健康：薬局、病院、ジムなど
- 請求書とEMI：契約、権限、明細書、スケジュール、引き出し、電話など
- エンターテイメント: Netflix, Prime shows, Spotify, Soundcloud, pubs
- Eコマース：Amazon、Walmart、Ebay、Ticketmasterなど
その他：ウーバー、エアバス、パッカーズなど
テーマモデルの特徴
- トピックモデリングは、TF-IDF メトリックを使用して生成されたユニグラムおよびビッグラム DTM 行列に対して実行されました。トランザクション記述のユニグラムおよびビッググラム DTM 行列に対して、各テーマについて 7 種類の確率の 2 つのセットが得られます。

最終的な感想

各トランザクション記述には約30の特徴があり、K-Meansクラスタリングは各トランザクション記述を7つのクラスタのいずれかに割り当てるために実行されます。

結果は、クラスターの中心に近いオブザベーションのほとんどが正しいテーマでラベル付けされたことを示しています。クラスターの中心から遠いオブザベーションで、間違ったテーマ・ラベルが付けられたものはほとんどありませんでした。

手作業でチェックした350件の取引明細のうち、約240件に適切な件名が正しく表示されました。

現在では、少なくとも社内の顧客の嗜好や関心についての基本的な推定はできています。カスタマイズされたオファーやオプションを送信することで、顧客の関心を維持し、ビジネスを向上させることができます。

トピックモデリングの使用は比較的新しいものですが、トランザクションを使用して顧客を分類することは、主にクレジットカード発行会社で使用されてきました。

例えば、アメリカン・エキスプレスは、この手法を使って顧客のインタレスト・マップを作成しています。このインタレスト・マップは、取引を食品や旅行などの主要なグループに分類するだけでなく、タイ料理愛好家や野生動物愛好家などのマイクロ・セグメントも作成します！

パンチャンAIブログサイトへようこそ：

Panchuangのブログリソースラウンドアップへようこそ：

テキスト記述に基づくトランザクションクラスタリング

挙げる

このケーススタディの動機

このようなアプローチ

特定されたトピックの数

テーマの一貫性

クラスタ

診断特性

最終的な感想

Read next

gitの使い方と一般的なコマンドラインコマンド

MysqlのIS NULLは、IS NOT NULLはインデックスに行くことができない？

Flutterページ更新プロセス解析

もう間違ったページを削除する心配はない！--ページごみ箱」がオンラインになった！

Java開発の毎日のレッスン：3つのテクニックはすぐにコーディングのレベルを向上させる

windowsがmysqlサーバ、クライアント（名前付きパイプ、共有メモリ）を起動する。