実例丨ModelArtsのデータ注釈、データフィルタリング応用技術：自動グループ化 #画像認識

ModelArtsの高度なクラスタリングアルゴリズムを使用すると、すべてのイメージをグループ化することができます：類似した特徴を持つイメージは一緒にグループ化され、大きく異なる特徴を持つイメージのクラスタは分離されます。

花の認識プロジェクトでは、ラベル付けされていない多数の花の写真にラベルを付ける必要があり、タンポポ、チューリップ、ヒマワリなどに無秩序な順序でラベルを付けると、多くの貴重な時間がかかります。

注釈シーンのグループ化

自動グループ化を開始し、花のデータセットに5つのカテゴリーが存在することを事前に知り、それらを6つのカテゴリーにグループ化（）：

約3分後、カテゴリー1はほぼチューリップの写真、カテゴリー3はほぼタンポポの写真というように、条件をフィルタリングして自動グループ化の結果を得ることができます。

そこで、「現在のページ」→「入力」を選択すると、一度にすべての注釈を直接入力することができます。

もちろん、すべてのグループが完璧ではありませんが、そのようなほとんどのグループとしてだけでなく、散在しています。この時点で、現在のページを選択した後：

データフィルタリングシナリオ

現実には、実際のイメージデータの量は少なく、多くの場合、深層学習ネットワークの訓練のためのデータ量の要件を満たすことができないので、開発者は一般的に必要なイメージをクロールするネットワークを選択しますが、イメージのスタイルをクロールダウンすることは非常に異なっている、ノイズのmiscellaneaは、作業負荷から必要なイメージを抽出したい巨大です。

ModelArtsが提供する自動グループ化アルゴリズムは、グループ化アノテーションに加えて強力です。

ヘルメットのプロジェクトでは、実際のヘルメットイメージがあまりにも少なかったため、Googleからヘルメット関連のイメージを大量にクロールしました：