ModelArtsの高度なクラスタリングアルゴリズムを使用すると、すべてのイメージをグループ化することができます:類似した特徴を持つイメージは一緒にグループ化され、大きく異なる特徴を持つイメージのクラスタは分離されます。
花の認識プロジェクトでは、ラベル付けされていない多数の花の写真にラベルを付ける必要があり、タンポポ、チューリップ、ヒマワリなどに無秩序な順序でラベルを付けると、多くの貴重な時間がかかります。
注釈シーンのグループ化
自動グループ化を開始し、花のデータセットに5つのカテゴリーが存在することを事前に知り、それらを6つのカテゴリーにグループ化():
約3分後、カテゴリー1はほぼチューリップの写真、カテゴリー3はほぼタンポポの写真というように、条件をフィルタリングして自動グループ化の結果を得ることができます。
そこで、「現在のページ」→「入力」を選択すると、一度にすべての注釈を直接入力することができます。
もちろん、すべてのグループが完璧ではありませんが、そのようなほとんどのグループとしてだけでなく、散在しています。この時点で、現在のページを選択した後:
データフィルタリングシナリオ
現実には、実際のイメージデータの量は少なく、多くの場合、深層学習ネットワークの訓練のためのデータ量の要件を満たすことができないので、開発者は一般的に必要なイメージをクロールするネットワークを選択しますが、イメージのスタイルをクロールダウンすることは非常に異なっている、ノイズのmiscellaneaは、作業負荷から必要なイメージを抽出したい巨大です。
ModelArtsが提供する自動グループ化アルゴリズムは、グループ化アノテーションに加えて強力です。
ヘルメットのプロジェクトでは、実際のヘルメットイメージがあまりにも少なかったため、Googleからヘルメット関連のイメージを大量にクロールしました:
しかし、これらはすべて望ましい「ヘルメット」ではなく、現場の背景や作業員用のヘルメットの種類が必要です。
その後、イメージは自動グループ化で10グループに細分化され、その一部を以下に示します:
グループ1とグループ9に類似したイメージが望ましい結果であることは明らかですが、グループ1とグループ4は、大まかにブラウズし、現在のページを選択して削除した後、完全に削除することができます:
ノイズの多いイメージを削除した後
もちろん、まだノイズが多い場合は
など、ヘルメットとは無縁のイメージもまだまだ多いようです:
もう一度、すべてのグループ分けを確認し、データをきれいにし、最終的には注釈をつけるプレッシャーを大幅に軽減しました。