この論文は、CVPR 2019で発表された、Shangtangチームが提案し、COCO 2018インスタンス分割トラックで優勝したHybrid Task Cascade for Instance Segmentationに焦点を当てています。
中心的なアイデア
ネットワーク・アーキテクチャ
Mはマスク・ブランチ、BはBBoxブランチ、数字はステージを表しています。
上図はインターリーブ実行と呼ばれるグラフを元に改良したものです。 Bbox予測は図と同じで、各StageでBBox分岐を実行し、回帰更新されたBoxを次のStageのMask分岐に渡して予測することで、Mask予測を行います。
異なるStageのMask分岐が情報交換を行わないという問題を解決するために、上図の構造に基づいて、隣接するStageのMask分岐間でMask Information Flowを確立することをMask Information Flowと呼びます。具体的な動作は、図2に示すように、前ステージのマスク特徴マップを1x1畳み込みで較正し、現ステージのRoI特徴マップとポイントワイズフュージョンで融合し、現ステージのマスク特徴マップを4つの3x3畳み込みで得てマスク予測を行います。
▲ 上図にさらにセマンティック・セグメンテーションの分岐を追加して、より良い空間コンテキストを得ます。具体的な操作は下図3のようになります。セマンティック・セグメンテーション・タスクのために、元のFPNにフル畳み込みネットワークが追加され、得られた赤のセマンティック特徴マップが、残りのブランチのBBoxおよびMask特徴マップとドット加算方式で融合されます。
結果
本論文の実験は、MMDetectionフレームワークを使用したMS COCO 2017データセットに基づいており、以下の詳細が記載されています:バッチサイズ = 1 x 16 GPUs = 16; エポック = 20; ステップ = [16, 19]; 初期学習率 = 0.02; サイズ = シングルスケール学習または[,]マルチスケール学習.
表1は他のアルゴリズムとの比較実験、表7は筆者のチームがCOCO 2018のインスタンス分割コンペティションで使用したすべてのステップとテクニック、そしてスコア向上を示しています。
1サイクルのトレーニングに約1日かかるため、トレーニングのおよそ3分の1しか完了していません。COCO 2017の検証セットでの結果は以下の通りで、最終的な比較は20サイクルすべてのトレーニングが完了したときに行います。