欠損値を扱う理由
この段落は全くのナンセンスです。欠損データを含むサンプルは、削除するか、必要であれば好きな値で埋めるかのどちらかです。削除するとサンプル情報の一部が失われますし、パディングをすると、適切に埋められていない場合、サンプルにノイズが加わります。
だから、選択の問題なんです:
- 削除するか塗りつぶすかを選択します;
- 充填方法の選択
欠測値を処理する8つの方法
ここで簡単なメモとして、私が競技会で行ってきたことや、いくつかの大手がどのように処理しているかをまとめてみました。欠損値を処理するための推奨される方法は以下の通りです:
- まず、欠落項目のあるデータを取り除いてから、モデルを訓練してベースラインを作ります;
- 次に、特殊値パディング、平均値パディング、最近傍法を順番に試します。
非加工
補完処理とは、あくまでも未知の価値を主観的に推定し、その未知の価値を付加するものであり、必ずしも客観的事実と完全に対応するものではなく、不完全な情報の補完処理が行われている間は、多かれ少なかれ元の情報体系を変化させるものです。
不正確なヌル埋めは、しばしばデータに新たなノイズをもたらし、マイニングタスクに誤った結果をもたらします。したがって、多くの場合、元の情報を変更せずに情報システムを処理することが望ましいのです。
しかし、モデルのトレーニングは加工なしではできないかもしれません。そのため、通常は未処理のままにしておくという選択肢はありません。
特別な値のパディング
これは、データのnull値にも何らかの情報があり、他のどのデータとも異なるからnullなのだという考え方です。そのため、ヌル値は他のどの属性値とも異なる特別な属性値として扱われます。例えば、すべてのnull値は "unknown "で埋められます。
平均的なパディング
- ヌル値が数値の場合、不足する属性値は、他のすべてのオブジェクトの属性値の平均に基づいて埋められます。
- ヌル値が非数値の場合、統計における複数性の原則に従って、欠落している属性値は、他のすべてのオブジェクトでその属性が取られた回数が最も多い属性の値で埋められます。
あるサンプルで特徴aが欠損しているとすると、aには全サンプルの特徴aの平均値が入力されます。
さらに条件付き平均パディングと呼ばれる方法があり、これは欠損標本と同じ特徴を持つ標本の平均だけを考慮します。ある標本で特徴aが欠損しているとすると、この標本と同じ特徴bを持つすべての標本の特徴aの平均が欠損値の穴埋めに使われます。
サーマルカード充填
NULL値を含むオブジェクトに対して、ホットカードパディングメソッドは、完全なデータの中から最も類似したオブジェクトを見つけ、その類似したオブジェクトの値でパディングします。
長所と短所
- 利点:この方法は概念的にシンプルで、データ間の関係を利用してヌル推定を行います。
- 欠点:類似性の基準を定義することの難しさと、より主観的な要素にあります。
ニアレストネイバー法
欠損データのある標本に最も近いK個の標本が、ユークリッド距離または相関分析に基づいて最初に特定され、これらのK個の値は、その標本の欠損データを推定するために重み付けされ、平均化されます。
この方法はホットカードフィリングに多少似ています。**しかし、最近傍法はホットカード充填と同じ問題に直面します。
すべての可能な値での充填
空いている属性値をすべての可能な属性フェッチで埋めることで、より良い補完効果が得られます。
しかし、データ量が多かったり、欠落している属性値が多かったりすると、計算コストが高くなり、テストシナリオも多くなります。
モデル予想
完全なデータセットに基づいて、予測モデルが構築されます。ヌル値を含むオブジェクトについては、既知の属性値を式に代入することで未知の属性値が推定され、この推定値を使用して式が作成されます。
実際には、特徴量の間にも何らかの関係があり、予測によって欠損値を求めることができることを前提としています。しかし、この方法は少し面倒ですし、この方法で得られたフィラー値の有効性がよくわからないので、個人的にはあまりお勧めしません。また、モデルのオーバーフィッティングなどの新たな問題が発生する可能性もあります。
多重補間
これはビッグデータのコンテストで見かけますが、欠落している項目を埋めるためにこれを行う大物はいません。多重補間はモデルを繰り返し訓練し、モデルを評価します。そのため時間がかかります。
手動充填
ビッグデータでは、個人はあまりお勧めしません。



