概要
- R二乗と修正R二乗の概念の理解
- R2乗と修正R2乗の主な違いを理解しましょう。
挙げる
線形回帰の概念とアルゴリズムがどのように機能するかを理解した後、私はそれを使って問題文の中で予測を行うことにとても興奮しました。皆さんの多くも同じことをすると思います。しかし、モデルを構築したら、次のステップは何でしょうか?
次にやってくるのは、やっかいな部分です。モデルが構築されたら、次のステップはその性能を評価することです。言うまでもなく、モデルの評価はモデルの欠点を浮き彫りにする重要な作業です。
最も適切な評価指標を選択することは非常に重要な作業です。MAE/MSE/RMSEに加えて、R二乗と調整R二乗があります。この2つの違いは何ですか?どちらを使うべきでしょうか?
R二乗と修正R二乗は、データサイエンスを求める人にとって混乱を招きかねない2つの評価指標です。
これらは両方とも回帰問題を評価するためにとても重要であり、深く理解され、比較されます。それぞれ長所と短所があり、この論文で詳しく説明します。
目次
- 残差平方和
- R二乗統計量の理解
- R2乗統計量に関する質問
- R2乗統計量の調整
残差平方和
これらの概念を明確に理解するために、簡単な回帰問題について説明します。ここでは、「勉強に費やした時間」に基づいて「得られた点数」を予測しようとします。勉強に費やした時間が独立変数で、テストの得点が従属変数または目標変数です。
このデータを視覚化するために、単純な回帰プロットを描くことができます。
黄色の点はデータ・ポイントを表し、青い線は予測された回帰直線です。見てわかるように、回帰モデルはすべてのデータ・ポイントを完全に予測するわけではありません。
では、回帰直線の予測を評価するために、これらのデータをどのように使用できるでしょうか?データ・ポイントの残差を決定することから始めることができます。
データのある点での残差は、実際の値と線形回帰モデルによって予測された値との差です。
残差プロットは、回帰モデルがデータにフィットしているかどうかを示します。残差の2乗は、実際には回帰モデルの最適化の目的関数です。
残差値を使用すると、残差の2乗和を求めることができます(残差2乗和またはRSSとしても知られています)。
RSS値が低いほど、モデルの予測は優れています。あるいは、このように言うこともできます - 回帰線がRSS値を最小化するならば、その回帰線はベスト・フィット線です。
しかし、これには欠陥があります - RSSはスケール変数の統計量です。RSSは、実際の値と予測値の差の2乗の合計なので、値はターゲット変数のサイズに依存します。
例
あなたのターゲット変数が、製品の販売から発生する収益であるとします。残差は、ターゲットのサイズに依存します。収益の大きさが "100ルピー "の単位で計算される場合、約0.54のRSSが得られます。
しかし、所得目標の変数が「ルピー」であれば、5400という大きなRSSが得られるかもしれませんし、データが変わらなくても、目標の大きさによってRSSの値が変わってきます。そのため、何が良いRSS値なのか判断が難しいのです。
では、もっと優れたスケール不変統計量はないのでしょうか?そこでR二乗の登場です。
R2乗統計量の調整
R2乗統計量は、線形回帰モデルによって説明されるターゲット変数の変化の比率を与えるスケール不変統計量です。
少し複雑に思われるかもしれませんので、ここで説明します。モデルによって説明される目標変化の割合を決定するためには、まず以下のことを決定する必要があります。
二乗和
ターゲット変数の総変化は、実際の値とその平均値との差の2乗の合計です。
TSS (Total Sum of Squares)は、Yの変動の総量を示します。これはYの分散とよく似ています。分散が実際の値とデータポイントの差の2乗和の平均であるのに対して、TSSは2乗和です。
ターゲット変数の変化の合計がわかったので、この変化のうちモデルによって説明される割合をどのように決定しますか?RSSに戻る
残差平方和
前述のように、RSSは実際の点から回帰直線までの距離の2乗の合計を与えます。いわば残差は、回帰直線によって捕らえられなかった距離です。
したがって、RSS全体は、モデルによって説明されないターゲット変数の変動を与えます。
二乗和
ここで、TSSがYの全変化を示し、RSSがXによって説明されないYの変化を示すとすると、TSS-RSSはモデルによって説明されるYの変化を示します!モデルによって説明されるYの変化の比率を得るために、TSSを単純にもう一度割ることができます。これがR2乗統計量です!
R二乗 = /TSS
= 変更説明/変更合計
= 1 - 説明できない変化/変化合計
したがって、R2乗は、モデルまたは独立変数によって説明されるターゲット変数の変動の度合いを与えます。値が0.7なら、独立変数がターゲット変数の変動の70%を説明することを意味します。
R2乗は常に0から1の間です。R2乗が大きいほど、モデルはより多くの変動を説明し、逆もまた同様です。
RSS値が低い場合、これは回帰直線が実際のポイントにとても近いことを意味します。これは、独立変数がターゲット変数の変動のほとんどを説明していることを意味します。この場合、R2乗値がとても高くなります。
逆に、RSS値がとても高い場合は、回帰直線が実際のポイントから離れていることを意味します。その結果、独立変数はターゲット変数の変数のほとんどを説明できません。これは非常に低いR2乗値を与えます。
つまり、R2乗の値が対象変数の変化量を示すのはこのためです。
R2乗統計量に関する質問
R2乗統計は完璧ではありません。実際、1つの大きな欠点があります。回帰モデルにどれだけ変数を追加しても、その値は決して減少しません。
つまり、冗長な変数がデータに追加されても、R2乗の値は減少しません。新しい独立変数が追加されても、R2乗の値は変わらないか増加します。
独立変数のいくつかは、目的変数を決定するのに有用でないかもしれないので、これは明らかに意味がありません。R2乗を調整することで、この問題に対処しました。
R2乗統計量の調整
R2乗の調整は、ターゲット変数を予測するために使用される独立変数の数を考慮に入れます。そうすることで、モデルに新しい変数を追加することが、モデルの適合を増加させるかどうかを決定することができます。
R二乗がどのように作用するかをよりよく理解するために、R二乗の調整式を見てみましょう。
ここです。
nはデータセット中のデータ点数
kは独立変数の数
Rは、モデルによって決定されたR二乗値を表します。
したがって、新しい独立変数が追加されたときにR2乗が有意に増加しない場合、修正R2乗の値は実際には減少します。
一方、新しい独立変数が追加され、R2乗値の有意な増加が見られる場合、修正R2乗値も増加します。
モデルにランダムな独立変数が追加された場合、R2乗と修正R2乗の値の違いを見ることができます。
見てわかるように、ランダムな独立変数を追加しても、ターゲット変数の変化を説明する助けにはなりません。R2乗の値は一定です。したがって、この変数は、出力を予測するのに役立つかもしれないという誤った兆候を与えます。しかしながら、修正R2乗値は減少し、この新しい変数がターゲット変数のトレンドを実際には捕捉していないことを示します。
明らかに、回帰モデルに複数の変数があるときは、修正R2乗を使用するのが最善です。これは、独立変数の数が異なるモデルの比較を可能にします。
エピローグ
この記事では、R2乗統計値がどのようなもので、どこが不安定なのかを検証します。また、R2乗の調整についても検討します。
これで物事の理解が深まったと思います。これで、どの独立変数が回帰問題の出力を予測するのに役立つかを注意深く決定することができます。
パンチャンAIブログサイトへようこそ:
Panchuangのブログリソースラウンドアップへようこそ:




