線形回帰の変数変換



線形回帰において、説明変数 Xと目的変数 Yをそれぞれ一次変換して新たな変数 U Vを導入する場合、次のような変換が行われます。

\displaystyle{
\begin{align}
\left\{
\begin{array}{ll}
U = a X + b \\
V = c Y + d
\end{array}
\right.
\end{align}
}


この一次変換は、データのスケーリングやシフト(平行移動)に相当し、モデルの解釈や適用範囲を変えることがありますが、線形性の本質を変えるものではありません。


平均、分散、共分散、および相関係数がどのように変わるのか解説します。



1. 平均

 Xの平均を \mu_X Yの平均を \mu_Yとすると、変換後の  U V の平均はそれぞれ以下のように表されます。

  •  Uの平均: \mu _ U = a \mu _ X + b
  •  Vの平均: \mu _ V = c \mu _ Y + d


2. 分散

 Xの分散を \sigma _ X^ 2 Yの分散を \sigma _ Y^ 2とすると、変換後の U Vの分散はそれぞれ以下のようになります。

分散は変換の係数の二乗に比例して変化しますが、平行移動の項 b dは分散に影響しません。

  •  Uの分散: \sigma^ 2 _ U = a^ 2 \sigma _ X^ 2
  •  Vの分散: \sigma^ 2 _ V = c^ 2 \sigma _ Y^ 2




3. 共分散

 X Yの共分散を \sigma _ {XY}とすると、変換後の U V​の共分散は以下のようになります。

共分散は、両変数の係数の積に比例して変化します。

  • 共分散: \sigma _ {UV} = a \cdot c \cdot \sigma _ {XY}


4. 相関係数

 X Y相関係数 \rho _ {XY}とすると、変換後の U V相関係数は以下のようになります。

相関係数は変換前後で変わりません。これは、相関係数が変数間の線形関係の強さを示す無次元の量であり、係数や平行移動の影響を受けないためです。