機械学習ともろもろ

線形回帰の変数変換

統計資格

1. 平均
2. 分散
3. 共分散
4. 相関係数

線形回帰において、説明変数 $X$ と目的変数 $Y$ をそれぞれ一次変換して新たな変数 $U$ と $V$ を導入する場合、次のような変換が行われます。

$\displaystyle{ \begin{align} \left\{ \begin{array}{ll} U = a X + b \\ V = c Y + d \end{array} \right. \end{align} }$

この一次変換は、データのスケーリングやシフト（平行移動）に相当し、モデルの解釈や適用範囲を変えることがありますが、線形性の本質を変えるものではありません。

平均、分散、共分散、および相関係数がどのように変わるのか解説します。

1. 平均

$X$ の平均を $\mu_X$ 、 $Y$ の平均を $\mu_Y$ とすると、変換後の $U$ と $V$ の平均はそれぞれ以下のように表されます。

$U$ の平均： $\mu _ U = a \mu _ X + b$
$V$ の平均： $\mu _ V = c \mu _ Y + d$

2. 分散

$X$ の分散を $\sigma _ X^ 2$ 、 $Y$ の分散を $\sigma _ Y^ 2$ とすると、変換後の $U$ と $V$ の分散はそれぞれ以下のようになります。

分散は変換の係数の二乗に比例して変化しますが、平行移動の項 $b$ 、 $d$ は分散に影響しません。

$U$ の分散： $\sigma^ 2 _ U = a^ 2 \sigma _ X^ 2$
$V$ の分散： $\sigma^ 2 _ V = c^ 2 \sigma _ Y^ 2$

リンク

3. 共分散

$X$ と $Y$ の共分散を $\sigma _ {XY}$ とすると、変換後の $U$ と $V$ の共分散は以下のようになります。

共分散は、両変数の係数の積に比例して変化します。

共分散： $\sigma _ {UV} = a \cdot c \cdot \sigma _ {XY}$

4. 相関係数

$X$ と $Y$ の相関係数を $\rho _ {XY}$ とすると、変換後の $U$ と $V$ の相関係数は以下のようになります。

相関係数は変換前後で変わりません。これは、相関係数が変数間の線形関係の強さを示す無次元の量であり、係数や平行移動の影響を受けないためです。

相関係数： $\rho _ {UV} = (acの符号)\rho _ {XY}$

リンク