線形回帰と最小二乗推定




1. 線形単回帰

2つの量の間に直線的な関係があると仮定し、一方の変数(独立変数または説明変数)を用いて他方の変数(従属変数または目的変数)を予測します。


線形単回帰モデルは以下の方程式で表されます。

\displaystyle{
\begin{align}
y_i = \beta_0 + \beta_1 x_i + \epsilon_i  (i=1,...,n)
\end{align}
}


ここで各変数は次のように定義されます。

  •  y _ iは目的変数(予測したい変数)
  •  x _ iは説明変数(予測に使用する変数)
  •  \beta _ 0は切片(y軸との交点)
  •  \beta _ 1は傾き(説明変数の変化に対する目的変数の変化の度合い)
  •  \epsilon _ iは誤差項(モデルが捉えきれない残差)


ここで \epsilon _ i N(0, \sigma^ 2)に従います。




2. 最小二乗推定

1. 推定方法

1. 切片と傾きの推定

観測されたデータとモデルによる予測値との差(誤差)の二乗和が最小になるように、モデルのパラメータ(切片 \beta _ 0と傾き \beta _ 1)を決定します。


誤差の二乗和( h(\beta _ 0, \beta _ 1))は、全ての観測点に対する実際の値 y _ iとモデルによる予測値 \hat{y} _ iの差の二乗の和で定義されます。

\displaystyle{
\begin{align}
h(\beta_0, \beta_1) &= \sum_{i=1}^{n}(y_i - \hat{y}_i)^2 \\

&= \sum_{i=1}^{n} \left( y_i - (\beta_0 + \beta_1 x_i) \right)^2
\end{align}
}


 h(\beta _ 0, \beta _ 1)を最小化する \beta _ 0 \beta _ 1の値を見つけるには、 h(\beta _ 0, \beta _ 1) \beta_0 \beta_1に関して偏微分し、それぞれの偏微分係数が 0になる点を求めます。



 \beta _ 0​について解いていきます。

 \beta _ 0について微分します。

\displaystyle{
\begin{align}
\frac{\partial}{\partial \beta_0}h(\beta_0, \beta_1) &= -2 \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)
\end{align}
}


 \frac{\partial}{\partial \beta _ 0}h(\beta _ 0, \beta _ 1) = 0とおいて、計算します。

\displaystyle{
\begin{align}
-2 \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i) &= 0 \\

\beta_1\sum_{i=1}^{n}x_i + n \beta_0 &= \sum_{i=1}^{n} y_i \\

\end{align}
}



続いて、 \beta _ 1について解いていきます。

 \beta _ 1について微分します。

\displaystyle{
\begin{align}
\frac{\partial}{\partial \beta_1}h(\beta_0, \beta_1) &= -2 \sum_{i=1}^{n} x_i(y_i - \beta_0 - \beta_1 x_i)
\end{align}
}


 \frac{\partial}{\partial \beta _ 1}h(\beta _ 0, \beta _ 1) = 0とおいて、計算します。

\displaystyle{
\begin{align}
\sum_{i=1}^{n} x_i(y_i - \beta_0 - \beta_1 x_i) &= 0 \\

\sum_{i=1}^{n} (x_iy_i - \beta_0x_i - \beta_1 x_i^2) &= 0 \\

\sum_{i=1}^{n} x_i y_i - \beta_0 \sum_{i=1}^{n} x_i - \beta_1 \sum_{i=1}^{n} x_i^2 &= 0 \\

\beta_1 \sum_{i=1}^{n} x_i^2 + \beta_0 \sum_{i=1}^{n} x_i  &= \sum_{i=1}^{n} x_i y_i \\

\end{align}
}



 \beta _ 0 \beta _ 1を求めるために、次の連立方程式を考えます。

\displaystyle{
\left\{
\begin{array}{ll}

\beta_1 \sum_{i=1}^{n} x_i^2 + \beta_0 \sum_{i=1}^{n} x_i  = \sum_{i=1}^{n} x_i y_i \\

\beta_1\sum_{i=1}^{n}x_i + n \beta_0 = \sum_{i=1}^{n} y_i \\

\end{array}
\right.
}


これを行列とベクトルの積の形にまとめて計算します。

\displaystyle{
\begin{align}

\begin{bmatrix}
\sum_{i=1}^{n}x_i^2 & \sum_{i=1}^{n} x_i \\
\sum_{i=1}^{n} x_i & n
\end{bmatrix}

\begin{bmatrix}
\beta_1 \\
\beta_0
\end{bmatrix}

&=

\begin{bmatrix}
\sum_{i=1}^{n} x_i y_i \\
\sum_{i=1}^{n} y_i
\end{bmatrix}

\\

\begin{bmatrix}
\beta_1 \\
\beta_0
\end{bmatrix}

&=
\begin{bmatrix}
\sum_{i=1}^{n}x_i^2 & \sum_{i=1}^{n} x_i \\
\sum_{i=1}^{n} x_i & n
\end{bmatrix}^{-1}

\begin{bmatrix}
\sum_{i=1}^{n} x_i y_i \\
\sum_{i=1}^{n} y_i
\end{bmatrix}

\end{align}
}


ここで

\displaystyle{
\begin{align}
\begin{bmatrix}
\sum_{i=1}^{n}x_i^2 & \sum_{i=1}^{n} x_i \\
\sum_{i=1}^{n} x_i & n
\end{bmatrix}^{-1}

= \frac{1}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2}

\begin{bmatrix}
n & -\sum_{i=1}^{n} x_i \\
-\sum_{i=1}^{n} x_i & \sum_{i=1}^{n}x_i^2
\end{bmatrix}

\end{align}

}


となるため、次のように表すことができます。

\displaystyle{
\begin{align}

\begin{bmatrix}
\beta_1 \\
\beta_0
\end{bmatrix}

&=
\frac{1}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2}

\begin{bmatrix}
n & -\sum_{i=1}^{n} x_i \\
-\sum_{i=1}^{n} x_i & \sum_{i=1}^{n}x_i^2
\end{bmatrix}

\begin{bmatrix}
\sum_{i=1}^{n} x_i y_i \\
\sum_{i=1}^{n} y_i
\end{bmatrix}

\end{align}
}


 \beta _ 1​は次のように表すことができます。

\displaystyle{
\begin{align}

\beta_1 &= \frac{1}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2}
\left(
    n \sum_{i=1}^{n} x_i y_i
    - \sum_{i=1}^{n} x_i \sum_{i=1}^{n} y_i
\right)

\end{align}
}


 n \sum _ {i=1}^ {n} x _ i^ 2 - (\sum _ {i=1}^ {n} x _ i)^ 2の部分を考えます。

式を整理するために、次の式を利用します。

\displaystyle{
\begin{align}
\sum_{i=1}^{n} x_i = n \bar{x}

\end{align}
}


\displaystyle{
\begin{align}

\sigma_x^2 &= \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 \\

&= \frac{1}{n} \sum_{i=1}^{n}
\left(
    x_i^2 - 2 x_i \bar{x} + \bar{x}^2
\right) \\

&= \frac{1}{n}
\left(
    \sum_{i=1}^{n} x_i^2
    - 2 \bar{x} \sum_{i=1}^{n} x_i
    + n \bar{x}^2
\right) \\

&= \frac{1}{n}
\left(
    \sum_{i=1}^{n} x_i^2
    - 2 n \bar{x}^2
    + n \bar{x}^2
\right) \\

&= \frac{1}{n}
\left(
    \sum_{i=1}^{n} x_i^2
    - n \bar{x}^2
\right) \\

&= \frac{1}{n} \sum_{i=1}^{n} x_i^2 - \bar{x}^2

\end{align}
}


これを利用すると、 n \sum _ {i=1}^ {n} x _ i^ 2 - (\sum _ {i=1}^ {n} x _ i)^ 2は次のようになります。

\displaystyle{
\begin{align}
n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2 &= n \sum_{i=1}^{n} x_i^2 - (n \bar{x})^2 \\

&= n \sum_{i=1}^{n} x_i^2 - n^2 \bar{x}^2 \\

&= n^2 \left(
    \frac{1}{n} \sum_{i=1}^{n} x_i^2
    - \bar{x}^2
\right) \\

&= n^2 \sigma_x^2

\end{align}
}



次に、 n \sum _ {i=1}^ {n} x _ i y _ i - \sum _ {i=1}^ {n} x _ i \sum _ {i=1}^ {n} y_iの箇所を考えます。

式を整理するために、次の式を利用します。

\displaystyle{
\begin{align}

\sigma_{xy} &= \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x} )(y_i - \bar{y}) \\

&= \frac{1}{n}\sum_{i=1}^{n} \left(
x_i y_i
- x_i \bar{y}
- \bar{x} y_i
+ \bar{x} \bar{y}
\right) \\

&= \frac{1}{n} 
\left(
    \sum_{i=1}^{n}  x_i y_i
    - \bar{y} \sum_{i=1}^{n}  x_i
    - \bar{x} \sum_{i=1}^{n} y_i
    + n \bar{x} \bar{y}
\right) \\

&= \frac{1}{n} 
\left(
    \sum_{i=1}^{n}  x_i y_i
    - n \bar{x} \bar{y} 
    - n \bar{x} \bar{y}
    + n \bar{x} \bar{y}
\right) \\

&= \frac{1}{n} 
\left(
    \sum_{i=1}^{n}  x_i y_i
    - n \bar{x} \bar{y} 
\right) \\

&= \frac{1}{n} \sum_{i=1}^{n}  x_i y_i - \bar{x} \bar{y} 

\end{align}
}


これを利用すると、 n \sum _ {i=1}^ {n} x _ i y _ i - \sum _ {i=1}^ {n} x _ i \sum _ {i=1}^ {n} y _ iは次のようになります。

\displaystyle{
\begin{align}
n \sum_{i=1}^{n} x_i y_i - \sum_{i=1}^{n} x_i \sum_{i=1}^{n} y_i &= n \sum_{i=1}^{n} x_i y_i - n^2 \bar{x} \bar{y} \\

&= n^2 \left(
    \frac{1}{n} \sum_{i=1}^{n} x_i y_i
    - \bar{x} \bar{y}
\right) \\

&= n^2 \sigma_{xy}

\end{align}

}


まとめると、 \beta _ 1は次のように求めることができます。

\displaystyle{
\begin{align}

\beta_1 &= \frac{1}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2}
\left(
    n \sum_{i=1}^{n} x_i y_i
    - \sum_{i=1}^{n} x_i \sum_{i=1}^{n} y_i
\right) \\

&= \frac{n^2 \sigma_{xy}}{n^2 \sigma_x^2} \\

&= \frac{\sigma_{xy}}{\sigma_x^2}

\end{align}

}


 \beta _ 0は次のように求めることができます。

\displaystyle{
\begin{align}

\beta_1\sum_{i=1}^{n}x_i + n \beta_0 &= \sum_{i=1}^{n} y_i \\

n \beta_1 \bar{x} + n \beta_0 &= n \bar{y} \\

\beta_1 \bar{x} + \beta_0 &= \bar{y} \\

\beta_0 = \bar{y} - \beta_1 \bar{x} \\

\end{align}

}


以上まとめると、 \beta _ 0および \beta _ 1の最小二乗推定量 \hat{\beta _ 0}および \hat{\beta _ 1}は次のように求めることができます。

\displaystyle{
\begin{align}

\hat{\beta}_0 &= \bar{y} - \hat{\beta_1} \bar{x} \\

\hat{\beta}_1 &= \frac{\sigma_{xy}}{\sigma_x^2}

\end{align}
}




2. 残差と残差の推定

観測値とモデルによる予測値との差を残差といいます。

残差は次のように表されます。

\displaystyle{
\begin{align}
\epsilon_i &= y_i - \hat{y}_i \\
&= y_i - (\hat{\beta_0} + \hat{\beta_1} x_i)
\end{align}
}


残差 \epsilon _ iの二乗和を取ったものを残差平方和といい、次のように表されます。

\displaystyle{
\begin{align}
RSS &= \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \\

&= \sum_{i=1}^{n} \{y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i) \}^2
\end{align}
}


残差の分散 \sigma^ 2は、RSSを自由度で割ったものとして推定されます。

線形回帰モデルにおける自由度は、観測値の総数から推定されたパラメータの数  d(単回帰の場合は、切片と傾きのために2を引く)を引いたものです。


したがって、残差の分散の推定値は次のようになります。

\displaystyle{
\begin{align}
\hat{\sigma}^2 &= \frac{1}{n-d} RSS
\end{align}
}




2. 最小二乗推定量の分布

上で求めた最小二乗推定量 \beta _ 0, \beta _ 1)について、平均と分散を求めてみたいと思います。


1. β_1の平均

 \hat{\beta _ 1}の最小二乗推定量は次の式で与えられます。

\displaystyle{
\begin{align}
\hat{\beta_1} &= \frac{\sigma_{xy}}{\sigma^2_x} \\

&= \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i - \overline{y})}{\sum_{i=1}^{n} (x_i - \overline{x})^2}
\end{align}
}


期待値 E[\hat{\beta _ 1}]を計算するには、まず y _ iを線形回帰モデルの式に置き換えます。

\displaystyle{
\begin{align}
\hat{\beta}_1 &= \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} \\

&= \frac{\sum (x_i - \bar{x})(\beta_0 + \beta_1 x_i + \epsilon_i - \bar{y})}{\sum (x_i - \bar{x})^2} \\
\end{align}

}


ここで、 \bar{y} = \beta _ 0 + \beta _ 1 \bar{x} + \bar{\epsilon}となりますが、 \epsilon _ iの期待値は 0なので  \bar{\epsilon} = 0となります。

したがって、式は次のように簡略化されます。

\displaystyle{
\begin{align}
\hat{\beta}_1 &= \frac{\sum (x_i - \bar{x})(\beta_0 + \beta_1 x_i + \epsilon_i - \bar{y})}{\sum (x_i - \bar{x})^2} \\

&= \frac{\sum (x_i - \bar{x})(\beta_0 + \beta_1 x_i + \epsilon_i - \beta_0 - \beta_1 \bar{x})}{\sum (x_i - \bar{x})^2} \\

&= \frac{\sum (x_i - \bar{x})(\beta_1 x_i + \epsilon_i - \beta_1 \bar{x})}{\sum (x_i - \bar{x})^2} \\

&= \frac{\beta_1\sum (x_i - \bar{x})^2 + \sum (x_i - \bar{x})\epsilon_i}{\sum (x_i - \bar{x})^2} \\
\end{align}
}


期待値を取ると、分子の第二項の期待値が 0になります( \epsilon _ iは独立しており、平均が 0)。

これは、 \epsilon _ i x _ iが独立であるという仮定に基づきます。

\displaystyle{
\begin{align}
E\left[\hat{\beta}_1\right] &= 
\beta_1 
\frac{\sum (x_i - \bar{x})^2}{\sum (x_i - \bar{x})^2}
\\

&= \beta_1

\end{align}
}


これにより、 \hat{\beta _ 1}の期待値が真のパラメータ \beta _ 1に等しいこと、つまり \hat{\beta _ 1} \beta _ 1の不偏推定量であることを示しています。




2. β_1の分散

平均を求めたときと同様に、 \hat{\beta _ 1}は次のように表すことができます。

\displaystyle{
\begin{align}

\hat{\beta_1} &= \frac{\beta_1\sum (x_i - \bar{x})^2 + \sum (x_i - \bar{x})\epsilon_i}{\sum (x_i - \bar{x})^2}

\end{align}
}


式を簡単化すると、 \hat{\beta _ 1}の式は次のように誤差項を含んだ形で表されます。

\displaystyle{
\begin{align}

\hat{\beta_1} &= \frac{\beta_1 \sum (x_i - \bar{x})^2 + \sum (x_i - \bar{x})\epsilon_i}{\sum (x_i - \bar{x})^2} \\

&= \beta_1 + \frac{\sum (x_i - \bar{x})\epsilon_i}{\sum (x_i - \bar{x})^2}

\end{align}
}


分散 V[\hat{\beta _ 1}]​を計算するために、上記の式の分散を取ります。

ここで、 \epsilon _ iの分散は \sigma^ 2であり、 x _ i \beta _ 1は定数なので、分散の公式を適用して求めます。

\displaystyle{
\begin{align}
V\left[\hat{\beta_1}\right] &= V\left[\beta_1 + \frac{\sum (x_i - \bar{x})\epsilon_i}{\sum (x_i - \bar{x})^2}\right] \\

&= V\left[\frac{\sum (x_i - \bar{x})\epsilon_i}{\sum (x_i - \bar{x})^2}\right]  \\

&= \frac{1}{
    \left(
        \sum (x_i - \bar{x})^2
    \right)^2
}
V\left[
    \sum (x_i - \bar{x}) \epsilon_i
\right] \\

&= \frac{1}{
    \left(
        \sum (x_i - \bar{x})^2
    \right)^2
}
\sum V\left[
    (x_i - \bar{x}) \epsilon_i
\right] \\

&= \frac{1}{
    \left(
        \sum (x_i - \bar{x})^2
    \right)^2
}
\sum (x_i - \bar{x})^2
V\left[
    \epsilon_i
\right] \\

&= \frac{\sigma^2}{\sum (x_i - \bar{x})^2}

\end{align}
}




3. β_0の平均

 \hat{\beta _ 0}の最小二乗推定量は次の式で与えられます。

\displaystyle{
\begin{align}
\hat{\beta}_0 &= \bar{y} - \hat{\beta_1}\bar{x} \\
\end{align}
}


 \hat{\beta _ 0}に対して期待値を取ります。

\displaystyle{
\begin{align}
E\left[\hat{\beta_0}\right] &= E\left[ \bar{y} - \hat{\beta_1} \bar{x} \right] \\

&= E\left[ \bar{y} \right] - E\left[ \hat{\beta_1} \right] \bar{x}

\end{align}
}


ここで、 \overline{y} \hat{\beta _ 1} の期待値を考えます。

 y _ iの平均  \overline{y} E[\overline{y}] = \beta _ 0 + \beta _ 1 \overline{x}です。

また、上で示したように E[\hat{\beta _ 1}] = \beta _ 1です。

これらを用いて、 E[\hat{\beta _ 0}]を計算します。

\displaystyle{
\begin{align}
E\left[\hat{\beta_0}\right] &= E\left[ \bar{y} \right] - E\left[ \hat{\beta_1} \right] \bar{x} \\

&= (\beta_0 + \beta_1 \bar{x}) - \beta_1 \bar{x} \\

&= \beta_0

\end{align}
}


この計算により、 \hat{\beta _ 0}の期待値 E[\hat{\beta _ 0}]は真のパラメータ \beta _ 0に等しくなります。

これは、 \hat{\beta _ 0} \beta _ 0の不偏推定量であることを示しています。




4. β_0の分散

平均を求めたときと同様に、 \hat{\beta _ 0}の最小二乗推定量は次の式で与えられます。

\displaystyle{
\begin{align}
\hat{\beta}_0 &= \bar{y} - \hat{\beta_1}\bar{x} \\
\end{align}
}


 \hat{\beta _ 0}に対して分散を取ります。

\displaystyle{
\begin{align}
V\left[\hat{\beta_0}\right] &= V\left[\bar{y}\right] + \bar{x}^2 V\left[ \hat{\beta_1}\right]
\end{align}
}


ここで、 V[\overline{y}] y _ iの平均の分散で、 V[\hat{\beta _ 1}]は上で導出した \hat{\beta _ 1}の分散です。

 y _ iの分散 V[y _ i] = V[\beta _ 0 + \beta _ 1 x _ i + \epsilon _ i] = V[\epsilon _ i] = \sigma^ 2となるため、 V[\overline{y}]は次のように計算されます。

\displaystyle{
\begin{align}
V\left[\bar{y}\right] &= \frac{\sigma^2}{n}
\end{align}
}


そして、 \hat{\beta _ 1}の分散 V[\hat{\beta _ 1}]は次の式で与えられます。

\displaystyle{
\begin{align}
V\left[\hat{\beta_1}\right] 
&= \frac{\sigma^2}{\sum (x_i - \bar{x})^2}
\end{align}
}


これらを  V[\hat{\beta_0}] の式に代入して求めます。

\displaystyle{
\begin{align}
V[\hat{\beta_0}] &= V\left[\bar{y}\right] + \bar{x}^2 V\left[ \hat{\beta_1}\right] \\

&= \frac{\sigma^2}{n} + \overline{x}^2 \left( \frac{\sigma^2}{\sum_{i=1}^{n} (x_i - \overline{x})^2} \right) \\

&= \sigma^2 \left( \frac{1}{n} + \frac{\overline{x}^2}{\sum_{i=1}^{n} (x_i - \overline{x})^2} \right)

\end{align}
}




5. β_0とβ_1の共分散

 \hat{\beta _ 0} \hat{\beta _ 1}の共分散の次の式で与えられます。

\displaystyle{
Cov(\hat{\beta_0}, \hat{\beta_1}) = E[\hat{\beta_0}\hat{\beta_1}] - E[\hat{\beta_0}]E[\hat{\beta_1}]
}


まずは E[\hat{\beta _ 0}\hat{\beta _ 1}]を求めます。

\displaystyle{
\begin{align}
E[\hat{\beta_0}\hat{\beta_1}] &= E[(\bar{y}- \hat{\beta_1}\bar{x})\hat{\beta_1}] \\

&= E[\bar{y}\hat{\beta_1}] - E[\hat{\beta_1}^2\bar{x}] \\

&= (\beta_0 + \beta_1 \overline{x})E[\hat{\beta_1}] - \bar{x} E[\hat{\beta_1}^2] \\

&= (\beta_0 + \beta_1 \overline{x})\beta_1 - \bar{x} E[\hat{\beta_1}^2]

\end{align}
}


ここで、 E[\hat{\beta _ 1}^ 2]は分散の公式を利用して、次のように表すことができます。

\displaystyle{
\begin{align}
V[\hat{\beta_1}] &= E[\hat{\beta_1}^2] - E[\beta_1]^2 \\


E[\hat{\beta_1}^2] &= V[\hat{\beta_1}] + E[\hat{\beta_1}]^2 \\

&= \frac{\sigma^2}{\sum (x_i - \bar{x})^2} + \beta_1^2
\end{align}
}


これを利用して、次のように式を整理します。

\displaystyle{
\begin{align}
E[\hat{\beta_0}\hat{\beta_1}] &= (\beta_0 + \beta_1 \overline{x})\beta_1 - \bar{x} E[\hat{\beta_1}^2] \\

&= (\beta_0 + \beta_1 \overline{x})\beta_1
 
- \bar{x} \left(
    \frac{\sigma^2}{\sum (x_i - \bar{x})^2} + \beta_1^2
\right) \\

&= \beta_0 \beta_1 - \frac{\bar{x}\sigma^2}{\sum (x_i - \bar{x})^2}

\end{align}
}


 E[\hat{\beta _ 0}\hat{\beta _ 1}]が求まったので、共分散の式に当てはめて、共分散を求めます。

\displaystyle{
\begin{align}
Cov(\hat{\beta_0}, \hat{\beta_1}) &= E[\hat{\beta_0}\hat{\beta_1}] - E[\hat{\beta_0}]E[\hat{\beta_1}] \\

&= \beta_0 \beta_1 - \frac{\bar{x}\sigma^2}{\sum (x_i - \bar{x})^2} - \beta_0 \beta_1 \\

&= - \frac{\bar{x}\sigma^2}{\sum (x_i - \bar{x})^2}

\end{align}
}