点推定量の性質（平均二乗誤差・不偏性・一致性・十分性・有効性・推定量の相対効率）

1. 平均二乗誤差
- 1. 平均二乗誤差
- 2. バイアス・バリアンス分解
2. 不偏性
3. 一致性
4. 十分性
5. 有効性
6. 推定量の相対効率

1. 平均二乗誤差

平均二乗誤差は、推定量の性能を測る指標の一つであり、推定量の誤差の二乗の期待値として定義されます。

推定量を $\hat{\theta}$ 、真のパラメータを $\theta$ としたとき、平均二乗誤差 $MSE(\hat{\theta})$ は以下の式で表されます。

$\displaystyle{ \begin{align} MSE(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] \end{align} }$

2. バイアス・バリアンス分解

バイアスは推定量の期待値と真のパラメータとの差のことを指し、バリアンスは推定量の分布の広がりを示します。

バイアスとバリアンスの定義は以下の通りです。

バイアス： $Bias(\hat{\theta}) = E[\hat{\theta}] - \theta$
バリアンス： $Var(\hat{\theta}) = E[(\hat{\theta} - E[\hat{\theta}])^ 2]$

$MSE$ はバイアスとバリアンスを用いて以下のように分解することができます。

$\displaystyle{ \begin{align} MSE(\hat{\theta}) &= E[(\hat{\theta} - \theta)^2] \\ &= E[\{ (\hat{\theta} - E[\hat{\theta}]) + (E[\hat{\theta}]- \theta) \}^2] \\ &= E[ (\hat{\theta} - E[\hat{\theta}])^2 + 2(\hat{\theta} - E[\hat{\theta}])(E[\hat{\theta}]- \theta) + (E[\hat{\theta}]- \theta)^2 ] \\ &= E[ (\hat{\theta} - E[\hat{\theta}])^2 ] + 2E[ (\hat{\theta} - E[\hat{\theta}])(E[\hat{\theta}]- \theta) ] + E[ (E[\hat{\theta}]- \theta)^2 ] \end{align} }$

ここで、中央の項 $2E[(\hat{\theta} - E[\hat{\theta}])(E[\hat{\theta}] - \theta)]$ は、 $2(E[\hat{\theta}] - \theta)(E[\hat{\theta} - E[\hat{\theta}]])$ となります。

$E[\hat{\theta} - E[\hat{\theta}]] = E[\hat{\theta}] - E[\hat{\theta}] = 0$ となるため、この項は0になります。

これらを用いると、次のように変形することができます。

$\displaystyle{ \begin{align} MSE(\hat{\theta}) &= E[ (\hat{\theta} - E[\hat{\theta}])^2 ] + 2E[ (\hat{\theta} - E[\hat{\theta}])(E[\hat{\theta}]- \theta) ] + E[ (E[\hat{\theta}]- \theta)^2 ] \\ &= E[ (\hat{\theta} - E[\hat{\theta}])^2 ] + E[ (E[\hat{\theta}]- \theta)^2 ] \\ &= Var(\hat{\theta}) + Bias(\hat{\theta})^2 \end{align} }$

この式は、推定量の誤差がバイアスとバリアンスの二つの要素から成り立っていることを示しています。

バイアスが大きいと、推定量は真の値から離れた値を取りがちになります。

バリアンスが大きいと、推定量は真の値周辺で大きく散らばることを意味します。

最適な推定量は、これら二つの要素がバランスよく小さくなることです。

これにより、推定量を評価する際には、ただ単に $MSE$ が小さいことだけでなく、バイアスとバリアンスがどのように寄与しているかを考慮する必要があります。

理想的には、両者を低減させる推定量が望ましいですが、実際にはトレードオフの関係にあり、バイアスを減らすとバリアンスが増える傾向があります（バイアス-バリアンストレードオフ）。

リンク

2. 不偏性

1. 不偏推定量

推定量が不偏であるとは、その期待値が推定しようとしている真のパラメータの値に等しい場合を指します。

数式で表すと、推定量 $\hat{\theta}$ に対して、不偏性は以下のように定義されます。

$\displaystyle{ \begin{align} E[\hat{\theta}] = \theta \end{align} }$

ここで、 $E[\hat{\theta}]$ は推定量 $\hat{\theta}$ の期待値であり、 $\theta$ は推定しようとしているパラメータの真の値です。

推定量がこの条件を満たすとき、この推定量を不偏推定量と呼びます。

不偏推定量は、推定の過程で誤差（バイアス）がないことを保証します。

しかし、不偏性が保証されても、その推定量が必ずしも最も良い推定量であるとは限りません。

推定量の品質は、バリアンスや他の特性も含めて総合的に評価されるからです。

2. 一様最小分散不偏推定量

$\hat{\theta}$ が $\theta$ の不偏推定量の場合、 $Bias(\hat{\theta}) = 0$ となり、 $MSE(\hat{\theta}) = Var(\hat{\theta})$ になることがわかります。

不偏推定量の中で最小の分散を持つ推定量がばらつきが少なく、良い推定量と言えそうです。

一様最小分散不偏推定量は、全ての不偏推定量の中で最小の分散を持つ推定量を指します。

数式での定義は以下の通りです。

ある推定量 $\hat{\theta} _ 1$ が任意の他の不偏推定量 $\hat{\theta} _ 2$ に対して、全ての $\theta$ において、

$\displaystyle{ Var(\hat{\theta}_1) \leq Var(\hat{\theta}_2) }$

を満たす場合、 $\hat{\theta} _ 1$ は一様最小分散不偏推定量です。

この性質は、同じ量を推定する場合に、最も信頼性の高い推定値を提供します。

3. 具体例

不偏推定量の具体例を確認してみます。

サンプル $X _ 1, X _ 2, \ldots, X _ n$ が平均 $\mu$ 、分散 $\sigma^ 2$ の分布に従うと仮定します。

平均 $\mu$ の不偏推定量

標本平均 $\bar{X}$ は以下の式で定義されます。

$\displaystyle{ \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i }$

実際に期待値を計算してみます。

$\displaystyle{ \begin{align} E[\bar{X}] &= E\left[\frac{1}{n} \sum_{i=1}^{n} X_i\right] \\ &= \frac{1}{n} \sum_{i=1}^{n} E[X_i] \\ &= \frac{1}{n} \cdot n\mu \\ &= \mu \end{align} }$

標本平均 $\bar{X}$ の期待値 $E[\bar{X}]$ を計算すると、平均 $\mu$ に等しくなります。

これは、 $\bar{X}$ が $\mu$ の不偏推定量であることを意味します。
分散 $\sigma^ 2$ の不偏推定量

標本分散 $S^ 2$ は以下の式で定義されます。

$\displaystyle{ \begin{align} S^2 &= \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \end{align} }$

実際に期待値を計算してみます。

$\displaystyle{ \begin{align} E[S^2] &= E\left[ \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \right] \\ &= \frac{1}{n-1} E\left[ \sum_{i=1}^{n} X_i^2 - 2 \bar{X} \sum_{i=1}^{n} X_i + n \bar{X}^2 \right] \\ &= \frac{1}{n-1} E\left[ \sum_{i=1}^{n} X_i^2 - 2 n \bar{X}^2 + n \bar{X}^2 \right] \\ &= \frac{1}{n-1} \left( nE[X^2] - nE[\bar{X}^2] \right) \end{align} }$

ここで $E[\bar{X}^ 2]$ は分散 $Var(\bar{X})$ を使って次のように表すことができます。

$\displaystyle{ \begin{align} Var(\bar{X}) &= E[\bar{X}^2] - E[\bar{X}]^2 \\ \frac{\sigma^2}{n} &= E[\bar{X}^2] - \mu^2 \\ E[\bar{X}^2] &= \frac{\sigma^2}{n} + \mu^2 \end{align} }$

同様に $E[X^ 2]$ も分散 $Var(X)$ を使って、次のように表すことができます。

$\displaystyle{ \begin{align} E[X^2] = \sigma^2 + \mu^2 \end{align} }$

これらを利用して、式を変形していきます。

$\displaystyle{ \begin{align} E[S^2] &= \frac{1}{n-1} \left( nE[X^2] - nE[\bar{X}^2] \right) \\ &= \frac{1}{n-1} \left( n\left(\sigma^2 + \mu^2\right) - n \left(\frac{\sigma^2}{n} + \mu^2\right) \right) \\ &= \frac{1}{n-1} \left( n\sigma^2 + n\mu^2 - \sigma^2 - n\mu^2) \right) \\ &= \frac{1}{n-1} \left( (n-1) \sigma^2 \right) \\ &= \sigma^2 \end{align} }$

標本分散 $S^ 2$ の期待値 $E[S^ 2]$ を計算すると、分散 $\sigma^ 2$ に等しくなります。

これは、 $S^ 2$ が $\sigma^ 2$ の不偏推定量であることを意味します。

リンク

3. 一致性

一致性とは、推定量がサンプルサイズが無限大に近づくにつれて、推定しようとしている母数（パラメータ）の真の値に確率収束する性質を指します。

つまり、観測データの量が多くなればなるほど、推定量はその真の値に近づくということです。

一致性の定義は、数学的には次のように表されます。

推定量 $\hat{\theta} _ n$ が母数 $\theta$ に対して一致推定量であるとは、任意の正の値 $\epsilon \gt 0$ に対して、以下の条件が成立することを意味します。

$\displaystyle{ \lim_{n→∞} P(|\hat{\theta}_n - \theta| \lt \epsilon) = 1 }$

ここで、 $n$ はサンプルサイズを表し、 $P$ は確率を表します。

この式は、「サンプルサイズ $n$ が無限大に近づくにつれて、推定量 $\hat{\theta} _ n$ が真の値 $\theta$ から $\epsilon$ より小さな距離内に収まる確率が $1$ に近づく」という意味になります。

リンク

4. 十分性

十分性は、観測データが含む真のパラメータに関する情報を、推定量がどれだけ保持しているかを表します。

十分性は次のように定義されます。

あるサンプル $X _ 1, X _ 2, ..., X _ n$ があり、その確率密度関数または確率質量関数が $f(x|\theta)$ で与えられるとき、統計量 $T(X)$ がパラメータ $\theta$ に対して十分であるとは、条件付き分布 $f(x|T, \theta)$ が $\theta$ に依存しない場合を指します。

数式で次のように表されます。

$\displaystyle{ \begin{align} f(x|T, \theta) = f(x|T) \end{align} }$

つまり、統計量 $T(X)$ が与えられると、元のデータ (X) が追加の情報を提供しないことを意味します。

十分統計量に関しては、次の記事で詳しく解説しています。

venoda.hatenablog.com

リンク

5. 有効性

有効性は、推定量の性質を評価する指標の一つで、推定量の分散の小ささを示します。

有効性の高い推定量は、同じサンプルサイズであれば、他の推定量よりも真のパラメータ値をより正確に推定することができます。

不偏推定量 $\hat{\theta}$ の有効性は、その分散 $Var(\hat{\theta})$ を用いて評価されます。

理論的な下限であるクラメール・ラオの下限に分散がどれだけ近いかによって、推定量の有効性が決まります。

クラメール・ラオの不等式は、推定量の分散が下限を提供します。

$\displaystyle{ \begin{align} Var(\hat{\theta}) \geq \frac{1}{nI_1(\theta)} \end{align} }$

ここで、 $n$ はサンプルサイズ、 $I _ 1(\theta)$ はフィッシャー情報量で、真のパラメータ $\theta$ に関する情報の量を示します。

推定量がこのクラメール・ラオの下限に等しい場合、その推定量は有効推定量と呼びます。

つまり、推定量の分散がクラメール・ラオ下限に等しくなると、その推定量はそのサンプルサイズにおいて最も正確な不偏推定量と言えます。

また、有効推定量は最小の分散を持つ推定量のため、一様最小分散不偏推定量であるともいえます。

フィッシャー情報やクラメール・ラオの不等式に関しては、次の記事で詳しく解説しています。

venoda.hatenablog.com

リンク

6. 推定量の相対効率

推定量の相対効率は、二つの推定量の効率を比較する際に使用される指標です。

特に、二つの不偏推定量の分散を比較することで、どちらが「より良い」推定量であるかを定量的に評価することができます。

1. 効率

クラメール・ラオの不等式から、不偏推定量に関して次の式が成り立ちます。

$\displaystyle{ \begin{align} \frac{J_n(\theta)^{-1}}{Var({\hat{\theta}})} \leq 1 \end{align} }$

この式の左辺が $1$ に近いほど分散小さい良い推定量となります。

この左辺を不偏推定量 $\hat{\theta}$ の効率と呼びます。

2. 相対効率

相対効率は、一方の推定量の分散をもう一方の推定量の分散で割った値として定義されます。

二つの不偏推定量 $\hat{\theta} _ 1$ と $\hat{\theta} _ 2$ があるとき、 $\hat{\theta} _ 1$ の $\hat{\theta} _ 2$ に対する相対効率 $RE(\hat{\theta} _ 1, \hat{\theta} _ 2)$ は次のように定義されます。