機械学習ともろもろ

区間推定（信頼係数と信頼区間・被覆確率・信頼区間の構成）

統計資格

1. 区間推定
2. 信頼係数と信頼区間
3. 信頼区間の構成方法

1. 区間推定

点推定は、母集団の特定のパラメータを一つの値で推定する方法です。

しかし、この推定値は実際には母数の周りである範囲に分布していることが多いため、点推定だけでは推定の不確かさを表現できません。

そこで、区間推定が登場します。

区間推定では、母集団のパラメータがある確率で含まれると考えられる範囲、つまり信頼区間を設定します。

これにより、母集団のパラメータの散らばりを考慮し、そのパラメータが特定の区間内に存在する確率を表すことができます。

リンク

2. 信頼係数と信頼区間

母集団からのランダムサンプル $X _ 1, X _ 2, \ldots, X _ n$ を考え、これらが確率密度関数 $f(x|\theta)$ に従っているとします。

ここで、 $\theta$ は母集団の未知のパラメータです。

このサンプル集合 $X = X _ 1, X _ 2, \ldots, X _ n$ に基づいて、二つの統計量 $L(X)$ と $U(X)$ を定義します。

このとき、区間 $[L(X), U(X)]$ は、すべての $\theta$ に対して以下の式を満たすとします。

$\displaystyle{ \begin{align} P_{\theta}(L(X) \lt \theta \lt U(X)) \ge 1 - \alpha \end{align} }$

この条件を満たす区間 $[L(X), U(X)]$ を、信頼係数 $1-\alpha$ の信頼区間と呼びます。

この式は、母数 $\theta$ が計算された区間 $[L(X), U(X)]$ 内に含まれる確率が $1 - \alpha$ 以上であることを意味します。

上記の確率 $P _ {\theta}(L(X) \lt \theta \lt U(X))$ は被覆確率と呼ばれ、実際に区間が母数をカバーする確率を意味します。

例えば、信頼係数を95%と設定する場合、100回実験したときに5回程度は $\theta$ が含まれないことを意味ます。

リンク

3. 信頼区間の構成方法

サンプル $X _ 1, X _ 2, \ldots, X _ n$ が正規分布 $N(\mu, \sigma^ 2)$ に従っているとし、ここでは分散 $\sigma^ 2$ は既知とします。

平均 $\mu$ の信頼区間を構成するために、標本平均に基づいて信頼区間を構成します。

標本平均 $\bar{X}$ は、サンプルの平均値であり、この $\bar{X}$ 自体が正規分布 $N(\mu, \sigma^ 2/n)$ に従うことになります。

ここで、 $\mu$ は母平均、 $n$ はサンプルサイズです。

正規分布の特性を利用して、標本平均から母平均を推定する際の不確実性を表すために、正規分布の両側 $\alpha$ 点を $z _ {\alpha/2}$ としたとき、

$\displaystyle{ - z_{\alpha/2} < \frac{\bar{X} - \mu}{\sqrt{\sigma^2/n}} < z_{\alpha/2} }$

となる確率は $1-\alpha$ となります。

これは、標本平均が母平均からある範囲内に収まる確率を示しています。

上記の不等式は次のように表すことができます。

$\displaystyle{ P_{\mu}\left(\bar{X} - z_{\alpha/2}\sqrt{\frac{\sigma^2}{n}} < \mu < \bar{X} + z_{\alpha/2}\sqrt{\frac{\sigma^2}{n}}\right) = 1 - \alpha }$

これは、母平均 $\mu$ が特定の区間に含まれる確率が $1-\alpha$ であることを意味します。

したがって、 $\mu$ の推定のための区間は $\left[\bar{X} - z _ {\alpha/2}\sqrt{\frac{\sigma^ 2}{n}}, \bar{X} + z _ {\alpha/2}\sqrt{\frac{\sigma^ 2}{n}}\right]$ となります。

この区間が、信頼係数 $1-\alpha$ で信頼区間となります。

リンク