十分統計量とフィッシャー・ネイマンの分解定理

1. 十分統計量
2. フィッシャー・ネイマンの分解定理

1. 十分統計量

1. 十分統計量とは？

データが大量にある場合、全てのデータを個別に扱うことは非効率的です。

そこで、データを簡潔にまとめる「統計量」を用いて分析を行います。

これにより、データセット全体の情報を、より扱いやすい形にすることができます。

特に、母集団の特性を推測する際には、そのデータセットが持つ情報をできるだけ保持した統計量を用いることが望ましいです。

母集団からのサンプルを用いて、その母集団のパラメータ（例えば平均値や分散など）を推測する際、サンプルから得られる情報を完全に活用し、かつその情報を失わない統計量が存在します。

このような、母集団の情報を失っていない統計量を「十分統計量」と呼びます。

十分統計量は、サンプルデータが持つ母集団に関する全ての情報を凝縮しているため、その統計量だけを用いても母集団のパラメータを推測することができます。

つまり、十分統計量を用いることで、データセットを効率的に要約しつつ、母集団についての有益な情報を失うことなく分析を行うことができます。

2. 定義

確率変数 $X = X _ 1, X _ 2, \ldots, X _ n$ の確率分布がパラメータ $\theta$ に依存しており、ある関数 $T(X _ 1, X _ 2, \ldots, X _ n) = T(X)$ が存在するとき、全ての $x = x _ 1, x _ 2, \ldots, x _ n$ に対して、条件付き確率分布 $P(X = x| T(X) = t)$ が $\theta$ に依存しない場合、 $T(X)$ を十分統計量と言います。

これは、十分統計量 $T$ が与えられた場合、サンプルの観察値からパラメータ $\theta$ に関するさらなる情報を得ることができないことを意味します。

具体的には、統計量 $T(X)$ が十分統計量であるためには、次の式のように統計量 $T(X)$ のみに依存し、パラメータ $\theta$ に依存しない形になります。

$\displaystyle{ \begin{align} P(X= x|T(X)=t, \theta) = P(X= x|T(X)=t) \end{align} }$

リンク

3. 具体例

ベルヌーイ分布をもとに具体例で考えてみます。

パラメータ $\theta$ のベルヌーイ分布から、サンプル $X = X _ 1, X _ 2, \ldots, X _ n$ を取得したとします。

統計量 $T(X)$ を次のように定義します。

$\displaystyle{ \begin{align} T(X) = \sum_{i=1}^{n} X_i = t \end{align} }$

$X$ の同時確率分布は次のようになります。

$\displaystyle{ \begin{align} P(X = x, \theta) &= \prod_{i=1}^{n} \theta^{x_i} (1-\theta)^{1-x_i} \\ &= \theta^{\sum_{i=1}^{n} x_i}(1-\theta)^{n - \sum_{i=1}^{n} x_i} \\ &= \theta^{t}(1-\theta)^{n - t} \end{align} }$

ここで $P(T(X) = t, \theta)$ の分布を考えます。

$T(X)$ はベルヌーイ分布の各試行の合計を示しているので、二項分布 $B(n, \theta)$ に従います。

$\displaystyle{ \begin{align} P(T(X) = t, \theta) = {}_n C_t \theta^t (1 - \theta)^{n - t} \end{align} }$

以上を踏まえて、条件付き確率分布を求めてみます。

$\displaystyle{ \begin{align} P(X= x|T(X)=t, \theta) &= \frac{ P(X= x, T(X)=t, \theta) }{ P(T(X)=t, \theta) } \\ &= \frac{ \theta^t (1-\theta)^{n - t} }{ {}_n C_t \theta^t (1 - \theta)^{n - t} } \\ &= \frac{1}{{}_n C_t} \end{align} }$

ここで、 $T(X)=t$ は、サンプル $X$ が特定の観測値 $x$ を取るとき、自然に満たされる条件のため、 $P(X= x, T(X)=t, \theta)$ は $P(X= x, \theta)$ と等しくなります。

結果をみると、 $T(X)=t$ が与えられたとき、パラメータ $\theta$ に依存しない形になっていることがわかります。

つまり、統計量 $T(X)$ が $\theta$ の情報を十分に保持している十分統計量であると言えます。

リンク

2. フィッシャー・ネイマンの分解定理

1. フィッシャー・ネイマンの分解定理とは？

フィッシャー・ネイマンの分解定理は、与えられたデータセットに対して、そのデータセットの分布を完全に要約する統計量が存在するかどうかを判断するための基準を提供します。

2. 定義

確率変数 $X _ 1, X _ 2, \ldots, X _ n$ が同じ分布に従い、その確率密度関数または確率質量関数がパラメータ $\theta$ に依存するとします。

このとき、統計量 $T(X)$ が十分統計量であるための必要十分条件は、全ての $x$ と $\theta$ に対して、確率密度関数または確率質量関数を $T(x)$ の関数 $g(T(x)|\theta)$ と $X$ の関数 $h(x)$ の積に分解できることです。

数式で表すと、以下のようになります。

$\displaystyle{ \begin{align} f(x|\theta) = g(T(x)|\theta) \cdot h(x) \end{align} }$

ここで、各関数は次のように定義されます。

$f(x|\theta)$ ：パラメータ $\theta$ を持つ分布からのサンプル $x$ の確率密度関数または確率質量関数です。
$g(T(x)|\theta)$ ：十分統計量 $T(x)$ に基づく関数で、パラメータ $\theta$ のみに依存します。
$h(x)$ ：データ $x$ に依存するが、パラメータ $\theta$ には依存しない関数です。

この定理により、十分統計量 $T(X)$ が、データセットに関するパラメータ $\theta$ の情報を失うことなく圧縮するために必要なすべてを含んでいることが示されます。

リンク

3. 具体例

具体例で考えてみます。

1. ベルヌーイ分布

確率変数 $X _ 1, X _ 2, \ldots, X _ n$ がベルヌーイ分布 $Ber(p)$ から無作為抽出されているとすると、密度関数は以下のようになります。

$\displaystyle{ \begin{align} f(x; p) &= \prod_{i=1}^{n} p^{x_i} (1-p)^{1-x_i} \\ &= p^{\sum_{i=1}^{n} x_i}(1-p)^{n-\sum_{i=1}^{n}} \end{align} }$

ここで、統計量 $T(x)$ を次のように定義します。

$\displaystyle{ \begin{align} T(x) = \sum_{i=1}^{n} x_i = t \end{align} }$

統計量 $T(x)$ を用いると $f(x; p)$ は次のように表すことができます。

$\displaystyle{ \begin{align} f(x; p) &= p^{\sum_{i=1}^{n} x_i}(1-p)^{n-\sum_{i=1}^{n}} \\ &= p^{t}(1-p)^{n-t} \end{align} }$

フィッシャーネイマンの分解定理の形に式をまとめます。

$\displaystyle{ \begin{align} f(x; p) &= p^{t}(1-p)^{n-t} \cdot 1 \\ \\ g(T(x)| p) &= p^t(1-p)^{n-t} \\ \\ h(x) &= 1 \end{align} }$

$g(T(x)| p) = p^ t(1-p)^ {n-t}$ , $h(x)=1$ の形に分解することができるので、フィッシャーネイマンの分解定理より、 $\sum _ {i=1}^ {n} x _ i$ が $Ber(p)$ の十分統計量であることがわかります。

2. 二項分布

確率変数 $X _ 1, X _ 2, \ldots, X _ n$ が二項分布 $B(m, p)$ から無作為抽出されているとすると、密度関数は以下のようになります。

$\displaystyle{ \begin{align} f(x; p) &= \prod_{i=1}^{n} {}_mC_{x_i} \cdot p^{x_i} \cdot (1-p)^{m - x_i} \\ &= \prod_{i=1}^{n} {}_mC_{x_i} \cdot p^{\sum_{i=1}^{n} x_i} \cdot (1-p)^{nm - \sum_{i=1}^{n} x_i} \\ \end{align} }$

ここで、統計量 $T(x)$ を次のように定義します。

$\displaystyle{ \begin{align} T(x) = \sum_{i=1}^{n} x_i = t \end{align} }$

統計量 $T(x)$ を用いると $f(x; p)$ は次のように表すことができます。

$\displaystyle{ \begin{align} f(x; p) &= \prod_{i=1}^{n} {}_mC_{x_i} \cdot p^{\sum_{i=1}^{n} x_i} \cdot (1-p)^{nm - \sum_{i=1}^{n} x_i} \\ &= \prod_{i=1}^{n} {}_mC_{x_i} \cdot p^{t} \cdot (1-p)^{nm - t} \end{align} }$

フィッシャーネイマンの分解定理の形に式をまとめます。

$\displaystyle{ \begin{align} f(x; p) &= p^{t} \cdot (1-p)^{nm - t} \cdot \prod_{i=1}^{n} {}_mC_{x_i} \\ \\ g(T(x)| p) &= p^t(1-p)^{nm-t} \\ \\ h(x) &= \prod_{i=1}^{n} {}_mC_{x_i} \end{align} }$

$g(T(x)| p) = p^ t(1-p)^ {nm-t}$ , $h(x)=\prod _ {i=1}^ {n} {} _ m C _ {x _ i}$ の形に分解することができるので、フィッシャーネイマンの分解定理より、 $\sum _ {i=1}^ {n} x _ i$ が $B(m, p)$ の十分統計量であることがわかります。

リンク

3. ポアソン分布

確率変数 $X _ 1, X _ 2, \ldots, X _ n$ がポアソン分布 $Po(\lambda)$ から無作為抽出されているとすると、密度関数は以下のようになります。

$\displaystyle{ \begin{align} f(x; \lambda) &= \prod_{i=1}^{n} \frac{\lambda^{x_i} e^{-\lambda}}{x_i!}\\ &= \frac{\lambda^{\sum_{i=1}^{n} x_i}e^{-n\lambda}}{\prod_{i=1}^{n} x_i !} \\ \end{align} }$

ここで、統計量 $T(x)$ を次のように定義します。

$\displaystyle{ \begin{align} T(x) = \sum_{i=1}^{n} x_i = t \end{align} }$

統計量 $T(x)$ を用いると $f(x; \lambda)$ は次のように表すことができます。

$\displaystyle{ \begin{align} f(x; \lambda) &= \frac{\lambda^{\sum_{i=1}^{n} x_i}e^{-n\lambda}}{\prod_{i=1}^{n} x_i !} \\ &= \frac{\lambda^{t}e^{-n\lambda}}{\prod_{i=1}^{n} x_i !} \end{align} }$

フィッシャーネイマンの分解定理の形に式をまとめます。

$\displaystyle{ \begin{align} f(x; \lambda) &= \lambda^{t}e^{-n\lambda} \cdot \frac{1}{\prod_{i=1}^{n} x_i !} \\ \\ g(T(x)| \lambda) &= \lambda^{t}e^{-n\lambda} \\ \\ h(x) &= \frac{1}{\prod_{i=1}^{n} x_i !} \end{align} }$

$g(T(x)| \lambda) = \lambda^ {t} e^ {-n\lambda}$ , $h(x)=\frac{1}{\prod _ {i=1}^ {n} x _ i !}$ の形に分解することができるので、フィッシャーネイマンの分解定理より、 $\sum _ {i=1}^ {n} x _ i$ が $Po(\lambda)$ の十分統計量であることがわかります。

4. 正規分布

確率変数 $X _ 1, X _ 2, \ldots, X _ n$ が正規分布 $N(\mu, \sigma^ 2)$ から無作為抽出されているとすると、密度関数は以下のようになります。

$\displaystyle{ \begin{align} f(x; \mu, \sigma) &= \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( - \frac{(x_i - \mu)^2}{2\sigma^2} \right) \\ &= \frac{1}{(2 \pi \sigma^2)^{\frac{n}{2}}} \exp \left( - \frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i - \mu)^2 \right) \\ &= \frac{1}{(2 \pi \sigma^2)^{\frac{n}{2}}} \exp \left( - \frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i^2 - 2\mu x_i + \mu^2) \right)\\ &= \frac{1}{(2 \pi \sigma^2)^{\frac{n}{2}}} \exp \left( - \frac{ n\mu^2 - 2\mu \sum_{i=1}^{n} x_i + \sum_{i=1}^{n} x_i^2 }{ 2\sigma^2 } \right)\\ \end{align} }$

ここで、統計量 $T(x)$ を次のように定義します。

$\displaystyle{ \begin{align} T_1(x) &= \sum_{i=1}^{n} x_i = t_1 \\ T_2(x) &= \sum_{i=1}^{n} x_i^2 = t_2 \end{align} }$

統計量 $T(x)$ を用いる $f(x; \mu, \sigma)$ は次のように表すことができます。

$\displaystyle{ \begin{align} f(x; \mu, \sigma) &= \frac{1}{(2 \pi \sigma^2)^{\frac{n}{2}}} \exp \left( - \frac{ n\mu^2 - 2\mu \sum_{i=1}^{n} x_i + \sum_{i=1}^{n} x_i^2 }{ 2\sigma^2 } \right) \\ &= \frac{1}{(2 \pi \sigma^2)^{\frac{n}{2}}} \exp \left( - \frac{ n\mu^2 - 2\mu t_1 + t_2 }{ 2\sigma^2 } \right) \end{align} }$

フィッシャーネイマンの分解定理の形に式をまとめます。

$\displaystyle{ \begin{align} f(x; \mu, \sigma) &= \frac{1}{(2 \pi \sigma^2)^{\frac{n}{2}}} \exp \left( - \frac{ n\mu^2 - 2\mu t_1 + t_2 }{ 2\sigma^2 } \right) \cdot 1 \\ \\ g(T_1(x), T_2(x)| \mu, \sigma) &= \frac{1}{(2 \pi \sigma^2)^{\frac{n}{2}}} \exp \left(- \frac{n\mu^2 - 2\mu t_1 + t_2}{2\sigma^2} \right) \\ \\ h(x) &= 1 \end{align} }$

$g(T_1(x), T_2(x)| \mu, \sigma) = \frac{1}{(2 \pi \sigma^ 2)^ {\frac{n}{2}}} \exp \left(- \frac{n\mu^ 2 - 2\mu t _ 1 + t _ 2}{2\sigma^ 2} \right)$ , $h(x)=1$ の形に分解することができるので、フィッシャーネイマンの分解定理より、 $\sum _ {i=1}^ {n} x _ i$ , $\sum _ {i=1}^ {n} x _ i^ 2$ が $N(\mu, \sigma^ 2)$ の十分統計量であることがわかります。

リンク

5. 指数分布

確率変数 $X _ 1, X _ 2, \ldots, X _ n$ が指数分布 $Exp(\lambda)$ から無作為抽出されているとすると、密度関数は以下のようになります。

$\displaystyle{ \begin{align} f(x; \lambda) &= \prod_{i=1}^{n} \lambda e ^ {-\lambda x_i} \\ &= \lambda e ^ {-\lambda \sum_{i=1}^{n} x_i} \\ \end{align} }$

ここで、統計量 $T(x)$ を次のように定義します。

$\displaystyle{ \begin{align} T(x) = \sum_{i=1}^{n} x_i = t \end{align} }$

統計量 $T(x)$ を用いると $f(x; \lambda)$ は次のように表すことができます。

$\displaystyle{ \begin{align} f(x; \lambda) &= \lambda e ^ {-\lambda \sum_{i=1}^{n} x_i} \\ &= \lambda e ^ {-\lambda t} \end{align} }$

フィッシャーネイマンの分解定理の形に式をまとめます。

$\displaystyle{ \begin{align} f(x; \lambda) &= \lambda e ^ {-\lambda t} \cdot 1 \\ \\ g(T(x)| \lambda) &= \lambda e ^ {-\lambda t} \\ \\ h(x)=1 \end{align} }$

$g(T(x)| \lambda) = \lambda e ^ {-\lambda t}$ , $h(x)=1$ の形に分解することができるので、フィッシャーネイマンの分解定理より、 $\sum _ {i=1}^ {n} x _ i$ が $Exp(\lambda)$ の十分統計量であることがわかります。

6. 一様分布

確率変数 $X _ 1, X _ 2, \ldots, X _ n$ が一様分布 $U(a, b)$ から無作為抽出されているとすると、密度関数は以下のようになります。

$\displaystyle{ \begin{align} f(x; a, b) &= \left( \frac{1}{b - a} \right)^n \cdot \boldsymbol{1}_{a \leq x_1,x_2,\ldots,x_n \leq b} \end{align} }$

ここで、統計量 $T(x)$ を次のように定義します。

$\displaystyle{ \begin{align} T_1(x) &= \min(x_i) = t_1 \\ T_2(x) &= \max(x_i) = t_2 \end{align} }$

統計量 $T(x)$ を用いると $f(x; a, b)$ は次のように表すことができます。

$\displaystyle{ \begin{align} f(x; a, b) &= \left( \frac{1}{b - a} \right)^n \cdot \boldsymbol{1}_{a \leq t_1 \leq t_2 \leq b} \end{align} }$

フィッシャーネイマンの分解定理の形に式をまとめます。

$\displaystyle{ \begin{align} f(x; a, b) &= \left( \frac{1}{b - a} \right)^n \cdot \boldsymbol{1}_{a \leq t_1 \leq t_2 \leq b} \cdot 1\\ \\ g(T_1(x), T_2(x)| a, b) &= \left( \frac{1}{b - a} \right)^n \cdot \boldsymbol{1}_{a \leq t_1 \leq t_2 \leq b} \\ \\ h(x) &= 1 \end{align} }$

$g(T_1(x), T_2(x)| a, b) = \left( \frac{1}{b - a} \right)^ n \cdot \boldsymbol{1} _ {a \leq t _ 1 \leq t _ 2 \leq b}$ , $h(x)=1$ の形に分解することができるので、フィッシャーネイマンの分解定理より、 $T _ 1(x) = \min(x _ i)$ , $T _ 2(x) = \max(x _ i)$ が $U(a, b)$ の十分統計量であることがわかります。

リンク