1. 十分統計量
1. 十分統計量とは?
データが大量にある場合、全てのデータを個別に扱うことは非効率的です。
そこで、データを簡潔にまとめる「統計量」を用いて分析を行います。
これにより、データセット全体の情報を、より扱いやすい形にすることができます。
特に、母集団の特性を推測する際には、そのデータセットが持つ情報をできるだけ保持した統計量を用いることが望ましいです。
母集団からのサンプルを用いて、その母集団のパラメータ(例えば平均値や分散など)を推測する際、サンプルから得られる情報を完全に活用し、かつその情報を失わない統計量が存在します。
このような、母集団の情報を失っていない統計量を「十分統計量」と呼びます。
十分統計量は、サンプルデータが持つ母集団に関する全ての情報を凝縮しているため、その統計量だけを用いても母集団のパラメータを推測することができます。
つまり、十分統計量を用いることで、データセットを効率的に要約しつつ、母集団についての有益な情報を失うことなく分析を行うことができます。
2. 定義
確率変数 の確率分布がパラメータに依存しており、ある関数が存在するとき、全てのに対して、条件付き確率分布がに依存しない場合、を十分統計量と言います。
これは、十分統計量が与えられた場合、サンプルの観察値からパラメータに関するさらなる情報を得ることができないことを意味します。
具体的には、統計量 が十分統計量であるためには、次の式のように統計量のみに依存し、パラメータに依存しない形になります。
3. 具体例
ベルヌーイ分布をもとに具体例で考えてみます。
パラメータのベルヌーイ分布から、サンプルを取得したとします。
統計量を次のように定義します。
の同時確率分布は次のようになります。
ここでの分布を考えます。
はベルヌーイ分布の各試行の合計を示しているので、二項分布に従います。
以上を踏まえて、条件付き確率分布を求めてみます。
ここで、は、サンプルが特定の観測値を取るとき、自然に満たされる条件のため、はと等しくなります。
結果をみると、が与えられたとき、パラメータに依存しない形になっていることがわかります。
つまり、統計量がの情報を十分に保持している十分統計量であると言えます。
2. フィッシャー・ネイマンの分解定理
1. フィッシャー・ネイマンの分解定理とは?
フィッシャー・ネイマンの分解定理は、与えられたデータセットに対して、そのデータセットの分布を完全に要約する統計量が存在するかどうかを判断するための基準を提供します。
2. 定義
確率変数が同じ分布に従い、その確率密度関数または確率質量関数がパラメータに依存するとします。
このとき、統計量が十分統計量であるための必要十分条件は、全てのとに対して、確率密度関数または確率質量関数をの関数との関数の積に分解できることです。
数式で表すと、以下のようになります。
ここで、各関数は次のように定義されます。
- :パラメータを持つ分布からのサンプルの確率密度関数または確率質量関数です。
- :十分統計量に基づく関数で、パラメータのみに依存します。
- :データに依存するが、パラメータには依存しない関数です。
この定理により、十分統計量が、データセットに関するパラメータの情報を失うことなく圧縮するために必要なすべてを含んでいることが示されます。
3. 具体例
具体例で考えてみます。
1. ベルヌーイ分布
確率変数がベルヌーイ分布から無作為抽出されているとすると、密度関数は以下のようになります。
ここで、統計量を次のように定義します。
統計量を用いるとは次のように表すことができます。
フィッシャーネイマンの分解定理の形に式をまとめます。
, の形に分解することができるので、フィッシャーネイマンの分解定理より、がの十分統計量であることがわかります。
2. 二項分布
確率変数が二項分布から無作為抽出されているとすると、密度関数は以下のようになります。
ここで、統計量を次のように定義します。
統計量を用いるとは次のように表すことができます。
フィッシャーネイマンの分解定理の形に式をまとめます。
, の形に分解することができるので、フィッシャーネイマンの分解定理より、がの十分統計量であることがわかります。
3. ポアソン分布
確率変数がポアソン分布から無作為抽出されているとすると、密度関数は以下のようになります。
ここで、統計量を次のように定義します。
統計量を用いるとは次のように表すことができます。
フィッシャーネイマンの分解定理の形に式をまとめます。
, の形に分解することができるので、フィッシャーネイマンの分解定理より、がの十分統計量であることがわかります。
4. 正規分布
確率変数が正規分布から無作為抽出されているとすると、密度関数は以下のようになります。
ここで、統計量を次のように定義します。
統計量を用いるは次のように表すことができます。
フィッシャーネイマンの分解定理の形に式をまとめます。
, の形に分解することができるので、フィッシャーネイマンの分解定理より、,がの十分統計量であることがわかります。
5. 指数分布
確率変数が指数分布から無作為抽出されているとすると、密度関数は以下のようになります。
ここで、統計量を次のように定義します。
統計量を用いるとは次のように表すことができます。
フィッシャーネイマンの分解定理の形に式をまとめます。
, の形に分解することができるので、フィッシャーネイマンの分解定理より、がの十分統計量であることがわかります。
6. 一様分布
確率変数が一様分布から無作為抽出されているとすると、密度関数は以下のようになります。
ここで、統計量を次のように定義します。
統計量を用いるとは次のように表すことができます。
フィッシャーネイマンの分解定理の形に式をまとめます。
, の形に分解することができるので、フィッシャーネイマンの分解定理より、, がの十分統計量であることがわかります。