クラメール・ラオ不等式(スコア関数・フィッシャー情報量)

不偏推定量の推定量の良し悪しは、分散の大小によって評価します。

定量として分散が小さければ小さいほど、よい推定量になりますが、実際に分散には下限が存在します。

クラメール・ラオの不等式は、分散の下限をフィッシャー情報に基いて数式化したものです。

この記事では、クラメール・ラオの不等式について解説しています。




1. スコア関数

1. 定義

 X = (X_1, X_2,..., X_n) f(X|\theta)からの n​個のランダムサンプルとします。

 Xの尤度関数(同時確率密度関数)を f_n(X|\theta)と表すとき、スコア関数は対数尤度関数 \log f_n(X|\theta)をパラメータ \theta​に関する微分として定義されます。


つまり、スコア関数 S_n(\theta, X)は以下のように定義されます。

\displaystyle{
\begin{align}
S_n(\theta, X) &= \frac{\partial}{\partial \theta} \log f_n(X|\theta)
\end{align}
}


2. 性質

1. スコア関数の期待値は 0

スコア関数の期待値は 0となります。

これは、パラメータがその真の値に等しいとき、スコア関数の平均が 0になることを意味します。


実際に期待値を計算して 0になるか確認してみましょう。


対数関数の微分により、 \frac{\partial}{\partial \theta} \log f _ n(X, \theta)は次のように微分することができます。

\displaystyle{
\begin{align}
\frac{\partial}{\partial \theta} \log f_n(X|\theta) = \frac{1}{f_n(X|\theta)} \cdot \frac{\partial}{\partial \theta} f_n(X|\theta)
\end{align}
}


これを用いると期待値は次のように計算することができます。

\displaystyle{
\begin{align}
E[S_n(\theta, X)] &= E\left[\frac{\partial}{\partial \theta} \log f_n(X|\theta)\right] \\ 

&= E\left[\frac{1}{f_n(X|\theta)} \frac{\partial}{\partial \theta} f_n(X|\theta)\right] \\

&= \int \frac{1}{f_n(X|\theta)} \cdot \frac{\partial}{\partial \theta} f_n(X|\theta) \cdot f_n(X|\theta) \ dx \\

&= \int  \frac{\partial}{\partial \theta} f_n(X|\theta) \ dx \\
\end{align}
}


ここで、微分積分の順序交換により、 \int  \frac{\partial}{\partial \theta} f _ n(X|\theta) \ dx = \frac{\partial}{\partial \theta} \int f _ n(X|\theta) \ dxに変形することができます。

 \int f _ n(X|\theta) \ dx = 1(全確率)となり、続いて \frac{\partial}{\partial \theta} 1 = 0となるので、期待値値は次のように 0になることがわかります。

\displaystyle{
\begin{align}
E[S_n(\theta, X)] &= \int  \frac{\partial}{\partial \theta} f_n(X|\theta) \ dx \\

&= \frac{\partial}{\partial \theta} \int f_n(X|\theta) \ dx \\

&= \frac{\partial}{\partial \theta} 1 \\

&= 0
\end{align}
}



2.  n→∞のときスコア関数が従う正規分布に分布収束

 S _ n(\theta, X) n→∞のとき正規分布 N(0, n I _ 1(\theta))に分布収束します。


スコア関数の期待値は、上で説明したように$0$になります。

また、スコア関数の分散は n I _ 1(\theta)となります。(下のフィッシャー情報量のところで解説しています。)


正規分布に収束する理由として、 S _ n(\theta, X)は対数を取った尤度関数となるので、確率変数の和としてみることができます。

中心極限定理から、確率変数の平均(または和)が、サンプルサイズが大きくなるにつれて正規分布に収束することになるので、 n→∞のときスコア関数は正規分布に従います。




2. フィッシャー情報量

1. 定義

フィッシャー情報量は、観測データを通じてパラメータに関する情報の量を表します。

具体的には、パラメータの推定における精度の限界を示す指標として用いられます。


フィッシャー情報量は、スコア関数の二乗の期待値で定義されます。

\displaystyle{
\begin{align}
I_n(\theta) &= E\left[S_n(\theta, X)^2\right] \\

&= E\left[ \left\{ \frac{\partial}{\partial \theta} \log f_n(X|\theta) \right\}^2 \right] \\
\end{align}
}


2. 性質

フィッシャー情報量の性質を、三つ解説します。


1.  I _ n(\theta) = n I _ 1(\theta)

まず一つ目は、 n個のデータのフィッシャー情報量は、 1個のデータのフィッシャー情報量の n倍になります。

\displaystyle{
I_n(\theta) = nI_1(\theta)
}



2. フィッシャー情報量は尤度関数の二階微分の期待値でも表現可能

二つ目は、フィッシャー情報量は 2微分を用いた次の形式で表すこともできます。

\displaystyle{
\begin{align}
I_1(\theta) = - E\left[ \frac{\partial^2}{\partial\theta^2} \log f(X_i|\theta)\right]
\end{align}
}


実際に 2​階微分が上記の式になるか確認したいと思います。

※商の微分公式を使って、微分していきます。

\displaystyle{
\begin{align}
\frac{\partial^2}{\partial \theta^2} \log f(X_i|\theta) &= 

\frac{(\partial^2/\partial\theta^2)f(X_i|\theta)\cdot f(X_i|\theta)}{f(X_i|\theta)^2}
- \frac{(\partial/\partial\theta)f(X_i|\theta)\cdot(\partial/\partial\theta)f(X_i|\theta)}{f(X_i|\theta)^2} \\

&= \frac{(\partial^2/\partial\theta^2)f(X_i|\theta)}{f(X_i|\theta)}
- 
\left\{ \frac{(\partial/\partial\theta)f(X_i|\theta)}{f(X_i|\theta)}\right\}^2

\end{align}
}


ここで、 \frac{(\partial^ 2/\partial\theta^ 2)f(X _ i|\theta)}{f(X _ i|\theta)}​の期待値を考えます。

スコア関数の期待値を取ったときと同様に、微分積分の順序交換を用いると次のように 0になります。

\displaystyle{
\begin{align}
E\left[ \frac{(\partial^2/\partial\theta^2)f(X_i|\theta)}{f(X_i|\theta)} \right] &= \int \frac{(\partial^2/\partial\theta^2)f(X_i|\theta)}{f(X_i|\theta)}\cdot f(X_i|\theta) \ dx \\
&= \int \frac{\partial^2}{\partial\theta^2}f(X_i|\theta) \ dx \\

&= \frac{\partial^2}{\partial\theta^2}\int f(X_i|\theta) \ dx \\

&= \frac{\partial^2}{\partial\theta^2} \cdot 1 \\

&= 0 \\
\end{align}
}


これを用いて両辺の期待値はとると、次のようになります。

\displaystyle{
\begin{align}
E\left[\frac{\partial^2}{\partial \theta^2} \log f(X_i|\theta)\right] &= 
E\left[\frac{(\partial^2/\partial\theta^2)f(X_i|\theta)}{f(X_i|\theta)} \right]
- 
E\left[\left\{ \frac{(\partial/\partial\theta)f(X_i|\theta)}{f(X_i|\theta)}\right\}^2 \right] \\


E\left[\frac{\partial^2}{\partial \theta^2} \log f(X_i|\theta)\right] &= 
- 
E\left[\left\{ \frac{(\partial/\partial\theta)f(X_i|\theta)}{f(X_i|\theta)}\right\}^2 \right] \\

E\left[\left\{ \frac{(\partial/\partial\theta)f(X_i|\theta)}{f(X_i|\theta)}\right\}^2 \right] &= 
- E\left[\frac{\partial^2}{\partial \theta^2} \log f(X_i|\theta)\right]
\end{align}
}


 \frac{(\partial/\partial\theta)f(X _ i|\theta)}{f(X _ i|\theta)}=\frac{\partial}{\partial\theta}\log f(X _ i|\theta)となるため、スコア関数 S(X_i, \theta)​と表すことができます。

フィッシャー情報量は、スコア関数の二乗の期待値で定義されるので、 E[{S(X _ i, \theta)^ 2}] = I _ 1(\theta)となります。


以上より、フィッシャー情報量は 2微分を用いた次の形式で表すことが確認できます。

\displaystyle{
\begin{align}
I_1(\theta) = - E\left[\frac{\partial^2}{\partial \theta^2} \log f(X_i|\theta)\right]
\end{align}
}



3. スコア関数の分散はフィッシャー情報量となる

三つ目は、フィッシャー情報量はスコア関数の分散の形式でも表すことができます。

スコア関数の期待値が 0になることを利用して、求めることができます。

\displaystyle{
\begin{align}
V[S_n(\theta, X)] &= E[S_n(\theta, X)^2] - E[S_n(\theta, X)]^2 \\
V[S_n(\theta, X)] &= E[S_n(\theta, X)^2] \\
I_n(\theta) &= V[S_n(\theta, X)]
\end{align}
}




3. クラメール・ラオの不等式

1. 定義

不偏推定量の推定量の良し悪しは、分散の大小によって評価します。

定量として分散が小さければ小さいほど、よい推定量になりますが、実際に分散には下限が存在します。

クラメール・ラオの不等式は、分散の下限をフィッシャー情報に用いて数式化したものです。


パラメータ \thetaの不偏推定量 \hat{\theta}に対して、その分散 Var(\theta)は次の不等式を満たします。

これをクラメール・ラオの不等式と言い、次のように定義されます。

\displaystyle{
Var(\hat{\theta}) \ge \frac{1}{I_n(\theta)}
}


クラメール・ラオの不等式は、任意の不偏推定量の精度(分散の小ささ)には限界があり、この限界はフィッシャー情報量によって決定されるということを意味します。

フィッシャー情報量が大きければ大きいほど、そのパラメータの推定は理論的に、より精度良く行うことが可能です。


2. 有効推定量

ある不偏推定量 \hat{\theta}が、クラメール・ラオの下限に達しているとき、この推定量を有効推定量と呼びます。

有効推定量は一様最小分散不偏推定量となります。