順序統計量




1. 順序統計量とは?

順序統計量とは、統計学において、サンプルデータを小さい順に並べたときの、特定の順位にあるデータの値を指します。

これは、サンプルの中で最小値、最大値、中央値など、特定の位置にある値を特定するために使われます。


順序統計量の例をいくつか見てみましょう。

  • 最小値

    サンプルデータの中で最も小さい値となります。


  • 最大値

    サンプルデータの中で最も大きい値となります。


  • 中央値(メディアン)

    サンプルデータを小さい順に並べたとき、ちょうど中央に位置する値。

    サンプルサイズが奇数の場合は、中央の値がそのまま中央値となり、偶数の場合は、中央に位置する2つの数値の平均が中央値となります。


順序統計量の定義は、 n個のサンプルが X _ 1, X _ 2, ..., X _ nと与えられたとき、これらを昇順に並べ替えたものを X _ {(1)}, X _ {(2)}, ..., X _ {(n)}と表します。

ここで、 X _ {(1)}は最小値、 X _ {(n)}は最大値となり、 X _ {(k)} k番目に小さい値、つまり k番目の順序統計量となります。




2. 最大値の確率密度関数

最大値 X _ {(n)}確率密度関数を求めてみたいと思います。


最大値 X _ {(n)}が従う分布は、確率変数 Xの実現値 x X _ {(n)} \leq x​の確率として定義されます。

これは、実現値 xがすべての確率変数 X _ 1, X _ 2, \ldots, X _ n以上となることを意味しており、式で表すと次のようになります。

\displaystyle{
\begin{align}
P(X_{(n)} \leq x) = P(X_1 \leq x, X_2 \leq x, \ldots,X_n \leq x)
\end{align}
}


これらの確率変数は独立であるため、この確率は個々の確率の積として表されます。

\displaystyle{
\begin{align}
P(X_{(n)} \leq x) = P(X_1 \leq x) \cdot P(X_2 \leq x) \cdots P(X_n \leq x)
\end{align}
}


各確率変数 X _ i​はすべて同じ確率分布に従うと仮定すると、累積分布関数の積として表すことができます。

\displaystyle{
\begin{align}
P(X_{(n)} \leq x) &= F(x) \cdot F(x) \cdots F(x) \\

&= F(x) ^ n
\end{align}
}


この式は X _ {(n)}の累積分布関数となるため、累積分布関数を微分して X _ {(n)}確率密度関数を求めることができます。

\displaystyle{
\begin{align}
f_{(n)}(x) &= \frac{d}{dx} F(x)^n \\

&= n f(x) F(x)^{n-1}
\end{align}
}


以上の流れで、最大値 X _ {(n)}​の確率密度関数を求めることができました。




3. 最小値の確率密度関数

最小値 X _ {(1)}確率密度関数を求めてみたいと思います。


最小値 X _ {(1)}が従う分布は、確率変数 Xの実現値 x X _ {(1)} \gt xの確率として定義されます。

これは、実現値 xがすべての確率変数 X _ 1, X _ 2, \ldots, X _ nより小さくとなることを意味しており、式で表すと次のようになります。

\displaystyle{
\begin{align}
P(X_{(1)} \gt x) &= P(X_1 \gt x, X_2 \gt x, \ldots , X_n \gt  x)
\end{align}
}


これらの確率変数は独立であるため、この確率は個々の確率の積として表されます。

\displaystyle{
\begin{align}
P(X_{(1)} \gt x) &= P(X_1 \gt x) \cdot P(X_2 \gt x) \cdots  P(X_n \gt  x)
\end{align}
}


ここで、各確率変数 X _ iはすべて同じ確率分布に従うと仮定すると、 P(X _ i \gt x)は次のように表すことができます。

\displaystyle{
\begin{align}
P(X_i \gt x) &= 1 - P(X_i \leq x) \\

&= 1 - F(x)
\end{align}
}


これらを利用すると、 P(X _ {(1)} \gt x)は累積分布関数の積として表すことができます。

\displaystyle{
\begin{align}
P(X_{(1)} \gt x) &= (1 - F(x)) \cdot (1 - F(x)) \cdots (1 - F(x)) \\

&= (1 - F(x))^n
\end{align}
}


次に、 P(X _ {(1)} \gt x)を累積分布関数の形になるように変換します。

 P(X _ {(1)} \leq x) = 1 - P(X _ {(1)} \gt x)となるので、次のように表すことができます。

\displaystyle{
\begin{align}
P(X_{(1)} \leq x) &= 1 - P(X_{(1)} \gt x) \\

&= 1 - (1 - F(x))^n
\end{align}
}


この式は X _ {(1)}の累積分布関数となるため、累積分布関数を微分して X _ {(1)}確率密度関数を求めることができます。

\displaystyle{
\begin{align}
f_{(1)}(x) &= \frac{d}{dx} (1 - (1 - F(x))^n) \\

&= n f(x) (1 - F(x))^{n-1}
\end{align}
}


以上の流れで、最小値 X _ {(1)}確率密度関数を求めることができました。




4. k番目の確率密度関数

 X _ {(k)}確率密度関数を求めてみたいと思います。


 X _ {(k)}が従う分布は、確率変数 Xの実現値 xが、 X _ {(k)} \lt x,  X _ {(k)} = x ,  X _ {(k)} \gt xの3つの事象に分けて考えます。

それぞれの事象と確率は次の表のようになります。

事象 確率 出現回数
 X _ {(k)} \lt x  P(X _ {(k)} \lt x) = F(x)  k-1
 X _ {(k)} = x  P(X _ {(k)} = x) = f(x)  1
 X _ {(k)} \gt x  P(X _ {(k)} \gt x) = 1 - F(x)  n-k


これは3つの事象の三項分布と考えることができるため、確率密度関数は次のように表すことができます。

\displaystyle{
\begin{align}
f_{(k)}(x) &= \frac{
    n!
}{
    (k-1)! \cdot 1! \cdot (n-k)!
}
\cdot \{F(x)\}^{k-1}
\cdot f(x)
\cdot \{1-F(x)\}^{n-k}
\end{align}
}




5. i番目とj番目の同時確率密度関数

 X _ {(i)} X _ {(j)} i \lt j)の同時確率密度関数を求めてみたいと思います。


 X _ {(i)} X _ {(j)}が同時確率密度関数 f _ {X _ {(i)}, X _ {(j)}}(x, y)に従う場合に、5つの事象に分けて考えます。

それぞれの事象と確率は次の表のようになります。

事象 確率 出現回数
 X _ {(k)} \lt x  P(X _ {(k)} \lt x) = F(x)  i-1
 X _ {(k)} = x  P(X _ {(k)} = x) = f(x)  1
 x \lt X _ {(k)} \lt y  P(x \lt X _ {(k)} \lt y) = F(y) - F(x)  j - i - 1
 X _ {(k)} = y  P(X _ {(k)} = y) = f(y)  1
 X _ {(k)} \gt y  P(X _ {(k)} \gt y) = 1 - F(y)  n-j


これは5つの事象の五項分布と考えることができるため、確率密度関数は次のように表すことができます。

\displaystyle{
\begin{align}
f_{X_{(i)}, X_{(j)}}(x, y) &= \frac{
    n!
}{
    (i-1)!
    \cdot 1!
    \cdot (j-i-1)!
    \cdot 1!
    \cdot (n-j)!
}
\cdot \{F(x)\}^{i-1}
\cdot f(x)
\cdot \{F(y) - F(x)\}^{j-i-1}
\cdot f(y)
\cdot \{1 - F(y) \}^{n-j}

\end{align}
}