分布の特性値 - 機械学習ともろもろ

1. モーメント
2. 期待値
3. 分散
4. 標準偏差
5. 歪度
6. 尖度
7. 変動係数
8. パーセント点
9. 中央値
10. 四分位数
11. 四分位範囲
12. 分位点関数
13. 最頻値
14. 共分散
15. 相関係数
16. 偏相関係数

1. モーメント

モーメントは、統計学や確率論において、データの分布の形状を数値的に記述するための指標です。

これには、データの「傾き」や「広がり」、「尖度」（ピークの鋭さ）や「歪度」（分布の非対称性）など、分布の特徴を捉えるための情報が含まれます。

数式として次のように定義されます。

原点回りの $r$ 次モーメント

原点回りの $r$ 次モーメントは、データ値の $r$ 乗の平均として定義されます。

数学的には、確率変数 $X$ に対して、 $E[X^r]$ で計算されます。

$\displaystyle{ \mu _ r = E[X^ r] }$

これは、データの分布が原点を中心にどのように広がっているかを示します。
$X$ の平均回りの $r$ 次モーメント

$X$ の平均回りの $r$ 次モーメントは、データ値からその平均を引いた値の $r$ 乗の平均として定義されます。

これは $E[(X-μ)^r]$ で表され、ここで $\mu$ は $X$ の平均です。
$\displaystyle{ \mu' _ r = E[(X-\mu)^ r] }$

この定義は、データがその平均値を中心にどのように広がっているかを示します。

上記の内容を用いると、平均（期待値）は原点回りの $1$ 次モーメントとして考えることができます。

$\displaystyle{ \mu = E[X] }$

これは、確率変数 $X$ の1乗（すなわち、 $X$ 自身）の期待値、 $E[X]$ として定義されます。

これにより、分布の中心的な傾向を示すことができます。

分散は、平均値回りの $2$ 次モーメントとして定義されます。

$\displaystyle{ \sigma^2 = E[(X-\mu)^2] }$

これは、確率変数 $X$ の値がその平均（ $\mu$ ）からどれだけ離れて分布しているかを表す尺度です。

数学的には $E[(X-μ)^2]$ と表され、これはデータ値からその平均を引いた値を2乗したものの平均です。

分散は分布の広がりを量的に示し、分布が平均からどれだけ散らばっているかを示します。

リンク

2. 期待値

期待値（平均）は、確率変数が取り得る値の平均的な大きさを表す統計量です。

確率変数の各値にその値が発生する確率を重みとして掛け合わせ、その総和（または積分）をとったものです。

期待値は、確率分布の中心的な位置を示し、その確率変数が長期にわたって取り得る値の「期待される」平均を表します。

離散型確率変数の場合

離散型確率変数の期待値は、その変数が取り得る各値とその値が発生する確率の積の合計で計算されます。

離散型確率変数 $X$ が取り得る値を $x_1,x_2,...,x_n$ 、それぞれの値が発生する確率を $P(X=x_i)$ とすると、期待値 $E[X]$ は次のように計算されます。

$\displaystyle{ E[X] = \sum _ {i=0}^ {n}x _ iP(X=x _ i) }$
連続型確率変数の場合

連続型確率変数の期待値は、確率密度関数 $f(x)$ を用いて、全値域にわたる $x$ と $f(x)$ の積の積分によって計算されます。

連続型確率変数 $X$ の期待値 $E[X]$ は次のように定義されます。

$\displaystyle{ E[X] = \int _ {-∞}^ {∞} x \ f(x) \ dx }$

リンク

3. 分散

分散は、確率変数またはデータセットの値がその平均（期待値）からどれだけ散らばっているかを示す尺度です。

分散は、データのばらつきの大きさを数値的に表し、データが平均値を中心にどの程度広がっているかを量的に示します。

分散が大きいほどデータは平均値から広く散らばっており、小さいほどデータは平均値に集中しています。

分散は、確率変数 $X$ の各値とその平均値（ $E[X]$ ）との差の2乗の平均として定義されます。

数学的には、以下のように表されます

$\displaystyle{ V[X] = E[(X-E[X])^2] }$

ここで、 $E[⋅]$ は期待値を示します。

分散を求める際に、定義通りに求めると計算が多くなり少し複雑になります。

次の分散の公式を使用すると、分散を簡単に求めることができます。

$\displaystyle{ V[X] = E[X^2] - E[X]^2 }$

実際に分散の公式を求めてみます。

まず最初に分散の式を展開してみます。

$\displaystyle{ \begin{align} V[X] &= E[(X-E[X])^2] \\ &= E[X^2 - 2X・E[X] + E[X]^2] \\ \end{align} }$

ここで、 $E[E[X]]=E[X]$ 、 $E[E[X]^2]=E[X]^2$ となるので、次のように整理して分散の公式を求めることができます。

$\displaystyle{ \begin{align} V[X] &= E[X^2 - 2X・E[X] + E[X]^2] \\ &= E[X^2] - 2E[X]・E[X] + E[X^2] \\ &= E[X^2] - 2E[X]^2 + E[X]^2 \\ &= E[X^2] - E[X]^2 \end{align} }$

また、確率変数 $X$ , $Y$ と定数 $a, b, c$ に対して、分散は次の性質を持ちます。

$\displaystyle{ \begin{align} V[aX+bY+c] = a^2 V[X] + b^2 V[Y] + 2abCov(X, Y) \end{align} }$

確率変数 $X$ , $Y$ が独立であれば、次の関係が成り立ちます。

※確率変数 $X$ , $Y$ が独立の場合、共分散は $0$ になるためです。

$\displaystyle{ \begin{align} V[aX+bY+c] = a^2 V[X] + b^2 V[Y] \end{align} }$

リンク

4. 標準偏差

標準偏差は、確率変数またはデータセットの値がその平均（期待値）からどれだけ離れて分布しているかを示す尺度です。

具体的には、分散の正の平方根として定義されます。

確率変数 $X$ の分散を $V[X]$ とした場合、標準偏差 $\sigma$ （または $SD$ ）は次のように定義されます。

$\displaystyle{ \sigma = \sqrt{V[X]} }$

標準偏差は分散と同じようにデータの散らばり具合を示すことができますが、元のデータと同じ単位で表現されるため、解釈が容易になります。

例えば、データセットがセンチメートルで測定されている場合、分散はセンチメートルの2乗で表されるのに対し、標準偏差はセンチメートルで表されます。

これにより、データの散らばり具合を直感的に理解しやすくなります。

リンク

5. 歪度

歪度は、分布の非対称性を測る尺度です。

正規分布のような対称な分布では歪度は0です。

分布が右に歪んでいる（長い裾が右側にある）場合、歪度は正の値を取り、左に歪んでいる（長い裾が左側にある）場合は負の値を取ります。

まとめると次のようになります。

歪度が0に近い場合

分布はほぼ対称であることを示します。

これは、データの中央値が平均値に近いことを意味し、正規分布などの対称分布の特性を持っています。
歪度が正の場合分布は右に歪んでいる（右裾が長い）ことを示します。

これは、データに非常に大きな値が含まれていることを示し、平均値が中央値よりも大きい状態です。
歪度が負の場合分布は左に歪んでいる（左裾が長い）ことを示します。

これは、データに非常に小さな値が含まれていることを示し、平均値が中央値よりも小さい状態です。

歪度は次の式で計算されます。

$\displaystyle{ Skewness = \frac{E[(X-\mu)^3]}{\sigma^3} }$

リンク

6. 尖度

尖度は、分布のピークの鋭さや裾の重さを測る尺度です。

正規分布の尖度は3で、これを基準に、尖度が3より大きい分布は正規分布よりもピークが鋭く裾が重い、尖度が3より小さい分布はピークが平坦で裾が軽いと言われます。

まとめると次のようになります。

尖度が3に近い場合

分布は正規分布に似た形状をしています。

分布のピークは中程度で、裾の広がりも標準的です。
尖度が3より大きい場合分布は正規分布よりもピークが鋭く、裾が重い（長い尾を持つ）ことを示します。

外れ値の発生確率が高いことを示します。
尖度が3より小さい場合分布は正規分布よりもピークが平坦で、裾が軽いことを示します。

外れ値の発生確率が低いことを示します。

尖度は次の式で計算されます。

$\displaystyle{ Kurtosis = \frac{E[(X-\mu)^4]}{\sigma^4} }$

注意点として、実際の計算では尖度から「3を引く」ことで、正規分布との比較を容易にする場合があります。

リンク

7. 変動係数

変動係数は、データセットの標準偏差を平均値で割った値です。

この指標は、異なるデータセットや異なる単位を持つデータ間でのばらつきの相対的な比較を可能にします。

変動係数は、データの散らばり具合を平均値に対して正規化した形で表現し、平均値が異なるデータセット間での分散の相対的な大きさを比較する際に特に有用です。

変動係数の計算式は次の通りです。

$\displaystyle{ CV = \frac{\sigma}{\mu} }$

ここで、 $\sigma$ はデータセットの標準偏差、 $\mu$ は平均値です。

リンク

8. パーセント点

パーセント点（または分位点）は、データセットを特定のパーセンテージで分割する値を指します。

これは、データセット内の観測値が下から数えてどの程度の位置にあるかを示す指標であり、特にデータの分布を理解する上で重要な役割を果たします。

パーセント点は、全データを小さい順に並べたときに、下から指定されたパーセンテージに位置するデータの値を指します。

例えば、50パーセント点（中央値）は、データセットを下位50%と上位50%に分割する値です。

特定のパーセント点は、データセットの分布形状を理解するのに役立ち、中央値（50パーセント点）、第1四分位数（25パーセント点）、第3四分位数（75パーセント点）などが一般的に使用されます。

リンク

9. 中央値

中央値は、データセットを値の大きさ順に並べたとき、ちょうど中央に位置する値です。

データセットの数値を小さい順に並べた場合、中央値は全データを二等分する点となり、データセットの下半分と上半分を分ける値です。

中央値は外れ値（非常に大きな値や小さな値）の影響を受けにくいため、データの中心傾向を表す際に平均値よりも適切な場合があります。

中央値は次のように定義されます。

$\displaystyle{ P(X \leq a) = 0.5となるa }$

( $X$ が離散のときは、 $P(X \leq a) \ge 0.5$ かつ $P(X \ge a) \leq 0.5$ となる $a$ )

リンク

10. 四分位数

四分位数は、データセットを値の大きさに基づいて四等分するための数値です。

これらは、データセット内の値を小さいものから大きいものへと並べたときに、全体を25%ごとに分割する点を指します。

四分位数は、データの分布、特にデータの散らばり具合や中央値からの偏差を理解するのに役立ちます。

具体的には、次の3つの四分位数があります。

第1四分位数（Q1）

データセットを下位25%と上位75%に分ける値です。

これは、データセットの中央値（第2四分位数）よりも小さい値の中での中央値に相当します。
第2四分位数（Q2）

データセットの中央値です。

全データを半分に分ける値であり、下位50%と上位50%を分けます。
第3四分位数（Q3）

データセットを下位75%と上位25%に分ける値です。

これは、データセットの中央値よりも大きい値の中での中央値に相当します。