分布の特性値




1. モーメント

モーメントは、統計学や確率論において、データの分布の形状を数値的に記述するための指標です。

これには、データの「傾き」や「広がり」、「尖度」(ピークの鋭さ)や「歪度」(分布の非対称性)など、分布の特徴を捉えるための情報が含まれます。


数式として次のように定義されます。

  • 原点回りの r次モーメント

    原点回りの r次モーメントは、データ値の r乗の平均として定義されます。

    数学的には、確率変数 Xに対して、 E[X^r]で計算されます。

    \displaystyle{
\mu _ r = E[X^ r]
}

    これは、データの分布が原点を中心にどのように広がっているかを示します。


  •  X の平均回りの r次モーメント

     Xの平均回りの r次モーメントは、データ値からその平均を引いた値の r乗の平均として定義されます。

    これは E[(X-μ)^r]で表され、ここで \mu Xの平均です。

    \displaystyle{
\mu' _ r = E[(X-\mu)^ r]
}

    この定義は、データがその平均値を中心にどのように広がっているかを示します。


上記の内容を用いると、平均(期待値)は原点回りの 1​​次モーメントとして考えることができます。

\displaystyle{
\mu = E[X]
}


これは、確率変数 Xの1乗(すなわち、 X自身)の期待値、 E[X]として定義されます。

これにより、分布の中心的な傾向を示すことができます。


分散は、平均値回りの 2次モーメントとして定義されます。

\displaystyle{
\sigma^2 = E[(X-\mu)^2]
}


これは、確率変数 Xの値がその平均( \mu)からどれだけ離れて分布しているかを表す尺度です。

数学的には E[(X-μ)^2]と表され、これはデータ値からその平均を引いた値を2乗したものの平均です。

分散は分布の広がりを量的に示し、分布が平均からどれだけ散らばっているかを示します。




2. 期待値

期待値(平均)は、確率変数が取り得る値の平均的な大きさを表す統計量です。

確率変数の各値にその値が発生する確率を重みとして掛け合わせ、その総和(または積分)をとったものです。

期待値は、確率分布の中心的な位置を示し、その確率変数が長期にわたって取り得る値の「期待される」平均を表します。


  • 離散型確率変数の場合

    離散型確率変数の期待値は、その変数が取り得る各値とその値が発生する確率の積の合計で計算されます。


    離散型確率変数 Xが取り得る値を x_1,x_2,...,x_n、それぞれの値が発生する確率を P(X=x_i)とすると、期待値 E[X]は次のように計算されます。

    \displaystyle{
E[X] = \sum _ {i=0}^ {n}x _ iP(X=x _ i)
}


  • 連続型確率変数の場合

    連続型確率変数の期待値は、確率密度関数 f(x)を用いて、全値域にわたる x f(x)の積の積分によって計算されます。


    連続型確率変数 Xの期待値 E[X]は次のように定義されます。

    \displaystyle{
E[X] = \int _ {-∞}^ {∞} x \ f(x) \ dx
}




3. 分散

分散は、確率変数またはデータセットの値がその平均(期待値)からどれだけ散らばっているかを示す尺度です。

分散は、データのばらつきの大きさを数値的に表し、データが平均値を中心にどの程度広がっているかを量的に示します。

分散が大きいほどデータは平均値から広く散らばっており、小さいほどデータは平均値に集中しています。


分散は、確率変数 Xの各値とその平均値( E[X])との差の2乗の平均として定義されます。

数学的には、以下のように表されます

\displaystyle{
V[X] = E[(X-E[X])^2]
}


ここで、 E[⋅]は期待値を示します。


分散を求める際に、定義通りに求めると計算が多くなり少し複雑になります。

次の分散の公式を使用すると、分散を簡単に求めることができます。

\displaystyle{
V[X] = E[X^2] - E[X]^2
}


実際に分散の公式を求めてみます。

まず最初に分散の式を展開してみます。

\displaystyle{
\begin{align}
V[X] &= E[(X-E[X])^2] \\
&= E[X^2 - 2X・E[X] + E[X]^2] \\
\end{align}
}


ここで、 E[E[X]]=E[X] E[E[X]^2]=E[X]^2となるので、次のように整理して分散の公式を求めることができます。

\displaystyle{
\begin{align}
V[X] &= E[X^2 - 2X・E[X] + E[X]^2] \\
&= E[X^2] - 2E[X]・E[X] + E[X^2] \\
&= E[X^2] - 2E[X]^2 + E[X]^2 \\
&= E[X^2] - E[X]^2
\end{align}
}


また、確率変数 X,  Yと定数 a, b, cに対して、分散は次の性質を持ちます。

\displaystyle{
\begin{align}
V[aX+bY+c] = a^2 V[X] + b^2 V[Y] + 2abCov(X, Y)
\end{align}
}


確率変数 X, Yが独立であれば、次の関係が成り立ちます。

※確率変数 X,  Yが独立の場合、共分散は 0になるためです。

\displaystyle{
\begin{align}
V[aX+bY+c] = a^2 V[X] + b^2 V[Y]
\end{align}
}




4. 標準偏差

標準偏差は、確率変数またはデータセットの値がその平均(期待値)からどれだけ離れて分布しているかを示す尺度です。

具体的には、分散の正の平方根として定義されます。


確率変数 Xの分散を V[X]とした場合、標準偏差 \sigma(または SD)は次のように定義されます。

\displaystyle{
\sigma = \sqrt{V[X]}
}


標準偏差は分散と同じようにデータの散らばり具合を示すことができますが、元のデータと同じ単位で表現されるため、解釈が容易になります。


例えば、データセットがセンチメートルで測定されている場合、分散はセンチメートルの2乗で表されるのに対し、標準偏差はセンチメートルで表されます。

これにより、データの散らばり具合を直感的に理解しやすくなります。




5. 歪度

歪度は、分布の非対称性を測る尺度です。

正規分布のような対称な分布では歪度は0です。

分布が右に歪んでいる(長い裾が右側にある)場合、歪度は正の値を取り、左に歪んでいる(長い裾が左側にある)場合は負の値を取ります。


まとめると次のようになります。

  • 歪度が0に近い場合

    分布はほぼ対称であることを示します。

    これは、データの中央値が平均値に近いことを意味し、正規分布などの対称分布の特性を持っています。

  • 歪度が正の場合 分布は右に歪んでいる(右裾が長い)ことを示します。

    これは、データに非常に大きな値が含まれていることを示し、平均値が中央値よりも大きい状態です。

  • 歪度が負の場合 分布は左に歪んでいる(左裾が長い)ことを示します。

    これは、データに非常に小さな値が含まれていることを示し、平均値が中央値よりも小さい状態です。


歪度は次の式で計算されます。

\displaystyle{
Skewness = \frac{E[(X-\mu)^3]}{\sigma^3}
}




6. 尖度

尖度は、分布のピークの鋭さや裾の重さを測る尺度です。

正規分布の尖度は3で、これを基準に、尖度が3より大きい分布は正規分布よりもピークが鋭く裾が重い、尖度が3より小さい分布はピークが平坦で裾が軽いと言われます。


まとめると次のようになります。

  • 尖度が3に近い場合

    分布は正規分布に似た形状をしています。

    分布のピークは中程度で、裾の広がりも標準的です。

  • 尖度が3より大きい場合 分布は正規分布よりもピークが鋭く、裾が重い(長い尾を持つ)ことを示します。

    外れ値の発生確率が高いことを示します。

  • 尖度が3より小さい場合 分布は正規分布よりもピークが平坦で、裾が軽いことを示します。

    外れ値の発生確率が低いことを示します。


尖度は次の式で計算されます。

\displaystyle{
Kurtosis = \frac{E[(X-\mu)^4]}{\sigma^4}
}


注意点として、実際の計算では尖度から「3を引く」ことで、正規分布との比較を容易にする場合があります。




7. 変動係数

変動係数は、データセット標準偏差を平均値で割った値です。

この指標は、異なるデータセットや異なる単位を持つデータ間でのばらつきの相対的な比較を可能にします。

変動係数は、データの散らばり具合を平均値に対して正規化した形で表現し、平均値が異なるデータセット間での分散の相対的な大きさを比較する際に特に有用です。


変動係数の計算式は次の通りです。

\displaystyle{
CV = \frac{\sigma}{\mu}
}


ここで、 \sigmaはデータセット標準偏差 \muは平均値です。




8. パーセント点

パーセント点(または分位点)は、データセットを特定のパーセンテージで分割する値を指します。

これは、データセット内の観測値が下から数えてどの程度の位置にあるかを示す指標であり、特にデータの分布を理解する上で重要な役割を果たします。


パーセント点は、全データを小さい順に並べたときに、下から指定されたパーセンテージに位置するデータの値を指します。

例えば、50パーセント点(中央値)は、データセットを下位50%と上位50%に分割する値です。


特定のパーセント点は、データセットの分布形状を理解するのに役立ち、中央値(50パーセント点)、第1四分位数(25パーセント点)、第3四分位数(75パーセント点)などが一般的に使用されます。




9. 中央値

中央値は、データセットを値の大きさ順に並べたとき、ちょうど中央に位置する値です。


データセットの数値を小さい順に並べた場合、中央値は全データを二等分する点となり、データセットの下半分と上半分を分ける値です。

中央値は外れ値(非常に大きな値や小さな値)の影響を受けにくいため、データの中心傾向を表す際に平均値よりも適切な場合があります。


中央値は次のように定義されます。

\displaystyle{
P(X \leq a) = 0.5となるa
}


( Xが離散のときは、 P(X \leq a) \ge 0.5かつ P(X \ge a) \leq 0.5となる a)




10. 四分位数

四分位数は、データセットを値の大きさに基づいて四等分するための数値です。

これらは、データセット内の値を小さいものから大きいものへと並べたときに、全体を25%ごとに分割する点を指します。


四分位数は、データの分布、特にデータの散らばり具合や中央値からの偏差を理解するのに役立ちます。


具体的には、次の3つの四分位数があります。


  • 第1四分位数(Q1)

    データセットを下位25%と上位75%に分ける値です。

    これは、データセットの中央値(第2四分位数)よりも小さい値の中での中央値に相当します。


  • 第2四分位数(Q2)

    データセットの中央値です。

    全データを半分に分ける値であり、下位50%と上位50%を分けます。


  • 第3四分位数(Q3)

    データセットを下位75%と上位25%に分ける値です。

    これは、データセットの中央値よりも大きい値の中での中央値に相当します。





11. 四分位範囲

四分位範囲(IQR)は、データセットの中央50%のスプレッド(ばらつき)を表す統計量です。

具体的には、第3四分位数(Q3)と第1四分位数(Q1)の差であり、データセットの下位25%と上位25%を除外した中央部分の範囲を示します。

四分位範囲は、データの中心部分がどれだけ広がっているかを示し、外れ値や極端なデータポイントの影響を受けにくいため、データの散らばり具合を理解するのに有用な尺度です。


四分位範囲は次のように定義されます。

\displaystyle{
\begin{align}
IQR &= (第三四分位数) - (第一四分位数) \\
&= (P(X \leq b)=0.75となるb) - (P(X \leq c)=0.25となるc)
\end{align}
}


この計算により得られる四分位範囲は、データセットの中央50%の値がどの程度広がっているかを示す尺度となります。

四分位範囲が狭いほど、データの中央部分は比較的集中していることを示し、広いほどデータは中央部分でより広がっていることを示します。

四分位範囲は外れ値の影響を受けにくいため、データセットの散らばり具合を評価する際に特に有用です。




12. 分位点関数

分位点関数は、第一四分位数や第三四分位数だけでなく、さらに細かい分位点を考える場合に使用します。


確率変数 Xの累積分布関数を F(x)とするとき、逆関数 F^{-1}(・)と表します。

逆関数 F^{-1}(・)を用いると、中央値は F^{-1}(0.5)と表すことができます。


このとき、分位点関数は次のように定義されます。

\displaystyle{
F^{-1}(\alpha) = inf\{x|F(x) \ge \alpha \} (0 \leq \alpha \leq 1)
}


言い換えると、分位点関数は累積分布関数の逆関数となる。

この逆関数に求めたい分位点 \alphaを代入してやればよいということです。




13. 最頻値

最頻値は、データセットにおいて最も頻繁に出現する値を指します。

言い換えれば、データセット内で最も多く観測される数値です。

最頻値は、カテゴリー型データや順序型データ、比例尺度データなど、あらゆる種類のデータに対して定義することができます。


最頻値は、データセットの中心傾向を示す一つの方法ですが、平均値や中央値と異なり、データセットによっては最頻値が存在しない場合や、複数の最頻値が存在する場合があります。

最頻値が存在しない場合は、全ての値が同じ頻度で出現するか、それぞれが一度ずつしか出現しない場合です。

複数の最頻値が存在する場合は、データセットが複数の異なる値で同じ最大頻度を持つ場合であり、このようなデータセットは多峰性であると言われます。


最頻値は次のように定義されます。

\displaystyle{
f(x)が最大となるx
}


分布の形状によって平均値、中央値および最頻値は次のような関係性となります。

  • 左右対称の分布

    \displaystyle{
期待値 = 中央値 = 最頻値
}


  • 右に裾が長い分布

    \displaystyle{
最頻値 \lt 中央値 \lt 期待値
}


  • 左に裾が長い分布

    \displaystyle{
期待値 \lt 中央値 \lt 最頻値
}




14. 共分散

共分散は、2つの変数間の関係の強さと方向を示す統計量です。

正の共分散は、一方の変数が増加するときにもう一方の変数も増加する傾向があることを意味し、変数間に正の関係があることを示します。

負の共分散は、一方の変数が増加するときにもう一方の変数が減少する傾向があることを意味し、変数間に負の関係があることを示します。

共分散が0に近い場合、変数間にはほとんどまたは全く関係がないことを示します。


共分散は次のように定義されます。

\displaystyle{
\begin{align}
Cov(X, Y) &= E[(X-E[X])(Y-E[Y])] \\
&= E[XY] - E[X]E[Y]
\end{align}
}


確率変数 X Yが独立の場合は、次の関係が成り立ちます。

\displaystyle{
E[XY] = E[X]E[Y]
}


つまり、確率変数 X Yが独立の場合は、共分散は 0になります。




15. 相関係数

相関係数は、二つの変数間の線形関係の強さと方向を数値化したものです。

この値は -1 から +1 までの範囲を取り、+1 は完全な正の線形関係、0 は全くの無関係、-1 は完全な負の線形関係を示します。

相関係数が正の場合、一方の変数が増加するともう一方も増加する傾向があり、負の場合は一方が増加するともう一方が減少する傾向があります。


相関係数は次のように定義されます。

\displaystyle{
\rho(X, Y) = \frac{Cov(X, Y)}{\sqrt{V[X]}\sqrt{V[Y]}}
}


共分散は、二つの変数の変動がどれだけ一緒に発生するかを示す指標ですが、その単位や規模に依存します。

つまり、共分散だけでは、二つの変数間の関係の強さを直接比較することは難しいです。


相関係数は、共分散を二つの変数の標準偏差の積で割ることによって計算されます。

これにより、無次元化され、二つの変数間の関係の強さと方向を -1 から +1 の範囲で比較可能な数値として表現します。




16. 偏相関係数

相関係数は、特定の変数の影響を取り除いた後の、二つの変数間の相関の強さを測定する統計量です。

具体的には、二つの変数 X Y間の関係を調べる際に、変数 Zの効果を除去し、 X Yの純粋な相関関係を明らかにします。


 Zの影響を除いた X Yの偏相関係数は次のように定義されます。

\displaystyle{
\rho(X, Y|Z) = \frac{\rho(X,Y) - \rho(X, Z)\rho(Y,Z)}{\sqrt{1-\rho(X, Z)^2}\sqrt{1-\rho(Y, Z)^2}}
}