1. 仮説検定
仮説検定は、ある仮説がデータによって支持されるかどうかを判断するための方法です。
検討対象となる母集団のパラメータに関して、帰無仮説と対立仮説を設定します。
帰無仮説は通常、検証したい効果が存在しない、つまり「効果がない」という状態を表します。
一方、対立仮説は帰無仮説と対照的な状態、つまり「効果がある」ことを示唆します。
母集団のパラメータを表す集合をとし、これを(帰無仮説に対応)と(対立仮説に対応)の二つに分割します()。ここで、とは互いに排他的です()。
仮説検定は、パラメータがに属するか、に属するかを決定することです。
これを次のような形で表します。
が単一の点からなる場合、このような帰無仮説を単純帰無仮説と呼びます。
単純対立仮説も同様に定義されます。
帰無仮説に対して、対立仮説がである場合、これを両側検定と呼びます。
一方で、対立仮説があるいはの場合は片側検定と呼びます。
データから帰無仮説が正しくないと判断される場合、帰無仮説を棄却するといいます。
しかし、データから帰無仮説が正しくないと結論付けられない場合、帰無仮説を受容します。
ここで「受容する」とは、帰無仮説が真であることを証明するものではなく、単に棄却するに足る証拠がないという意味に過ぎません。
2. 検討統計量と有意水準
仮説検定では、まず帰無仮説と対立仮説を設定します。
今回の説明では、パラメータが特定の値と等しいか否かを検討する両側検定を例に説明します。
検定を行う際には、標本から計算される統計量を用います。
このは検定統計量と呼ばれ、仮説が棄却されるか受容されるかを決定するために用いられます。
検定統計量は、通常、ある確率分布に従うように作られます。
この分布は、帰無仮説が正しいという仮定のもとでのの振る舞いを示します。
が正しい場合、検定統計量がある特定の値よりも大きくなるか、または小さくなる確率は非常に低いと考えられます。
この「特定の値」を超える確率が希な場合、を棄却する根拠となります。
この希な確率の基準を有意水準という形で設定します。
検定統計量の値が帰無仮説を支持する受容域に位置する場合、帰無仮説は受容されます。
逆に、の値が棄却域に入る場合は、帰無仮説は棄却されます。
受容域と棄却域は、検定統計量の分布と有意水準に基づいて定義されます。
検定統計量が正規分布に従う場合に、有意水準のときを例にもう少し詳しく解説します。
この場合、両側検定を行うため、有意水準は上側と下側に分割され、それぞれとなります。
※片側検定の場合には、は分割せずに上側または下側のどちらかにのみ設定します。
の場合は、上側にのみ有意水準を設定します。
の場合は、下側にのみ有意水準を設定します。
標準正規分布において、上側2.5%または下側2.5%に相当する値は、確率的に稀とみなされ、この範囲外の値が観測された場合、帰無仮説を棄却する根拠となります。
この2.5%の閾値は、によって定量化され、標準正規分布表を用いてその値を求めることができます。
具体的に、検定統計量がとの間にある場合()、下図の「受容域」に検定統計量が位置するため帰無仮説を受容します。
これは、観測されたデータが帰無仮説が正しいと仮定した場合の自然な変動範囲内にあると解釈されるためです。
逆に、がより小さい、あるいはより大きい場合(または)、下図の「棄却域」に検定統計量が位置するため帰無仮説を棄却します。
これは、得られたデータが帰無仮説に基づく仮定からかなり離れており、別の説明が必要であることを示唆しています。
3. P-値
P値は、帰無仮説が正しいと仮定した場合に、検定統計量が実際に観測された値以上になる確率を表します。
P値が小さいということは、観測されたデータ(またはより極端なデータ)が帰無仮説のもとで発生することが稀であることを意味し、その結果が偶然によるものではない可能性が高いことを示します。
P値がある有意水準(通常は0.05または0.01と設定)以下である場合、P値は十分に小さいとみなされ、帰無仮説を棄却します。
P値は次のように計算します。
検定統計量の分布を考えたときに、観測された検定統計量の値以上の値が出現する確率を表しています。
ここでは標本データ全体に基づいて計算される統計量であり、は実際に観測された値です。
この確率は、帰無仮説の下でのの分布を用いて計算されます。
このは片側検定の際に使用されるP値であり、片側P値と呼ばれます。
両側検定の場合は、片側P値を2倍したものをP値として扱い、両側P値と呼ばれます。
両側P値は、対立仮説が帰無仮説とは異なるどちらの方向でも良い(効果が大きいか小さいかのどちらでも)場合に適用されます。
両側P値は、観測された検定統計量が分布の両極端のいずれかに位置する確率を考慮します。
したがって、両側検定の場合、P値は片側検定よりも厳しい基準を設けることになります。
4. 検定の過誤
帰無仮説が実際には正しいにも関わらず、それを誤って棄却してしまうことを第一種の過誤と呼びます。
例えば、実際には効果がない新しい薬に対して「効果がある」と結論付ける場合、この過誤が発生しています。
第一種の過誤の確率はと表され、通常は検定の前に設定されます(例: 0.05や0.01)。
このは、帰無仮説を誤って棄却するリスクをコントロールするために用います。
対立仮説が正しいにも関わらず、誤って帰無仮説を受容してしまうことを第二種の過誤と呼びます。
例えば、実際には効果がある新しい薬に対して「効果がない」と結論付ける場合がこれに該当します。
第二種の過誤の確率はと表され、この値が小さいほど、実際に効果がある場合にそれを検出できる確率(検出力)が高くなります。
第一種の過誤と第二種の過誤の確率とは、下図の斜線部分に相当します。
両方の過誤の確率は、理想的には小さいほうが望ましいですが、実際にはこれら二つのバランスを取る必要があります。
第一種の過誤の確率を低く設定すると、自動的に第二種の過誤の確率が高くなりがちであり、その逆もまた同様です。
したがって、第一種の過誤の確率をある固定値(例えば0.05)に設定し、その条件下で第二種の過誤をできるだけ小さくすることが目標となります。
5. 検出力(検定力)
検出力は、対立仮説が真に正しいもとで、その仮説を正しく有意と判定する確率で、で表されます。
ここでは第二種の過誤の確率であり、この過誤は対立仮説が真であるにもかかわらず、誤って帰無仮説を受容することを意味します。
したがって、検出力は、対立仮説が真であるときにそれを正しく検出できる確率を表しています。
検出力は下図の緑色の網掛け部分を指します。
検出力は次のように求めることができます。
棄却域をとする次の検定問題を考えます。
このとき、, , は、それぞれ次のように求まります。
検出力は、別の言い方をすると検定力とも呼ばれ、統計的検定の性能を評価するための指標の一つです。
検定の設計においては、高い検出力を持つことが望ましいとされています。
これは、実際に意味のある効果や差異が存在する場合に、その存在を見逃さないようにするためです。
検出力はいくつかの要因によって影響を受けます。
帰無仮説のもとでの分布と対立仮説のもとでの分布が離れているほど、つまり効果のサイズが大きいほど、は小さくなり、検出力は大きくなります。
たとえば、サンプルサイズが大きいほど、分布のばらつきが小さくなり、小さな効果でも検出しやすくなるため、検出力は高まります。