生存関数とハザード関数 - 機械学習ともろもろ

1. 生存関数
2. ハザード関数

1. 生存関数

生存関数 $S(t)$ は、特定の時間 $t$ までにあるイベント（例えば、機械の故障、人の死亡など）が起こらない確率を表します。

生存関数は次のように定義されます。

$\displaystyle{ \begin{align} S(t) &= P(T > t) \\ &= 1 - P(T \le t) \end{align} }$

ここで、 $T$ はイベントが起こるまでの時間を表す確率変数です。

生存関数の主な意味は、時間の経過とともにイベントがまだ起こらない確率を示すことです。

これは、例えば、製品の耐久性や患者の生存期間を評価する際に非常に役立ちます。

時間 $t$ が増加するにつれて、 $S(t)$ は一般に減少します。

なぜなら、より長い期間が経過すればするほど、イベントが発生する確率が高くなるためです。

つまり、生存関数は、1から始まります（ $S(0) = 1$ ）。

これは、時間が $0$ の時点でイベントが発生する確率が0であるため、全員が生存している（あるいはイベントがまだ発生していない）ことを意味します。

また、時間が無限大に向かうにつれて、生存関数は $0$ に近づきます。

これは、十分な時間が経過すれば、最終的にはすべての個体がイベントに遭遇する（つまり、故障するか、死亡するなど）ことを反映しています。

リンク

2. ハザード関数

ハザード関数 $h(t)$ は、特定の時点 $t$ における瞬間的なイベント発生率を表します。

ハザード関数は次のように定義されます。

$\displaystyle{ \begin{align} h(t) = \lim_{\Delta t \to 0} \frac{P(t \leq T < t + \Delta t | T \geq t)}{\Delta t} = \frac{f(t)}{1 - F(t)} \end{align} }$

これは、時刻 $t$ でイベントがまだ発生していないという条件の下で、次の瞬間（ $\Delta t$ ）にイベントが発生する確率密度を表しています。

こちらの内容をもう少し詳細に解説します。

「時刻 $t$ でイベントがまだ発生していないという条件の下でイベントが発生する」という確率は、次のように条件付き確率を用いて表現することができます。

$\displaystyle{ \begin{align} P(t \lt T \leq t + \Delta t | T \gt t) &= \frac{ P(t \lt T \leq t + \Delta t, T \gt t) }{ P(T \gt t) } \end{align} }$

$T$ はイベントが起こるまでの時間を表します。

$P(t \lt T \le t + \Delta t)$ は $t$ から $t ～ \Delta t$ の間でイベントが発生する確率を表します。

$P(T \gt t)$ は、特定の時間 $t$ までイベントが発生しない確率を表します。

この条件付き確率の分子には、 $P(t \leq T \lt t + \Delta t, T \geq t)$ がありますが、これは実際には $P(t \leq T \lt t + \Delta t)$ と同義です。

なぜなら、 $T \geq t$ は $t \leq T \lt t + \Delta t$ の条件に含まれているためです。

これをふまえて、式を整理すると次のようになります。

$\displaystyle{ \begin{align} P(t \lt T \leq t + \Delta t | T \gt t) &= \frac{ P(t \lt T \leq t + \Delta t) }{ P(T \gt t) } \\ &= \frac{ F(t + \Delta t) - F(t) }{ 1 - F(t) } \end{align} }$

続いて、特定の $t$ におけるイベントの「瞬間的」な発生確率を求めるために、両辺を $\Delta t$ で割って $\Delta t$ を限りなく小さくします。

つまり、「瞬間的」な発生確率を求めるために、両辺を微分するということです。

$\displaystyle{ \begin{align} \lim_{\Delta t → 0 } \frac{1}{\Delta t}P(t \lt T \leq t + \Delta t | T \gt t) &= \frac{ f(t) }{ 1 - F(t) } \\ &= \left( - \log S(t) \right)' \end{align} }$

このようにハザード関数の値は、時刻 $t$ でイベントがまだ発生していないという条件の下、次の瞬間にイベントがどれだけ起こりやすいかを示します。

高い値はイベントが発生する可能性が高いことを意味し、低い値はその逆を意味します。

リンク