1. 생존분석
1.1. 개괄
- 생존분석 : 관심사건(event of interest)이 발생하기까지 걸린 시간을 분석하는 통계적 방법론
- 생존시간과 관심사건 발생여부가 종속변수
- 생존함수를 추정하거나 생존함수에 유의한 영향을 미치는 독립변수를 파악하고 그 효과를 추정하는데 사용
1.2. 생존자료 survival data
- 생존자료 : 생존시간 $T$, 사건 $D$
- 개체 $i(i=1, \cdots, n)$에 대한 관측 : $(t_i, d_i), t_i>0, d_i=0, 1.$
- $d_i=1$이면 $T=t_i$에서 사건(event, 사망)이 발생하였음을 의미한다.
- $d_i = 0$인 경우는 $T=t_i$에서 관측불능(fail to observe) 상황이 되었음을 의미한다.
- 추적 실패(loss to follow up)
- 연구의 종료
- 생존분포 : 생존시간 $T$에 대한 확률분포
- 지수분포 $f_T(t; \lambda) = \lambda e^{-\lambda t}, t>0, \lambda >0$
- 와이블 분포 $f_T(t;\alpha, \beta) = \frac{\alpha}{\beta} (\frac{t}{\beta})^{\alpha-1} e^{-(\frac{t}{\beta})^\alpha}, t>0; \alpha>0, \beta>0$
- $\alpha=1$, $\lambda=\frac{1}{\beta}$이면 지수분포와 같다.
- 생존함수(survival function): $S_T(t) = P(T \geq t), t>0$
- 생존함수는 임의개체가 시점 $t>0$에 생존해 있을 확률이다.
- $S_T(t) = 1-F_T(t_-)$, 여기서 $F_T(t)$는 분포함수, 즉 누적확률을 의미한다. $t_-$는 $t$보다 약간 작은 시점을 의미한다.
- 지수분포 : $S_T(t; \lambda) = e^{-\lambda t}, t\geq0$
- 와이블 분포 : $S_T(t;\alpha, \beta) = e^{-(\frac{t}{\beta})^\alpha}, t>0$
- 둘 다 감소하는 형태이다.
- 위험함수(hazard function) : $h_T(t) = \frac{f_T(t)}{S_T(t)}, t>0$
- 위험함수는 $t>0$에서의 조건부 사건 발생률이다. \(h_T(t) =\lim_{h->0^+} \frac{1}{h} P(t \leq T < t+h | T \geq t)\)
- 지수분포의 경우 $h_T(t; \lambda) = \lambda, t>0$
- 위험률은 시간의 흐름과 관계없이 일정하다.
- 와이블 분포 : $h_T(t; \alpha, \beta) = (t/ \beta)^{\alpha-1}, t>0$
- $\alpha>1$인 경우, 시간의 흐름에 따라 위험률이 증가한다.
1.3. 모수적 생존분포의 추정
1.3.1. 최대가능도 추정
\(\underset{\theta}{\text{max}} \Pi_{i=1}^n f_T(t_i;\theta)^{d_i} \{1-F_T(t_i; \theta)\}^{1-d_i}\)
2. Workshop
2.1. Cox proportional hazards(PH) model
2.1.1. 위험함수(Hazard function)
- 어떤 시간까지 생존했다고 가정했을 때, 바로 다음의 매우 작은 시간간격 사이에서 사건이 발생할 확률
- 환자가 특정 시험 $t$ 직후에 바로 사망할 확률(=순간위험율)
- $ h(t) = P(T=t | T \geq t) = \frac{f(t)}{S(t)} $
- $h(t)$ : $t$ 시점에서의 위험을 의미
$T \geq t$는 t까지 살아남았을 때를 의미
- 생존곡선에 영향을 주는 위험요인과의 관련성을 모형화하는 것이 목적이다.
- 생존자료에서 다른 변수들의 효과를 보정한 후, treat효과를 볼 수 있는 갖아 대표적인 통계모형이다.
1.2. Cox PH model
1.2.1. Semi-parametric model
- 시간에 대한 분포가정은 없지만, 생존시간과 위험요인 사이의 관계는 모형이 가정된다.
공변량, 보정변수들을 고려하여 이들의 선형관계식으로 표현
- 위험비율은 시간에 관계없이 일정하다는 ‘비례위험(proportional hazard)’ 가정을 만족해야 한다.
- 비례가정은 반드시 확인하는 것이 원칙이다.
- 비례가정이 만족되지 않을 경우 time dependent covariate approach Extended Cox 모형을 사용한다.
- Hazard Ratio(HR)로 위험의 크기를 해석한다.
1.2.2. 생존시간 T에 영향을 주는 변수들
- $x_1, x_2, \cdots, x_p$
1.2.3. Hazard function
- $h(t) = h_0(t) \exp(\beta_1x_1+\cdots+\beta_px_p)$
- $h_0(t)$ : 기저위험함수, 모든 $x$들이 0일 때의 위험함수
- 비례위험(proportional hazards)
- $\frac{h_i(t)}{h_j(t)} = \exp [\beta_1(x_{i1}-x_{j1}) + \cdots + \beta_p (x_{ip}-x_{jp})]$
- $i$번째 환자와 $j$번째 환자의 위험비는 시간과 무관하게 상수가 된다.
1.2. Cox PH model : 이산형변수
1.2.1. 성별에 따른 차이
- Female : $x_1 = 1$
- Male : $x_1 = 0$
1.2.2. Female
- \[\log h(t|Female) = \log h_0(t)+\beta_1 \times 1 + \cdots + \beta_px_p\]
1.2.3. Male
- \[\log h(t|Male) = \log h_o(t) + \beta_1 \times 0 + \cdots + \beta_p x_p\]
1.2.4. HR
- \[\log{h(t | Female)} - \log{h(t|Male)}= \log{ \frac{h(t|Female)}{h(t|Male)}} = \beta_1 \times 1 - \beta_1 \times 0 = \beta_1\]
- Hazard Ratio(HR) : \(\frac{h(t|Female)}{h(t|Male)} = \exp{\beta_1}\)
- if HR=1.25($\beta=0.22$), reference=Male이라면 남자에 비해 여자가 1.25배 위험하다는 뜻이다.
- 생존분석에서는 $\beta_1$보다는 $\exp(\beta_1)$을 구해서 두 그룹의 위험비율을 생각한다.
1.2. Cox PH model : 연속형변수
1.2.1. 연령의 효과($x_1$)
- Age : $x_1 = x+1$ vs $x_1=x$
- Age = $x+1$
- \[\log{h(t|Age = x+1)} = \log{h_0(t)}+\beta_1 (x+1)+\cdots+\beta_px_p\]
- Age = $x$
- \[\log h(t|Age=x) = \log h_0(t) + \beta_1 (x) + \cdots + \beta_p x_p\]
둘이 빼면 \(\frac{h(t|Age=x+1)}{h(t|Age=x)} = \exp(\beta_1) = \text{HR}\)
- HR = 1.75($\beta = 0.56$)
- 연령이 1세 증가할수록 위험비가 1.75배 증가
- HR = 0.75($\beta = -0.29$)
- 연령이 1세 증가할수록 위험비가 0.75배 증가
- 연령이 1세 감소할수록 0.75의 역수인 1.33배 증가