生存分析是将观察的结局和出现结局所经历的时间结合起来进行分析的一系列统计方法,常用于研究影响因素与生存时间和结局的关系,预测不同因素水平个体生存预测。
因为跟时间相关,所以要定义要事件起点,以及事件终点。生存时间T也可以根据事件起终点计算出来。
由于有些事件无法被观测或者没有观察到,导致生存时间无法被记录的情况称为删失。其中最为常见的情形称为右删失(right censoring,下图)
生存函数
风险函数的定义即在t时刻发生事件的概率。
生存函数是可以看到是从1到0递减的,而风险函数没有固定的单调性,可以是常数风险、可以随时间变化,比如上升、下降、先下降后上升。
,两边求导数可得
那么在t时刻发生事件的风险用极限的观点来看即在 这个区间内发生事件的数量除以在t时刻剩下的总人数
式1后面一个等式右边求偏微分等于等式左边,两边积分即式2。以上为风险函数与生存函数之间的关系3
K-M曲线是非参数估计生存函数的一种方法。
如何绘制K-M生存曲线? 临床原始资料一般如下:
患者 | 生存时间 | 发生事件与否 | 删失与否 |
---|---|---|---|
a | 10 | 0 | r |
b | 28 | 1 | |
c | 30 | 1 | |
d | 2 | 1 | |
e | 7 | 0 | r |
假设是来分析患者生存分析,定义结局是死亡,最长实验观察时间是90天, |
首先是判断删失数据,假设a和e患者分别出院,观察不到死亡结局,那么以上两个患者是删失数据。
将资料整理成生存概率随时间变化表格
患者 | 生存时间 | 存活患者数n | 死亡人数d | 当前存活概率(n-d)/n | 生存概率 |
---|---|---|---|---|---|
0 | 1 | ||||
d | 2 | 5 | 1 | 4/5 | 4/5 |
e | 7+ | ||||
a | 10+ | ||||
b | 28 | 2 | 1 | 1/2 | ${4/5}*{1/2}=2/5$ |
c | 30 | 1 | 1 | 0 | 0 |
将上表生存时间以及生存概率可视化即可得到k-m曲线。
以上介绍了生存分析的基本原理以及非参数生存分析K-M曲线是如何来的,有空介绍半参以及参数化的生存分析方法。