最新要闻
- 天天最新:[快讯]创世达公布2022年年度分红实施方案
- 环球关注:魔域手游直播(魔域手游蜘蛛刷新点)
- 淘汰8GB内存 小米13 Ultra售价仅5999元:良心升级不涨价
- 环球微资讯!小米13 Ultra首发环形冷泵散热:温控甩开一众友商
- 世界快讯:一图看懂小米13 Ultra:拍照巅峰!16GB+1TB只需7299元
- 环球聚焦:“童话大王”郑渊洁发告别书:维权难 不再发新作
- 【全球热闻】高端成了 用户暴买好评率超98%!雷军:小米加大创新 今年研发投入预计超200亿
- 浙商证券汽车行业周报:特斯拉Q1交付超预期
- 给老外来点中国震撼!比亚迪展台被多名大众高管围观:都在看海鸥
- 7000mAh超大电池仅1799元!华为畅享60X图赏
- 今日播报!小米13 Ultra亮相:外观像极了相机!
- 世界快播:小米手机冲高端!小米MIX Fold 2好评率高达99.97%
- 环球速讯:小米13 Ultra、iPhone 14 Pro Max实拍对比出炉:徕卡光学YYDS
- 2023年社会工作者职业水平考试什么时间开考?
- 今日讯!《心渊梦境》多少钱?豪华版和标准版价格分享
- 定了!本田中国宣布2027年后不再投放燃油新车
手机
iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?
- 警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案
- 男子被关545天申国赔:获赔18万多 驳回精神抚慰金
- 3天内26名本土感染者,辽宁确诊人数已超安徽
- 广西柳州一男子因纠纷杀害三人后自首
- 洱海坠机4名机组人员被批准为烈士 数千干部群众悼念
家电
快资讯:R数据分析:生存数据的预测模型建立方法与评价
之前写了生存分析列线图的做法,列线图作为一个预测模型可视化工具,我们使用它的过程其实就是一个给新数据做预测的过程,其内在本身的模型就是我们基于现有数据训练的一个预测模型,今天也算是接着上一篇文章继续写生存分析的预测模型的效果评价。
(相关资料图)
生存数据预测模型和我们之前写的连续变量结局和分类结局的预测模型不同的地方就在于我们得考虑生存数据的删失和时间因素,通过这么一个预测模型,我们期望的目标是帮助临床医生去回答特定病人在某个时间的生存概率。从这个角度讲我们对模型评估和评价的标准就有一个锚定了。
Thus, survival prediction models differ from traditional prediction models for continuous or binary outcomes by appropriately accommodating censoring that is present in time-to-event data.to answer questions such as “What is the probability that this patient will be alive in 5 years, given their baseline covariate information?” This predicted probability can then be used by clinicians to make important decisions regarding patient care
比如说我收集了某个癌症病人的很大的有代表性的数据集,我通过我的数据学习出来了一个预测模型,再来一个新的癌症病人,模型可以告诉我,这个病人能活多久。
如果这个新数据本身有标签,我们通过对比实际标签(具体时间的生存概率)和模型预测结果(预测的具体时间的生存概率),就可以来评价模型优劣。逻辑和常规(分类结局和连续结局)的预测模型还是一样的。
先回顾生存分析
依然是先回顾下生存分析中的常见的术语:
我们的结局变量两个水平,一个是发生事件,另外一个是删失;同时这个结局还依赖于一个时间变量。
刚刚写了,我们做生存数据的预测,回答的是we are predicting the probability that an event happens at a particular time.----某个时刻发生事件的概率。所以这个时候常规的评价模型的指标都不好使了。
Due to the presence of the censoring in survival data, the standard evaluation metrics for regression such as root of mean squared error and ܴ R2 are not suitable for measuring the performance in survival analysis.
对于生存数据的预测模型,此时的评估模型的指标有下面3个:Concordance index (C-index),Brier score,Mean absolute error。今天的任务就是一个一个带大家捋一遍,希望能帮助大家理解在“个体特定时间的生存概率这个锚定标准下,这些指标为什么可以用来评价模型。”
Concordance index (C-index)
首先看C指数,这个一致性指数在分类结局的预测模型中给大家提到过,就是ROC曲线下面积,对于生存数据的预测模型来讲,这个指数和灵敏度特异度就没关系了,它比的是实际值和预测值的排序一致不一致。理解方法可以参考秩和检验。
For a binary outcome, C-index is identical to the area under the ROC curve (AUC).
The concordance index or C-index is a generalization of the area under the ROC curve (AUC) that can take into account censored data. It represents the global assessment of the model discrimination power.
其逻辑在于:每个个案通过模型都给它一个风险分,如果模型表现好,那么风险分高的个案应该会先发生事件,按照这个逻辑,然后我们用模型给每个个案都赋一个风险分,形成很多个可以对比的组(2个为一组):在组内确实满足刚刚讲的“风险分越大,事件越先发生”那么这个组就是一致性的组,否则就是不一致的组,这样一致性的组占所有对比组的比例就是C-index:
指数的计算方法如下:
其中,分子上是一致性的组,分母是所有组。那么这个值就是越大越好。
上面就是生存分析预测模型评价中C-index的内在逻辑,大家作为应用型科研工作者关注逻辑就好,请自动忽略掉数学表达。
Brier score
再来看第二个评价指标,叫做Brier score。这个Brier score是个案在t时间的生存状态减去t时间的预测生存概率的差的平方的均值。
其可以用来评价模型的逻辑在于:如果我的模型真的可以很好的预测特定时刻的生存概率,那么对于某个时刻我的生存状态确实是1,那么模型应该说我此时的生存概率无限大;反之模型应该说我的生存概率无限小。
因为牵扯到具体时间,这个指标只能截一个时间点去看,其算法如下:
we found that BS depends on the selection of time point t. Generally, the median of the observation time is selected as the time point.
就是个案在t时间的生存状态减去t时间的预测生存概率的差,比如在t时间个案实际观测到的是死亡(取0),那么这时候模型预测的生存概率应该越小越好;t时间个案实际观测到的是存活(取1),那么这个时候模型预测的生存概率应该是越大越好;肯定是减了之后的差越小越好嘛,也就是这个Brier score越小越好,并且得小于0.25才说明这个模型好过瞎猜。但是这指标只能看某个时间点模型的预测准确性。
上面就是生存分析预测模型评价中Brier score的内在逻辑,大家作为应用型科研工作者关注逻辑就好,自动忽略掉数学表达。
Mean absolute error
MAE这个指标在连续变量结局的预测模型中也有的,指的是预测值和实际值的差的绝对值的和,在生存分析的预测模型中,就是实际生存时间和模型预测生存时间的差的绝对值的和。算法如下:
这个指标只考虑了非删失数据,实际中就用得比较少。基本不用管。
模型评价实操
解释完指标之后我们再看实操做法,依然我们选取JAMA Surg.的文章做参考,文章名如下:
Hyder O, Marques H, Pulitano C, et al. A Nomogram to Predict Long-term Survival After Resection for Intrahepatic Cholangiocarcinoma: An Eastern and Western Experience. JAMA Surg. 2014;149(5):432–438. doi:10.1001/jamasurg.2013.5168
文章中对模型评估的方法学介绍如下:
可以看到,这篇文章报告了C指数,用自助抽样样本画了校准曲线,还进行了模型的验证。我们首先来看C指数的做法,文章中报告了C指数的值和置信区间:
Predictive accuracy (discrimination) of the final model was measured by calculating the Harrell C index, which was 0.692 (95% CI, 0.624-0.762).
如果你是用coxph函数跑模型,那么模型的输出结果中自动会出来C指数C指数的标准误的,如下图:
比如我们就单独想要这个指数,可以直接运行下面代码:
cindex(formula, data)
要得到C指数的置信区间的话就得求助concordance.index函数,代码如下:
concordance.index(predict(c),surv.time = dt,surv.event = e,method = "noether")
输出如下,有C指数,标准误和对应置信区间上下限:
看完了C指数的操作我们再看校准曲线的画法,论文中给到的校准曲线长这样:
首先我们来理解什么是校准曲线,上图中横轴是模型预测的生存概率,纵轴是实际的生存概率。图中还有一条灰色的虚线,代表预测概率和实际的生存概率一致,最理想的情况下校准曲线是一条对角线(预测概率等于实际概率),我们实际写文章的时候只要看着不要偏太离谱就行。
Calibration plot is a visual tool to assess the agreement between predictions and observations in different percentiles (mostly deciles) of the predicted values.
还要理解的是我们本身生存概率的分布是连续的,而图中只是画了3个点,这是因为算法将数据进行了分箱处理,上图中就是将原始数据分成了3组,这个操作使用calibrate函数中的参数m进行控制
For survival models, "predicted" means predicted survival probability at a single time point, and "observed" refers to the corresponding Kaplan-Meier survival estimate, stratifying on intervals of predicted survival。
同时,对于生存数据我们本身做预测的时候也是需要限定时间的,所以需要设定参数u。
比如我们要自助抽样20次,数据分箱,每箱200个,做时间点6的校准曲线的示例代码如下:
cal <- calibrate(f, u=6, cmethod="KM", m=200, B=20)plot(cal)
关于模型验证的结果,论文中通过报告重复抽样验证结果中训练数据和测试数据的C指数说明了模型并没有过拟合,原文如下:
Bootstrap validation of the model with 300 iterations revealed minimal evidence of model overfit. The training data set C statistic was 0.699, and the testing data set C statistic was 0.706, which represented the bias-corrected estimate of model performance in the future.
此部分的实现代码如下:
validate(f, B=300)
通过输出结果中便可推算出相应数据集的C指数。
D_{xy} are equal to 2 * (C - 0.5)where C is the C-index or concordance probability
然后我们再对比下训练数据和测试数据的C指数的差异就可以去得到我们自己模型的结论。
好了,到这儿本期按照JAMA surgery文章给大家写的生存数据预测模型的做法与评价方法就给大家写完了,其实生存数据的预测模型还有别的评价方法比如时间依赖的ROC,决策曲线等等,安排在下期,请持续关注。
关键词:
-
天天微动态丨教你用Python画哆啦A梦、海绵宝宝、皮卡丘、史迪仔!
一、哆啦A梦由于代码过长,这里仅显示部分代码:fromturtleimport*importturtleastfromrandomimport* 五轨迹跳跃defmy_
来源: 天天微动态丨教你用Python画哆啦A梦、海绵宝宝、皮卡丘、史迪仔!
快资讯:R数据分析:生存数据的预测模型建立方法与评价
天天最新:[快讯]创世达公布2022年年度分红实施方案
环球关注:魔域手游直播(魔域手游蜘蛛刷新点)
淘汰8GB内存 小米13 Ultra售价仅5999元:良心升级不涨价
环球微资讯!小米13 Ultra首发环形冷泵散热:温控甩开一众友商
世界快讯:一图看懂小米13 Ultra:拍照巅峰!16GB+1TB只需7299元
环球聚焦:“童话大王”郑渊洁发告别书:维权难 不再发新作
【全球热闻】高端成了 用户暴买好评率超98%!雷军:小米加大创新 今年研发投入预计超200亿
环球热资讯!AI测试101:测试AI系统的实用技巧&ML和AI自动化工具
全球热资讯!Redis---主从复制
浙商证券汽车行业周报:特斯拉Q1交付超预期
给老外来点中国震撼!比亚迪展台被多名大众高管围观:都在看海鸥
7000mAh超大电池仅1799元!华为畅享60X图赏
今日播报!小米13 Ultra亮相:外观像极了相机!
世界快播:小米手机冲高端!小米MIX Fold 2好评率高达99.97%
环球速讯:小米13 Ultra、iPhone 14 Pro Max实拍对比出炉:徕卡光学YYDS
2023年社会工作者职业水平考试什么时间开考?
今日讯!《心渊梦境》多少钱?豪华版和标准版价格分享
定了!本田中国宣布2027年后不再投放燃油新车
王冰冰现身上海车展:跟演员王凯同台
当前视讯!出境易APP:轻松搞定出国必备应用 让你的海外之旅更便利!
【天天报资讯】“五一”出游正升温 文旅市场提前“入夏”
全球资讯:羡慕吗?厦门一公司取消所有法定长假调休:补班改休假 不鼓励加班
当前动态:自行车胎压多少合适 胎压多少合适
当前信息:jenkins配置maven编译tomcat项目并使用Nexus配置私库源
全球视点!比较几种热门Hybrid App前端框架
4月22日丨【云数据库技术沙龙】技术进化,让数据更智能
环球观天下!.net C#加载程序集外dll文件方法
【世界播资讯】ChatGPT们接踵而至,AI会彻底改变我们的工作方式吗?
天天新消息丨买不到票?无所谓全国游客会替你回家
市场期待消息和数据进一步指引 日债收益率小幅向上波动
【豫财经】河南上榜的是它!胡润发布2023全球独角兽榜
【环球新视野】和平精英s8赛季是什么时候开始的 和平精英ss8赛季是什么时候开始的
42.78万起售 新一代奔驰GLC上市:对比理想L9你买谁?
焦点热讯:电池级碳酸锂价格跌破20万/吨!十年后电动车价格再跌一半有戏
【天天报资讯】32GB仅794元 七彩虹银翼DDR5内存首发:超频能冲10GHz
环球快看:超好评国产OS!深度20.9正式发布:一切为了稳定
天天快资讯丨成龙、吴京首次同框!《龙马精神》中二人致敬龙虎武师精神
环球要闻:5G进入高速发展阶段,5GETF(159994)近期受到投资者关注,天孚通信、中际旭创、新易盛领涨
【天天热闻】Kubernetes集群调度增强之超容量扩容
每日短讯:Python精品书籍
环球即时看!用户隐私安全卫士——小程序沙箱
Portainer认识、安装、使用
使用openssl自签CA
市场监管总局批准启用激光小角度副基准装置
每日机构分析:4月18日
天天快资讯丨厦门港务:将进一步研究探讨新兴技术在智慧物流云平台等方面的应用
当前快看:是块硬骨头!中国首个6x6超级越野平台首车诞生:3轴6驱5把锁
《幽灵线:东京》令人诧异:微软第一方大作PS5表现更好
【天天聚看点】自循环动态呼吸:骆驼新款Q态羽网面跑鞋129元1.9折狂促
环球今日报丨饮水机不清洗菌落超16000种?打工人看完心态崩了
曝特斯拉上海工厂克扣员工绩效 马斯克回应:将进行调查
天天观热点:厚植绿色技术创新优势
【天天热闻】苹果手机里面的udid怎么查出来
mysql connector 执行 select 和 shardingshpere-proxy 的处理过程
【世界播资讯】Nlog-动态修改DatabaseTarget,对数据库字符串进行加密
精选!Python实现搭建-简单服务器教程
滚动:PHP 7 教程_编程入门自学教程_菜鸟教程-免费教程分享
钉钉个人版来了!将全面接入千问大模型
驱动网简介
头条:【新华500】新华500指数(989001)18日上涨0.24%
焦点信息:“大块头”正当时,中国经济网带您走进2023上海车展
【全球新要闻】20多万有戏!全新宝马iX1纯电SUV发布:中国独享加长版
世界热议:钉钉宣布接入通义千问!一条“/”拉高生产力
天天新消息丨不给小鹏留活路?理想一只脚踏入纯电领域:城市高阶辅助驾驶也来了
天天要闻:小米13 Ultra同时把潜望+1英寸可变光圈塞进手机里 雷军:非常不容易
女司机误将车内空调开成热风中暑:交警帮忙开下高速
天长新型城镇化提质升级补短板项目开展消防演练
世界滚动:好物分享:一款可以加密云盘视频,并依然可在线播放的免费小工具——Alist 云盘视频加密助手!
环球报道:Grafana监控OracleDB的完整过程
环球简讯:Jenkins常用插件
全球热头条丨仅1.0MB,开源压缩软件7-Zip
全量通过,华为云GaussDB首批完成信通院全密态数据库评测
环球快播:吃避孕药副作用有哪些_吃避孕药的副作用有什么
闹大!近10万人联合抵制 网飞黑人《埃及艳后》摊上事:歧视非裔 篡改历史
【世界热闻】Mate60或将首发 华为鸿蒙4.0秋季发布:AI会是亮点
曝芒果TV涉嫌恶意扣费 页面无取消续费选项 你中招没
要闻:2199元 小米米家无线洗地机2发布:活水杀菌 180°躺平洗地
环球讯息:迈威生物(688062)2022年年报简析:增收不增利,存货大幅上升
了解GIS地图和可视化如何改变我们对地理信息的理解
天天热议:火山引擎DataLeap下Notebook 系列文章一:技术选型之路
全球热议:新车充电烧毁 特斯拉回应因电流过大:曾甩锅被国家电网硬怼
环球看点!潍坊风筝节现躺平版“秦始皇” 网友:这是他摔过最狠的一跤
大众拟2026年之前再推10款电动汽车
看热讯:网络编程懒人入门(十五):外行也能读懂的网络硬件设备功能原理速成
环球热议:若依前后端分离 代码生成修改(2)
【聚看点】用C#破解Chrome浏览器cookie值
【世界时快讯】3D轻量化引擎推出新技术,模型渲染更逼真!
17.88万起圆你跑车梦 哪吒GT开售:双门四座零百三秒
环球焦点!鸿蒙5G新机来了!WIKO Hi畅享60官宣:4800万金环双摄
全品牌销冠!魅族20系列成3000元档周线上销量第一
内外双2K E6旗舰屏!vivo X Fold2配置详解:九大全球领先科技
环球微速讯:农业农村部:今年全国农作物种子市场总体上供大于求,合格率稳定保持在98%以上
报道:【Git代码仓库托管】上海道宁为您提供构建、扩展和交付安全软件的完整开发人员平台
世界今日讯!windows系统git使用ssh方式和gitee/github进行同步
【天天时快讯】springboot统一响应实体封装+统一异常类管理
当前观察:Redis---哨兵服务
全球即时:python的matplotlib绘制动态图形(用animation中的FuncAnimation)
财政部:将专项债务限额及时下达各地 推动尽快形成实物工作量