在咱们日常的临床诊疗中,预测患者未来的结局是非常核心的环节。这些年大家也能看到,每年都有成百上千的临床预测模型研究发表。
但是大量实证研究表明,很多已经发表的模型在方法学上存在缺陷,这就导致在真实的临床环境里不可用。
为了帮大家规避那些常见的痛点,踏踏实实地开发和验证真正具备临床价值的预测模型,今天咱们就把这套构建临床预测模型的13步流程,从头到尾好好梳理一遍!
![MTY4ODg1NTQ4MzcyMTIzOA_655829_xPJjFdn5rbLQnrEZ_1775815043[1].png](/storage/news/clinical-prediction-model-13-steps-bmj/img_01.png)
![MTY4ODg1NTQ4MzcyMTIzOA_955334_vadNbThsKUzB-cqc_1775815500[1].png](/storage/news/clinical-prediction-model-13-steps-bmj/img_02.png)

构建临床预测模型13步流程总览
构建模型前必须清晰界定研究的核心目标:
这就要求咱们提前明确模型具体适用的人群、重点需要预测的健康结局、模型落地的医疗层级、最终的使用者以及模型到底要辅助哪些具体的临床决策。
着手建模前必须全面检索文献:
大家需要审慎评估是开发全新模型还是更新现有的模型,如果文献中已经存在偏倚风险较低且高度契合当前研究问题的模型,对其开展外部验证往往比重新开发更有临床意义。
根据验证结果,咱们可以通过重新校准、参数修订或扩展新预测因子的策略对已有模型进行更新。
健康结局的定义方式直接决定了模型的信息利用率:
建议优先采用连续变量或至事件发生时间数据,采用至事件发生时间数据能够更好地处理随访时间受限且未发生结局事件的个体信息。
这里一定要注意:千万不要将连续结局人为地分类或二元化,会导致严重的信息丢失,而且设定的分类阈值往往缺乏生物学依据。
候选因子的筛选必须建立在文献回顾与专家共识之上:
重点优先纳入与结局具有已知或潜在因果关联的预测因子,能显著提升模型的泛化能力。
与结局变量的处理原则一致,不要对连续的预测因子进行分类或二分法处理,否则会大幅降低统计效能。
同时必须结合临床实际,果断剔除那些在常规诊疗中无法便捷测量或获取成本过高的变量。
在正式建模前,必须对预测因子和结局变量的测量误差进行排查:
如果数据集中的系统误差与真实临床情况不符,最终产出的模型就会出现校准度不佳的问题。
应剔除数据分布变异度极小的预测因子,因为它们对提高预测性能没什么贡献。
样本量是决定模型成败的关键:
数据量太小而纳入过多预测因子会导致过拟合,也就是模型在训练集里表现极好,但在新数据中预测极不准确。
![MTY4ODg1NTQ4MzcyMTIzOA_993935_ktjKJHVyZDwK5ZxZ_1775815566[1].png](/storage/news/clinical-prediction-model-13-steps-bmj/img_04.png)

模型过拟合与欠拟合图示
我们需要严格根据目标人群的基础风险或平均结局值、模型预期性能指标以及参数总数,来计算所需的最小样本量。
面对真实世界数据中不可避免的缺失值,仅保留数据完整的病例进行分析不可行,会大幅缩减可用样本量。
正确做法:采用多重插补或单次插补技术来利用所有可用信息,并且务必确保插补模型与最终的预测模型包含相同的变量。
结局指标类型决定了基础统计模型:
连续结局采用线性回归;
二元结局适用逻辑回归;
生存结局首选Cox模型;
如果存在多种可能的结局且患者只能经历其中一种,必须用竞争风险模型。
特别强调一点:严禁使用单变量筛选法或逐步回归法来挑选预测因子,会导致估计偏倚并丢失有价值的信息;推荐引入LASSO回归或岭回归等惩罚机制来控制模型复杂度,有效防止过拟合。
评估预测模型必须同时关注区分度和校准度这两个核心维度:
区分度:评估的是模型区分高风险与低风险患者的能力,对于二元结局通常通过ROC曲线下面积AUC来量化衡量;
校准度:反映的是预测风险与真实事件发生率之间的一致性,推荐绘制平滑校准曲线来局部评估模型,是否存在高估或低估结局风险的情况。
![MTY4ODg1NTQ4MzcyMTIzOA_475239_8CKQp1acsUHcYOzN_1775815674[1].png](/storage/news/clinical-prediction-model-13-steps-bmj/img_06.png)

模型平滑校准曲线评估示例
使用开发模型的数据直接评估性能会产生偏倚,因此必须进行严格的内部验证来获取真实的性能指标。
摒弃简单的数据随机拆分法,这种方法会浪费数据并降低统计检验效能。
推荐采用K折交叉验证或自举法Bootstrap,其中自举法通常能产出更稳定且偏倚更小的验证结果。
模型预测得准不代表它能直接改善临床决策,我们需要用决策曲线分析,量化评估模型的临床实用价值。
通过在不同风险阈值下权衡预期收益与潜在危害,只有当使用模型指导决策所带来的净收益,高于所有人都干预或所有人都不干预的简单策略时,模型才真正具备应用的意义。
![MTY4ODg1NTQ4MzcyMTIzOA_851660_oxyuCN5hPHEgVNAD_1775815706[1].png](/storage/news/clinical-prediction-model-13-steps-bmj/img_08.png)

预测模型决策曲线分析示例
虽然预测建模的初衷是优化整体性能而非评估单个因子,但为了探寻可能的临床预防线索或评估新生物标志物的价值,咱们可以额外评估特定预测因子的影响。
不过必须清楚:数据中观察到的关联并不能直接等同于因果关系。
在研究的收尾阶段,必须严格遵循TRIPOD声明的规范要求进行撰写:
在文章中公开完整的模型数学方程与软件代码,以保证研究的可重复性。
最后,必须要考虑到最终用户的实际使用需求,将复杂的模型转化为直观便捷的在线计算器或临床评分系统,确保模型能够真正走入临床指导实践。
临床数据堆积如山,不知道如何筛选?或者没有临床数据,无从下手?难以形成系统的科研思路与课题框架?无法转化成文?
橙方深耕临床研究领域,紧跟科研热点,助你将临床数据转化为科研结果,发表有价值的高分SCI!欢迎咨询我们橙方科研临床1V1指导,助你最短时间拿到自己的accept!
橙方医学SCI一对一辅导
Meta分析
涵盖了经典Meta、网状Meta,再到到前沿的预测模型Meta,提供严谨、可靠的解决方案
生信分析
利用多组学整合(转录组、单细胞、蛋白组等),结合孟德尔随机化、网络毒理、药理等方法,解析数据挖掘创新
临床研究
基于NHANES、CHARLS、MIMIC等主流数据库,进行深度挖掘,并结合真实临床数据,量身定制分析方案
⬇️扫码咨询了解更多⬇️

💡 配套实验服务
如果你在临床研究或生信分析过程中需要配套的湿实验支持,医嘉研同步提供分子生物学实验服务、细胞实验服务、动物实验服务等一站式外包,覆盖完整的细胞生物学实验与分子生物学实验流程,从课题设计到数据产出全程辅助,让你的SCI研究更扎实。