正确运用统计检验是确保医学论文科学性的关键。为帮助正在进行医学科研的朋友快速掌握核心工具,本文总结了#最常用的十大统计方法,并以通俗易懂的方式阐释其核心思想与应用场景,旨在为您的研究提供一份实用的快速参考指南。立即详读全文吧!
F检验就是一种比大小的统计方法,它主要用来比较 两个“方差”是不是有明显差别,或者说 多个组别之间的差异是不是大到不能只用“运气”解释。F检验会从“波动大小”来判断:各组之间的差异,是不是真的比组内的随机波动大得多。想象一下你在学校里,老师想知道三个不同班级的数学水平差不差:班级内部:同一个班同学之间的差距(有的高,有的低),这个差距就是 组内方差。班级之间:班与班之间的平均成绩差距,就是 组间方差。●拿来做一个比例(组间方差 ÷ 组内方差 = F值)。如果这个比例(F值)很大:说明班与班之间的差距,远大于班里学生自己之间的差距,那就能说“不同班级确实水平不同”。如果这个比例不大:说明班级之间的差异也就跟班级内部差不多,没法证明哪个班真的更好,可能就是随机波动。
蛋糕师傅之间差异(组间方差):不同人做的蛋糕平均味道差别大不大?同一个师傅每次做的差异(组内方差):同一个人多次做出来的波动大不大?👉 如果不同人做的差异远大于同一个人自己做的不稳定性,那就说明“不同人手艺确实有差别”(F检验显著)。👉 如果不同人做的差异跟他们自己随便发挥的波动差不多,那就说明其实大家水平差不多(F检验不显著)。
“组与组之间的差异,究竟是真实的差别,还是只是随机波动?”我给你整理一下 医学论文里常见需要用到 F 检验的场景,用大白话解释:比较三种降压药对血压的效果 → 组1(药A)、组2(药B)、组3(安慰剂)。比较不同BMI分组(正常、超重、肥胖)患者的平均血糖水平。F检验是ANOVA的核心:先看“总体差异”是不是显著,再决定要不要做两两比较。●场景:在做多元线性回归时,你不仅关心某个自变量是不是显著,还要问:用年龄、性别、BMI预测血压,F检验可以检验“这些变量加在一起,能不能显著解释血压的差异”。●场景:在做 t 检验 或 ANOVA 前,你需要先确认不同组的方差是不是差不多。比较糖尿病组 vs 非糖尿病组的血脂水平,先要确认两组的波动(方差)是不是相似。t检验和ANOVA对“方差齐性”有要求,F检验就是常用的检测工具。临床试验中,比较低剂量、中剂量、高剂量三组患者的疗效指标(比如血压下降幅度),先用 F 检验看看组间有没有总体差异。●场景:研究中有不同的“来源”或“中心”,要看这些来源带来的差异是否显著。多中心临床试验中,用 F 检验看不同医院之间患者差异大不大。遗传流行病学里,用 F 检验比较基因型之间的表型差异。在医学论文里,只要涉及“比较多个组的均值差异”或者“检验模型整体显著性”,大概率会用到 F 检验。👉 可以理解为:t检验是“小范围对比”,而F检验是“大范围总检”。
糖尿病患者 vs 非糖尿病患者 → 比较平均血糖水平。t检验:像医生比较两个病房的平均血压,看是不是不同。F检验:像医生比较整个医院多个病房的平均血压,先看总体差异存不存在。如果有三组及以上 → 先用 F检验(ANOVA),再做事后t检验/校正。比如:治疗组 vs 对照组,治愈/未治愈的人数分布是否有显著差别。
治疗组 vs 对照组 → 治愈率(治愈 / 未治愈)。不同BMI分组(正常/超重/肥胖) → 高血压发生率是否不同。不同血型(A/B/AB/O) → 某种疾病的分布差异。3. 适合度检验(Goodness-of-fit)●全称:Analysis of Variance。如果组间差异显著大于组内差异 → 认为不同组均值不一样。例:高血压患者分为 3 组(药物A / 药物B / 安慰剂),比较治疗后平均收缩压 → 用单因素方差分析(One-way ANOVA)。例:同一批病人术前、术后1周、术后1月的平均血糖比较 → 重复测量 ANOVA。例:研究药物类型(A/B/C) + 性别(男/女)对血压的影响 → 双因素方差分析(Two-way ANOVA)。ANOVA → 能比多组,但前提是正态 + 方差齐。Kruskal-Wallis → 多组,非正态时用。ANOVA:比“三家餐厅的平均评分”,看看是否至少有一家不一样。Kruskal-Wallis:比“三家餐厅顾客的排名差异”,不看平均分,看整体分布。是“多组均值比较”的首选,但必须保证正态分布 + 方差齐性。如果条件不满足,就要用 Kruskal-Wallis 代替。前面我们聊了t检验 / F检验 / 卡方检验,它们大多要求数据满足一定的假设(比如正态分布、方差齐性)。那如果数据不满足正态分布或者样本量太小怎么办?👉 就要用到非参数检验,其中最常见的就是 Mann-Whitney U 检验。●它不要求数据服从正态分布,也不太怕极端值(outliers)。例子:ICU患者的住院天数(往往右偏,不符合正态)。检验:治疗组 vs 对照组 → 住院天数差异 → Mann-Whitney U 检验。例子:疼痛评分(VAS评分 0–10,本质是等级数据)。检验:手术方式 A vs B → 疼痛评分差异 → Mann-Whitney U 检验。例子:罕见病研究,两组患者样本量 < 30,且分布明显偏态。Mann-Whitney U检验:比“两个班同学身高谁更高的次数”,相当于把大家排队,看哪个班的人整体更高。数据非正态/等级数据 → Mann-Whitney U 检验Kolmogorov-Smirnov 检验(K-S 检验)Kolmogorov-Smirnov 检验(K-S 检验)在医学论文里主要是用来检验分布 的,而不是直接比较均值。你可以把它想象成:我有一堆数据(比如某药物组病人的血压值),我怀疑它是不是“符合正态分布”。K-S 检验就像一把“模板尺”,把数据的累计分布和理想的正态分布模板一比,看差距大不大。在决定用 t检验还是 Mann-Whitney U检验前,常常要先跑 K-S 检验。例如:“数据经 K-S 检验符合正态分布,故采用独立样本 t检验”。比如比较两组人群的血糖值整体分布形状是否一样(不仅仅是均值)。如果你关心的是“整体分布差异” 而不是“均值差异”,就可以用 K-S 检验。Mann-Whitney U检验:看“中位数/排名”差不差。S 检验:更挑剔,检查“整个血压分布曲线”是不是长得一样。我们前面说过 Mann-Whitney U检验是t检验的非参数替代(两独立样本),那么 Wilcoxon 符号秩检验就是配对 t 检验的非参数替代。又叫 Wilcoxon signed-rank test。用来比较两组配对数据 / 成对样本的分布差异(常看中位数)。●配对t检验 → 看两次测量的均值差是否为 0(前后比较,正态数据)。●Wilcoxon 符号秩检验 → 看两次测量的秩次差是否对称分布(前后比较,非正态数据)。例:患者服药前后 → 血压下降值 → 数据不正态 → 用 Wilcoxon 符号秩检验。例:同一个病人 → 左眼 vs 右眼 → 视力差异。例:10 个病人术前术后疼痛评分(VAS),明显偏态。配对 t 检验配对样本,均值差正态分布病人术前 vs 术后 → 血压均值差Wilcoxon 符号秩检验配对样本,中位数差非正态/等级数据病人术前 vs 术后 → 疼痛评分配对 t检验:比“同一个学生,考试前后分数均值差多少”。Wilcoxon 符号秩检验:比“同一个学生,考试前后排位差异”,不在乎具体分数,只看名次变化方向和大小。两独立组 → t 检验(正态) vs Mann-Whitney U(非正态)两配对组 → 配对 t 检验(正态) vs Wilcoxon 符号秩(非正态)Kruskal-Wallis 检验,它就是单因素方差分析(One-way ANOVA)的非参数替代,主要用来处理多组比较。●适用于:3组及以上的独立样本,数据不满足正态或为等级数据。●原理:把所有样本合在一起排秩次,看各组的秩和是否有显著差异。单因素方差分析(ANOVA):正态 + 方差齐 → 比较 3 组及以上均值。Kruskal-Wallis 检验:非正态 / 等级数据 → 比较 3 组及以上中位数(分布差异)。例:研究高血压患者3种降压药(A/B/C) → 收缩压差异 → 数据非正态 → Kruskal-Wallis 检验。例:罕见病患者,分3个治疗组,样本数小且分布偏态。Kruskal-Wallis:比“3个班同学整体排名差不多吗”,不看均值,只看整体分布。两组数据 → t检验(正态) / Mann-Whitney U(非正态)配对数据 → 配对t(正态) / Wilcoxon(非正态)三组及以上 → ANOVA(正态) / Kruskal-Wallis(非正态)Fisher 精确检验(Fisher’s Exact Test)Fisher 精确检验(Fisher’s Exact Test),它是卡方检验的“升级/替代”方法,特别适合样本量很小的情况。用来分析两个分类变量之间是否相关,尤其是 2×2 列联表(比如“治疗有效 vs 无效” × “用药 vs 对照”)。Fisher精确检验直接计算所有可能的排列概率,结果完全精确,适合小样本。Fisher 精确检验是“小样本时,逐个数清楚所有可能情况”。例:罕见病临床试验,药物组 10 人,对照组 8 人 → 观察治愈/未治愈。数据太少,卡方检验不可靠 → 选 Fisher 精确检验。卡方检验:像是“大城市人口普查”,只要估算就足够准确。Fisher 精确检验:像是“小村子人口统计”,人数太少,必须一个个点名精确计算。Fisher 精确检验:小样本/稀有事件时,更精确可靠。它主要用来比较同一批对象在两种情况下的表现有没有差别。比如你做了一项调查,想看看某种治疗前后,人们的状态有没有显著变化。关注的是结果有没有从一种状态变到另一种(是/否、对/错、喜欢/不喜欢)。想象你有一群人去参加相亲活动。活动前,你问他们:“你愿意再见这个人吗?”(回答是“愿意”或“不愿意”)。- 最有意思的是那些 从“不愿意”变成“愿意” 或者 从“愿意”变成“不愿意” 的人。
McNemar 检验就是专门看这两种“反悔者”人数是不是差很多。如果差很多,就说明活动确实改变了大家的想法;如果差不多,那说明活动对整体态度没啥影响。- 只关心那些中途改手势的人,看看改的方向是不是有偏向。
统计上,就是看“正向变化的人数”和“反向变化的人数”差得大不大。McNemar 检验是用来检验‘前后变化’是否存在显著差异的方法,重点只看那些改变立场的人。我们关心的是同一批人,在「前」和「后」的两个状态,比如“同意/不同意”、“正确/错误”、“是/否”。表格就是这样:- B:前同意 → 后不同意 → 这是「改口」人群之一
- C:前不同意 → 后同意 → 这是「改口」人群之二
- 如果 B ≈ C → 说明改口的人是“扯平”的,不算什么显著变化。
- 如果 B 和 C 差很大 → 说明变化有方向性(比如很多人都从不同意变成同意),这就是显著差异。
假设:20 个人用了某个减肥APP,前后问他们“你觉得自己瘦了吗?”对比 B=8 和 C=10,差不算大,所以没有明显证据证明这个APP真让人整体变瘦。McNemar 检验 = 只看「改口人数的两个方向」。Cochran’s Q 检验其实可以看成是McNemar检验的“升级版”。
1. McNemar 检验 vs. Cochran's Q 检验- McNemar 检验:只能比较两种情况(比如治疗前 vs 治疗后)。
- Cochran’s Q 检验:可以比较三种及以上情况(比如治疗前,治疗后1个月,治疗后3个月)。
所以,你可以把 McNemar 当成“对比2个时间点的工具”,Cochran’s Q 就是“对比多个时间点或多个处理方式的工具”。假设有一群人连续参加了 三次相亲活动:活动1、活动2、活动3。每次你都问他们:“你愿意再见这个人吗?”(回答仍然是是/否)。- 如果你只比较「活动前 vs 活动后」,用 McNemar 就够了。
- 但现在有三个活动,你想知道:大家的态度整体有没有变化?是不是活动2或活动3真的不一样?
→ 这时 McNemar 就搞不定了,需要用 Cochran’s Q。假设有 10 个人,三个时间点(或三种处理方式),每人回答“是/否”。数据像这样:- 如果差不大 → 说明整体上没有证据表明时间点之间存在差异。
- Cochran’s Q:三组或以上配对二分类(前 vs 中 vs 后)。
- 同样是“配对”的,只不过 Cochran’s Q 能处理更多情况。
好啦,这十大统计方法就算掌握了一遍。是不是感觉心里有点底了?说白了,统计就是个工具,别把它想得太玄乎。核心在于:明确研究设计 → 看清数据类型 → 对号入座选择方法 → 合理解读结果。
如果你现在正卡在统计这关,或者被数据分析搞得焦头烂额,别自己硬扛。欢迎咨询「医嘉研临床研究1V1指导」!我们将从选题方向沟通、数据挖掘、数据清洗、数据分析、写作指导、专家评审、语言编辑、投稿指导为您提供全方位指导!
医嘉研专注于提供医学科研服务,不论您是需要发SCI还是国内核心,都可以联系我们!主要方向如下:经典meta,网状meta,预测模型meta等等,医护全领域各类meta分析!
Minic数据库挖掘、NHanes数据库、GBD数据库、Charls数据库、临床真实数据(已有数据或制定数据收集方案)
转录组、单细胞测序、蛋白组、基因组、代谢组、孟德尔随机化、网络药理学、分子对接、多组学+机器学习等各类生信分析指导服务!