统计方法全了!医学论文中常见的十大统计检验方法总结(大白话版)


正确运用统计检验是确保医学论文科学性的关键。为帮助正在进行医学科研的朋友快速掌握核心工具,本文总结了#最常用的十大统计方法,并以通俗易懂的方式阐释其核心思想与应用场景,旨在为您的研究提供一份实用的快速参考指南。立即详读全文吧!



十大统计检验方法





1

F检验
F检验是什么?
F检验就是一种比大小的统计方法,它主要用来比较 两个“方差”是不是有明显差别,或者说 多个组别之间的差异是不是大到不能只用“运气”解释。
换句话说:
如果我们只是看平均值差不多,那可能不准;
F检验会从“波动大小”来判断:各组之间的差异,是不是真的比组内的随机波动大得多。
打个比方
想象一下你在学校里,老师想知道三个不同班级的数学水平差不差:
班级内部:同一个班同学之间的差距(有的高,有的低),这个差距就是 组内方差。
班级之间:班与班之间的平均成绩差距,就是 组间方差。
👉 F检验干的事情就是:
把班与班之间的差距(组间方差)
和班里同学之间的差距(组内方差)
拿来做一个比例(组间方差 ÷ 组内方差 = F值)。
如果这个比例(F值)很大:说明班与班之间的差距,远大于班里学生自己之间的差距,那就能说“不同班级确实水平不同”。
如果这个比例不大:说明班级之间的差异也就跟班级内部差不多,没法证明哪个班真的更好,可能就是随机波动。
  1. 再举个生活中的例子
假设你和朋友们要评比“谁做的蛋糕最好吃”:
蛋糕师傅之间差异(组间方差):不同人做的蛋糕平均味道差别大不大?
同一个师傅每次做的差异(组内方差):同一个人多次做出来的波动大不大?
👉 如果不同人做的差异远大于同一个人自己做的不稳定性,那就说明“不同人手艺确实有差别”(F检验显著)。
👉 如果不同人做的差异跟他们自己随便发挥的波动差不多,那就说明其实大家水平差不多(F检验不显著)。
  1. 一句话总结
F检验就是在问:
“组与组之间的差异,究竟是真实的差别,还是只是随机波动?”
我给你整理一下 医学论文里常见需要用到 F 检验的场景,用大白话解释:
一、最典型:方差分析(ANOVA)
场景:你想比较三组及以上人群的平均数差异。
例子:
比较三种降压药对血压的效果 → 组1(药A)、组2(药B)、组3(安慰剂)。
比较不同BMI分组(正常、超重、肥胖)患者的平均血糖水平。
为什么用F检验?
F检验是ANOVA的核心:先看“总体差异”是不是显著,再决定要不要做两两比较。
二、回归模型整体显著性
场景:在做多元线性回归时,你不仅关心某个自变量是不是显著,还要问:
👉 整个模型是不是比“啥都不放”的空模型要好?
用年龄、性别、BMI预测血压,F检验可以检验“这些变量加在一起,能不能显著解释血压的差异”。
三、比较多个方差(方差齐性检验)
场景:在做 t 检验 或 ANOVA 前,你需要先确认不同组的方差是不是差不多。
比较糖尿病组 vs 非糖尿病组的血脂水平,先要确认两组的波动(方差)是不是相似。
为什么?
t检验和ANOVA对“方差齐性”有要求,F检验就是常用的检测工具。
四、临床试验设计/药物研究
场景:不同剂量的药物效果比较。
临床试验中,比较低剂量、中剂量、高剂量三组患者的疗效指标(比如血压下降幅度),先用 F 检验看看组间有没有总体差异。
五、方差成分分析(例如遗传学/多中心研究)
场景:研究中有不同的“来源”或“中心”,要看这些来源带来的差异是否显著。
多中心临床试验中,用 F 检验看不同医院之间患者差异大不大。
遗传流行病学里,用 F 检验比较基因型之间的表型差异。
✅ 一句话总结:
在医学论文里,只要涉及“比较多个组的均值差异”或者“检验模型整体显著性”,大概率会用到 F 检验。


2

t检验
🧪 一、t检验是什么?
t检验主要用来比较两个组的均值差异是否显著。
👉 可以理解为:t检验是“小范围对比”,而F检验是“大范围总检”。
📌 医学论文里常见的t检验场景:
  1. 两组独立样本比较(独立样本t检验)
场景:比较两组不同人群的平均值。
糖尿病患者 vs 非糖尿病患者 → 比较平均血糖水平。
男性 vs 女性 → 比较平均血压。
2. 配对样本比较(配对t检验)
场景:同一组人在干预前后,或匹配样本的差异。
同一批患者 → 治疗前后的血压差异。
一对一匹配的病例-对照 → 比较某项指标。
3. 单样本t检验
场景:拿样本均值跟已知总体均值比较。
研究某地儿童平均身高,是否显著高于全国标准身高。
🆚 二、t检验 vs F检验
🌰 医学比喻
t检验:像医生比较两个病房的平均血压,看是不是不同。
F检验:像医生比较整个医院多个病房的平均血压,先看总体差异存不存在。
一句话总结
如果只有两组 → 用 t检验。
如果有三组及以上 → 先用 F检验(ANOVA),再做事后t检验/校正。


3

卡方检验(Chi-square test)
🧪 卡方检验是什么?
👉 卡方检验主要用来比较组间比例/构成差异。
它不看均值,而是看人数/比例分布 是否显著不同。
比如:治疗组 vs 对照组,治愈/未治愈的人数分布是否有显著差别。
📌 医学论文里常见的卡方检验场景
  1. 两组比例比较(2×2列联表)
场景:比较两个处理的结局比例。
治疗组 vs 对照组 → 治愈率(治愈 / 未治愈)。
男 vs 女 → 高血压患病率(有 / 无)。
2. 多组比例比较(RxC列联表)
场景:比较三组及以上人群的比例差异。
不同BMI分组(正常/超重/肥胖) → 高血压发生率是否不同。
不同血型(A/B/AB/O) → 某种疾病的分布差异。
3. 适合度检验(Goodness-of-fit)
场景:检验样本分布是否符合理论分布。
新生儿的男女比例是否符合 1:1 理论值。
🆚 和 t/F 检验的区别
🌰 医学比喻
t检验:比“身高平均数”
F检验:比“多个班级的身高平均数”
卡方检验:比“男生女生比例”
一句话总结
要比较均值 → t/F 检验
要比较比例/人数分布 → 卡方检验


4

方差分析(ANOVA)
什么是方差分析(ANOVA)?』
全称:Analysis of Variance。
核心逻辑:比较三组及以上均值差异。
原理:把总变异拆成两部分:
组间变异(不同组均值差异有多大)
组内变异(同一组内部的个体差异有多大)
然后做 F检验:
如果组间差异显著大于组内差异 → 认为不同组均值不一样。
📌 医学论文常见应用场景
多组治疗方案比较
例:高血压患者分为 3 组(药物A / 药物B / 安慰剂),比较治疗后平均收缩压 → 用单因素方差分析(One-way ANOVA)。
多时间点重复测量
例:同一批病人术前、术后1周、术后1月的平均血糖比较 → 重复测量 ANOVA。
多个因素同时影响
例:研究药物类型(A/B/C) + 性别(男/女)对血压的影响 → 双因素方差分析(Two-way ANOVA)。
🆚 和其他检验的关系
👉 可以看出:
t检验 → 只能比两组。
ANOVA → 能比多组,但前提是正态 + 方差齐。
Kruskal-Wallis → 多组,非正态时用。
t检验:比“两家餐厅的平均评分”。
ANOVA:比“三家餐厅的平均评分”,看看是否至少有一家不一样。
Kruskal-Wallis:比“三家餐厅顾客的排名差异”,不看平均分,看整体分布。
一句话总结
ANOVA = t检验的多组扩展版
是“多组均值比较”的首选,但必须保证正态分布 + 方差齐性。
如果条件不满足,就要用 Kruskal-Wallis 代替。


5

Mann-Whitney U 检验
前面我们聊了t检验 / F检验 / 卡方检验,它们大多要求数据满足一定的假设(比如正态分布、方差齐性)。那如果数据不满足正态分布或者样本量太小怎么办?
👉 就要用到非参数检验,其中最常见的就是 Mann-Whitney U 检验。
🧾 Mann-Whitney U检验是什么?
又叫秩和检验,是t检验的非参数替代。
用来比较两个独立样本的分布差异,尤其是中位数。
它不要求数据服从正态分布,也不太怕极端值(outliers)。
📌 医学论文里常见的应用场景
两组样本,数据偏态分布
例子:ICU患者的住院天数(往往右偏,不符合正态)。
检验:治疗组 vs 对照组 → 住院天数差异 → Mann-Whitney U 检验。
两组样本,测量结果为等级/秩次数据
例子:疼痛评分(VAS评分 0–10,本质是等级数据)。
检验:手术方式 A vs B → 疼痛评分差异 → Mann-Whitney U 检验。
样本量小,不满足t检验前提
例子:罕见病研究,两组患者样本量 < 30,且分布明显偏态。
🆚 和 t检验的关系
🌰 医学比喻
t检验:比“两个班的平均身高”。
Mann-Whitney U检验:比“两个班同学身高谁更高的次数”,相当于把大家排队,看哪个班的人整体更高。
一句话总结
数据正态 → t检验
数据非正态/等级数据 → Mann-Whitney U 检验


6

Kolmogorov-Smirnov 检验(K-S 检验)
Kolmogorov-Smirnov 检验(K-S 检验)在医学论文里主要是用来检验分布 的,而不是直接比较均值。
📌 大白话解释
你可以把它想象成:我有一堆数据(比如某药物组病人的血压值),我怀疑它是不是“符合正态分布”。
K-S 检验就像一把“模板尺”,把数据的累计分布和理想的正态分布模板一比,看差距大不大。
如果差距小 → 可以认为近似正态分布。
如果差距大 → 说明不符合正态分布。
📌 在医学论文里的常见用途
正态性检验
在决定用 t检验还是 Mann-Whitney U检验前,常常要先跑 K-S 检验。
例如:“数据经 K-S 检验符合正态分布,故采用独立样本 t检验”。
分布比较
比如比较两组人群的血糖值整体分布形状是否一样(不仅仅是均值)。
如果你关心的是“整体分布差异” 而不是“均值差异”,就可以用 K-S 检验。
📌 举个医学比喻
想象医院要检查新药对血压的影响。
t检验:只看“平均血压”差不差。
Mann-Whitney U检验:看“中位数/排名”差不差。
S 检验:更挑剔,检查“整个血压分布曲线”是不是长得一样。


7

Wilcoxon 符号秩检验
我们前面说过 Mann-Whitney U检验是t检验的非参数替代(两独立样本),那么 Wilcoxon 符号秩检验就是配对 t 检验的非参数替代。
🧾 Wilcoxon 符号秩检验是什么?
又叫 Wilcoxon signed-rank test。
用来比较两组配对数据 / 成对样本的分布差异(常看中位数)。
不要求正态分布,适合偏态/等级数据。
👉 你可以把它理解成:
配对t检验 → 看两次测量的均值差是否为 0(前后比较,正态数据)。
Wilcoxon 符号秩检验 → 看两次测量的秩次差是否对称分布(前后比较,非正态数据)。
同一批病人,干预前后对比
例:患者服药前后 → 血压下降值 → 数据不正态 → 用 Wilcoxon 符号秩检验。
配对样本比较
例:同一个病人 → 左眼 vs 右眼 → 视力差异。
小样本 / 偏态分布 / 等级数据
例:10 个病人术前术后疼痛评分(VAS),明显偏态。
检验方法对象数据要求医学例子
配对 t 检验配对样本,均值差正态分布病人术前 vs 术后 → 血压均值差
Wilcoxon 符号秩检验配对样本,中位数差非正态/等级数据病人术前 vs 术后 → 疼痛评分
🌰 医学比喻
配对 t检验:比“同一个学生,考试前后分数均值差多少”。
Wilcoxon 符号秩检验:比“同一个学生,考试前后排位差异”,不在乎具体分数,只看名次变化方向和大小。
一句话总结
两独立组 → t 检验(正态) vs Mann-Whitney U(非正态)
两配对组 → 配对 t 检验(正态) vs Wilcoxon 符号秩(非正态)


8

Kruskal-Wallis 检验
Kruskal-Wallis 检验,它就是单因素方差分析(One-way ANOVA)的非参数替代,主要用来处理多组比较。
🧾 Kruskal-Wallis 检验是什么?
又叫秩和检验的多组扩展。
适用于:3组及以上的独立样本,数据不满足正态或为等级数据。
原理:把所有样本合在一起排秩次,看各组的秩和是否有显著差异。
👉 类比关系:
单因素方差分析(ANOVA):正态 + 方差齐 → 比较 3 组及以上均值。
Kruskal-Wallis 检验:非正态 / 等级数据 → 比较 3 组及以上中位数(分布差异)。
📌 医学论文里常见的应用场景
多种治疗方法比较
例:研究高血压患者3种降压药(A/B/C) → 收缩压差异 → 数据非正态 → Kruskal-Wallis 检验。
多组等级数据
例:3 种手术方式 → 术后疼痛评分(VAS)。
小样本、多组实验
例:罕见病患者,分3个治疗组,样本数小且分布偏态。
🌰 医学比喻
ANOVA:比“3个班平均身高”。
Kruskal-Wallis:比“3个班同学整体排名差不多吗”,不看均值,只看整体分布。
一句话总结
两组数据 → t检验(正态) / Mann-Whitney U(非正态)
配对数据 → 配对t(正态) / Wilcoxon(非正态)
三组及以上 → ANOVA(正态) / Kruskal-Wallis(非正态)


9

Fisher 精确检验(Fisher’s Exact Test)
Fisher 精确检验(Fisher’s Exact Test),它是卡方检验的“升级/替代”方法,特别适合样本量很小的情况。
🧾 什么是 Fisher 精确检验?
用来分析两个分类变量之间是否相关,尤其是 2×2 列联表(比如“治疗有效 vs 无效” × “用药 vs 对照”)。
和卡方检验类似,但不同的是:
卡方检验用的是近似方法,需要样本量足够大。
Fisher精确检验直接计算所有可能的排列概率,结果完全精确,适合小样本。
👉 你可以理解成:
卡方检验是“大样本用计算器算个近似值”。
Fisher 精确检验是“小样本时,逐个数清楚所有可能情况”。
📌 医学论文里常见的应用场景
样本量小,分组数据
例:罕见病临床试验,药物组 10 人,对照组 8 人 → 观察治愈/未治愈。
数据太少,卡方检验不可靠 → 选 Fisher 精确检验。
稀有事件
例:分析某罕见不良反应是否和药物使用相关。
2×2 表格(最常用)
例:某新药 vs 对照,疗效(有效 / 无效)。
🆚 和卡方检验的关系
🌰 医学比喻
卡方检验:像是“大城市人口普查”,只要估算就足够准确。
Fisher 精确检验:像是“小村子人口统计”,人数太少,必须一个个点名精确计算。
一句话总结
卡方检验:分类变量关联分析,适合大样本。
Fisher 精确检验:小样本/稀有事件时,更精确可靠。


10

McNemar 检验
1. McNemar 检验到底是干嘛的?
它主要用来比较同一批对象在两种情况下的表现有没有差别
比如你做了一项调查,想看看某种治疗前后,人们的状态有没有显著变化。
关键点:
  • 对象是配对的(比如同一个人治疗前后)。
关注的是结果有没有从一种状态变到另一种(是/否、对/错、喜欢/不喜欢)。
2. 用个生活比喻
想象你有一群人去参加相亲活动。活动前,你问他们:“你愿意再见这个人吗?”(回答是“愿意”或“不愿意”)。
活动后,你再次问他们同样的问题。
  • 如果一个人 前后都说愿意,那就没什么变化。
  • 如果一个人 前后都说不愿意,那也没什么变化。
  • 最有意思的是那些 从“不愿意”变成“愿意” 或者 从“愿意”变成“不愿意” 的人。
McNemar 检验就是专门看这两种“反悔者”人数是不是差很多。如果差很多,就说明活动确实改变了大家的想法;如果差不多,那说明活动对整体态度没啥影响。
3. 再换个直白的比喻
把它想象成“石头剪刀布”的裁判。
  • 不关心谁一直出石头。
  • 不关心谁一直出布。
  • 只关心那些中途改手势的人,看看改的方向是不是有偏向。
统计上,就是看“正向变化的人数”和“反向变化的人数”差得大不大。
4. 一句话总结:
McNemar 检验是用来检验‘前后变化’是否存在显著差异的方法,重点只看那些改变立场的人。
1. 表格呈现
我们关心的是同一批人,在「前」和「后」的两个状态,比如“同意/不同意”、“正确/错误”、“是/否”。表格就是这样:

后=同意
后=不同意
前=同意
A
B
前=不同意
C
D
  • A:前后都同意 → 没改变
  • D:前后都不同意 → 也没改变
  • B:前同意 → 后不同意 → 这是「改口」人群之一
  • C:前不同意 → 后同意 → 这是「改口」人群之二
2. McNemar 检验盯着谁?
只盯着 B 和 C
  • 如果 B ≈ C → 说明改口的人是“扯平”的,不算什么显著变化。
  • 如果 B 和 C 差很大 → 说明变化有方向性(比如很多人都从不同意变成同意),这就是显著差异。
3. 用个直观例子
假设:20 个人用了某个减肥APP,前后问他们“你觉得自己瘦了吗?”
  • A=2,D=0 → 不重要
  • B=8(从瘦了→没瘦)
  • C=10(从没瘦→瘦了)
对比 B=8 和 C=10,差不算大,所以没有明显证据证明这个APP真让人整体变瘦。
4. 一句话小结
McNemar 检验 = 只看「改口人数的两个方向」。
  • B 和 C 相差大 → 有显著效果。
  • B 和 C 接近 → 效果不显著。


11

Cochran’s Q 检验

Cochran’s Q 检验其实可以看成是McNemar检验的升级版

1. McNemar 检验 vs. Cochran's Q 检验
  • McNemar 检验:只能比较两种情况(比如治疗前 vs 治疗后)。
  • Cochran’s Q 检验:可以比较三种及以上情况(比如治疗前,治疗后1个月,治疗后3个月)。
所以,你可以把 McNemar 当成“对比2个时间点的工具”,Cochran’s Q 就是“对比多个时间点或多个处理方式的工具”。
2. 生活比喻
McNemar 的相亲比喻
刚才说了:一次相亲活动前后,统计有多少人改口。
Cochran’s Q 的“多场活动比喻”
假设有一群人连续参加了 三次相亲活动:活动1、活动2、活动3。
每次你都问他们:“你愿意再见这个人吗?”(回答仍然是是/否)。
  • 如果你只比较「活动前 vs 活动后」,用 McNemar 就够了。
  • 但现在有三个活动,你想知道:大家的态度整体有没有变化?是不是活动2或活动3真的不一样?
→ 这时 McNemar 就搞不定了,需要用 Cochran’s Q。
3. 表格脑图(简化版)
假设有 10 个人,三个时间点(或三种处理方式),每人回答“是/否”。数据像这样:
Cochran’s Q 就是看:
  • 各时间点“是”的比例差距大不大?
  • 差大 → 至少有一个时间点结果不一样
  • 如果差不大 → 说明整体上没有证据表明时间点之间存在差异。
4. 一句话小结
  • McNemar:两组配对二分类(前 vs 后)。
  • Cochran’s Q:三组或以上配对二分类(前 vs 中 vs 后)。
  • 同样是“配对”的,只不过 Cochran’s Q 能处理更多情况。




好啦,这十大统计方法就算掌握了一遍。是不是感觉心里有点底了?说白了,统计就是个工具,别把它想得太玄乎。核心在于:明确研究设计 → 看清数据类型 → 对号入座选择方法 → 合理解读结果。


如果你现在正卡在统计这关,或者被数据分析搞得焦头烂额,别自己硬扛。欢迎咨询「医嘉研临床研究1V1指导我们将从选题方向沟通、数据挖掘、数据清洗、数据分析、写作指导、专家评审、语言编辑、投稿指导为您提供全方位指导!




END


 医嘉研专注于提供医学科研服务,不论您是需要发SCI还是国内核心,都可以联系我们!主要方向如下:
Meta分析 



经典meta,网状meta,预测模型meta等等,医护全领域各类meta分析!

临床研究  



Minic数据库挖掘、NHanes数据库、GBD数据库、Charls数据库、临床真实数据(已有数据或制定数据收集方案)

生信分析 



转录组、单细胞测序、蛋白组、基因组、代谢组、孟德尔随机化、网络药理学、分子对接、多组学+机器学习等各类生信分析指导服务!

扫码了解更多内容


医嘉研专注于医学科研1V1指导

原文链接: https://mp.weixin.qq.com/s/-2vGb_bGii7aO-ZRiniq1w
← 上一篇
2025最新版Prospero注册超详细教程!Meta分析必看!
下一篇 →
公共数据库投稿受限?用好这几个方法还能发!

需要科研辅导服务?

专业团队为您提供从选题到发表的全流程支持

客服
在线客服
客服一
客服一二维码
微信号: Ejy-Lucy
扫描二维码或添加微信号即可联系客服
客服二
客服二二维码
微信号: Ejy-Jerry
扫描二维码或添加微信号即可联系客服
扫码关注公众号
医嘉研公众号
「医嘉研」
关注公众号获取最新资讯
了解课题申报、论文发表技巧