医学论文十大统计检验方法总结(大白话版)

正确运用统计检验是确保医学论文科学性的关键。为帮助正在进行医学科研的朋友快速掌握核心工具，本文总结了#最常用的十大统计方法，并以通俗易懂的方式阐释其核心思想与应用场景，旨在为您的研究提供一份实用的快速参考指南。立即详读全文吧！

十大统计检验方法

F检验

『F检验是什么？』

F检验就是一种比大小的统计方法，它主要用来比较两个“方差”是不是有明显差别，或者说多个组别之间的差异是不是大到不能只用“运气”解释。

●换句话说：

如果我们只是看平均值差不多，那可能不准；

F检验会从“波动大小”来判断：各组之间的差异，是不是真的比组内的随机波动大得多。

●打个比方

想象一下你在学校里，老师想知道三个不同班级的数学水平差不差：

班级内部：同一个班同学之间的差距（有的高，有的低），这个差距就是组内方差。

班级之间：班与班之间的平均成绩差距，就是组间方差。

? F检验干的事情就是：

●把班与班之间的差距（组间方差）

●和班里同学之间的差距（组内方差）

●拿来做一个比例（组间方差 ÷ 组内方差 = F值）。

如果这个比例（F值）很大：说明班与班之间的差距，远大于班里学生自己之间的差距，那就能说“不同班级确实水平不同”。

如果这个比例不大：说明班级之间的差异也就跟班级内部差不多，没法证明哪个班真的更好，可能就是随机波动。

再举个生活中的例子

假设你和朋友们要评比“谁做的蛋糕最好吃”：

蛋糕师傅之间差异（组间方差）：不同人做的蛋糕平均味道差别大不大？

同一个师傅每次做的差异（组内方差）：同一个人多次做出来的波动大不大？

? 如果不同人做的差异远大于同一个人自己做的不稳定性，那就说明“不同人手艺确实有差别”（F检验显著）。

? 如果不同人做的差异跟他们自己随便发挥的波动差不多，那就说明其实大家水平差不多（F检验不显著）。

一句话总结

F检验就是在问：

“组与组之间的差异，究竟是真实的差别，还是只是随机波动？”

我给你整理一下医学论文里常见需要用到 F 检验的场景，用大白话解释：

一、最典型：方差分析（ANOVA）

●场景：你想比较三组及以上人群的平均数差异。

●例子：

比较三种降压药对血压的效果 → 组1（药A）、组2（药B）、组3（安慰剂）。

比较不同BMI分组（正常、超重、肥胖）患者的平均血糖水平。

●为什么用F检验？

F检验是ANOVA的核心：先看“总体差异”是不是显著，再决定要不要做两两比较。

二、回归模型整体显著性

●场景：在做多元线性回归时，你不仅关心某个自变量是不是显著，还要问：

? 整个模型是不是比“啥都不放”的空模型要好？

用年龄、性别、BMI预测血压，F检验可以检验“这些变量加在一起，能不能显著解释血压的差异”。

三、比较多个方差（方差齐性检验）

●场景：在做 t 检验或 ANOVA 前，你需要先确认不同组的方差是不是差不多。

比较糖尿病组 vs 非糖尿病组的血脂水平，先要确认两组的波动（方差）是不是相似。

●为什么？

t检验和ANOVA对“方差齐性”有要求，F检验就是常用的检测工具。

四、临床试验设计/药物研究

●场景：不同剂量的药物效果比较。

临床试验中，比较低剂量、中剂量、高剂量三组患者的疗效指标（比如血压下降幅度），先用 F 检验看看组间有没有总体差异。

五、方差成分分析（例如遗传学/多中心研究）

●场景：研究中有不同的“来源”或“中心”，要看这些来源带来的差异是否显著。

多中心临床试验中，用 F 检验看不同医院之间患者差异大不大。

遗传流行病学里，用 F 检验比较基因型之间的表型差异。

✅ 一句话总结：

在医学论文里，只要涉及“比较多个组的均值差异”或者“检验模型整体显著性”，大概率会用到 F 检验。

t检验

? 一、t检验是什么？

t检验主要用来比较两个组的均值差异是否显著。

? 可以理解为：t检验是“小范围对比”，而F检验是“大范围总检”。

? 医学论文里常见的t检验场景：

两组独立样本比较（独立样本t检验）

场景：比较两组不同人群的平均值。

糖尿病患者 vs 非糖尿病患者 → 比较平均血糖水平。

男性 vs 女性 → 比较平均血压。

2. 配对样本比较（配对t检验）

场景：同一组人在干预前后，或匹配样本的差异。

同一批患者 → 治疗前后的血压差异。

一对一匹配的病例-对照 → 比较某项指标。

3. 单样本t检验

场景：拿样本均值跟已知总体均值比较。

研究某地儿童平均身高，是否显著高于全国标准身高。

? 二、t检验 vs F检验

? 医学比喻

t检验：像医生比较两个病房的平均血压，看是不是不同。

F检验：像医生比较整个医院多个病房的平均血压，先看总体差异存不存在。

●一句话总结

如果只有两组 → 用 t检验。

如果有三组及以上 → 先用 F检验（ANOVA），再做事后t检验/校正。

卡方检验（Chi-square test）

? 卡方检验是什么？

? 卡方检验主要用来比较组间比例/构成差异。

它不看均值，而是看人数/比例分布是否显著不同。

比如：治疗组 vs 对照组，治愈/未治愈的人数分布是否有显著差别。

? 医学论文里常见的卡方检验场景

两组比例比较（2×2列联表）

场景：比较两个处理的结局比例。

治疗组 vs 对照组 → 治愈率（治愈 / 未治愈）。

男 vs 女 → 高血压患病率（有 / 无）。

2. 多组比例比较（RxC列联表）

场景：比较三组及以上人群的比例差异。

不同BMI分组（正常/超重/肥胖） → 高血压发生率是否不同。

不同血型（A/B/AB/O） → 某种疾病的分布差异。

3. 适合度检验（Goodness-of-fit）

场景：检验样本分布是否符合理论分布。

新生儿的男女比例是否符合 1:1 理论值。

? 和 t/F 检验的区别

? 医学比喻

t检验：比“身高平均数”

F检验：比“多个班级的身高平均数”

卡方检验：比“男生女生比例”

●一句话总结

要比较均值 → t/F 检验

要比较比例/人数分布 → 卡方检验

方差分析（ANOVA）

『什么是方差分析（ANOVA）？』

●全称：Analysis of Variance。

●核心逻辑：比较三组及以上均值差异。

●原理：把总变异拆成两部分：

●组间变异（不同组均值差异有多大）

●组内变异（同一组内部的个体差异有多大）

●然后做 F检验：

如果组间差异显著大于组内差异 → 认为不同组均值不一样。

? 医学论文常见应用场景

●多组治疗方案比较

例：高血压患者分为 3 组（药物A / 药物B / 安慰剂），比较治疗后平均收缩压 → 用单因素方差分析（One-way ANOVA）。

●多时间点重复测量

例：同一批病人术前、术后1周、术后1月的平均血糖比较 → 重复测量 ANOVA。

●多个因素同时影响

例：研究药物类型（A/B/C） + 性别（男/女）对血压的影响 → 双因素方差分析（Two-way ANOVA）。

? 和其他检验的关系

? 可以看出：

t检验 → 只能比两组。

ANOVA → 能比多组，但前提是正态 + 方差齐。

Kruskal-Wallis → 多组，非正态时用。

t检验：比“两家餐厅的平均评分”。

ANOVA：比“三家餐厅的平均评分”，看看是否至少有一家不一样。

Kruskal-Wallis：比“三家餐厅顾客的排名差异”，不看平均分，看整体分布。

●一句话总结

ANOVA = t检验的多组扩展版

是“多组均值比较”的首选，但必须保证正态分布 + 方差齐性。

如果条件不满足，就要用 Kruskal-Wallis 代替。

Mann-Whitney U 检验

前面我们聊了t检验 / F检验 / 卡方检验，它们大多要求数据满足一定的假设（比如正态分布、方差齐性）。那如果数据不满足正态分布或者样本量太小怎么办？

? 就要用到非参数检验，其中最常见的就是 Mann-Whitney U 检验。

? Mann-Whitney U检验是什么？

●又叫秩和检验，是t检验的非参数替代。

●用来比较两个独立样本的分布差异，尤其是中位数。

●它不要求数据服从正态分布，也不太怕极端值（outliers）。

? 医学论文里常见的应用场景

●两组样本，数据偏态分布

例子：ICU患者的住院天数（往往右偏，不符合正态）。

检验：治疗组 vs 对照组 → 住院天数差异 → Mann-Whitney U 检验。

●两组样本，测量结果为等级/秩次数据

例子：疼痛评分（VAS评分 0–10，本质是等级数据）。

检验：手术方式 A vs B → 疼痛评分差异 → Mann-Whitney U 检验。

●样本量小，不满足t检验前提

例子：罕见病研究，两组患者样本量 < 30，且分布明显偏态。

? 和 t检验的关系

? 医学比喻

t检验：比“两个班的平均身高”。

Mann-Whitney U检验：比“两个班同学身高谁更高的次数”，相当于把大家排队，看哪个班的人整体更高。

●一句话总结

数据正态 → t检验

数据非正态/等级数据 → Mann-Whitney U 检验

Kolmogorov-Smirnov 检验（K-S 检验）

Kolmogorov-Smirnov 检验（K-S 检验）在医学论文里主要是用来检验分布的，而不是直接比较均值。

? 大白话解释

你可以把它想象成：我有一堆数据（比如某药物组病人的血压值），我怀疑它是不是“符合正态分布”。

K-S 检验就像一把“模板尺”，把数据的累计分布和理想的正态分布模板一比，看差距大不大。

如果差距小 → 可以认为近似正态分布。

如果差距大 → 说明不符合正态分布。

? 在医学论文里的常见用途

●正态性检验

在决定用 t检验还是 Mann-Whitney U检验前，常常要先跑 K-S 检验。

例如：“数据经 K-S 检验符合正态分布，故采用独立样本 t检验”。

●分布比较

比如比较两组人群的血糖值整体分布形状是否一样（不仅仅是均值）。

如果你关心的是“整体分布差异” 而不是“均值差异”，就可以用 K-S 检验。

? 举个医学比喻

想象医院要检查新药对血压的影响。

t检验：只看“平均血压”差不差。

Mann-Whitney U检验：看“中位数/排名”差不差。

S 检验：更挑剔，检查“整个血压分布曲线”是不是长得一样。

Wilcoxon 符号秩检验

我们前面说过 Mann-Whitney U检验是t检验的非参数替代（两独立样本），那么 Wilcoxon 符号秩检验就是配对 t 检验的非参数替代。

? Wilcoxon 符号秩检验是什么？

又叫 Wilcoxon signed-rank test。

用来比较两组配对数据 / 成对样本的分布差异（常看中位数）。

不要求正态分布，适合偏态/等级数据。

? 你可以把它理解成：

●配对t检验 → 看两次测量的均值差是否为 0（前后比较，正态数据）。

●Wilcoxon 符号秩检验 → 看两次测量的秩次差是否对称分布（前后比较，非正态数据）。

●同一批病人，干预前后对比

例：患者服药前后 → 血压下降值 → 数据不正态 → 用 Wilcoxon 符号秩检验。

●配对样本比较

例：同一个病人 → 左眼 vs 右眼 → 视力差异。

●小样本 / 偏态分布 / 等级数据

例：10 个病人术前术后疼痛评分（VAS），明显偏态。

●检验方法对象数据要求医学例子

配对 t 检验配对样本，均值差正态分布病人术前 vs 术后 → 血压均值差

Wilcoxon 符号秩检验配对样本，中位数差非正态/等级数据病人术前 vs 术后 → 疼痛评分

? 医学比喻

配对 t检验：比“同一个学生，考试前后分数均值差多少”。

Wilcoxon 符号秩检验：比“同一个学生，考试前后排位差异”，不在乎具体分数，只看名次变化方向和大小。

●一句话总结

两独立组 → t 检验（正态） vs Mann-Whitney U（非正态）

两配对组 → 配对 t 检验（正态） vs Wilcoxon 符号秩（非正态）

Kruskal-Wallis 检验

Kruskal-Wallis 检验，它就是单因素方差分析（One-way ANOVA）的非参数替代，主要用来处理多组比较。

? Kruskal-Wallis 检验是什么？

●又叫秩和检验的多组扩展。

●适用于：3组及以上的独立样本，数据不满足正态或为等级数据。

●原理：把所有样本合在一起排秩次，看各组的秩和是否有显著差异。

? 类比关系：

单因素方差分析（ANOVA）：正态 + 方差齐 → 比较 3 组及以上均值。

Kruskal-Wallis 检验：非正态 / 等级数据 → 比较 3 组及以上中位数（分布差异）。

? 医学论文里常见的应用场景

●多种治疗方法比较

例：研究高血压患者3种降压药（A/B/C） → 收缩压差异 → 数据非正态 → Kruskal-Wallis 检验。

●多组等级数据

例：3 种手术方式 → 术后疼痛评分（VAS）。

●小样本、多组实验

例：罕见病患者，分3个治疗组，样本数小且分布偏态。

? 医学比喻

ANOVA：比“3个班平均身高”。

Kruskal-Wallis：比“3个班同学整体排名差不多吗”，不看均值，只看整体分布。

●一句话总结

两组数据 → t检验（正态） / Mann-Whitney U（非正态）

配对数据 → 配对t（正态） / Wilcoxon（非正态）

三组及以上 → ANOVA（正态） / Kruskal-Wallis（非正态）

Fisher 精确检验（Fisher’s Exact Test）

Fisher 精确检验（Fisher’s Exact Test），它是卡方检验的“升级/替代”方法，特别适合样本量很小的情况。

? 什么是 Fisher 精确检验？

用来分析两个分类变量之间是否相关，尤其是 2×2 列联表（比如“治疗有效 vs 无效” × “用药 vs 对照”）。

和卡方检验类似，但不同的是：

卡方检验用的是近似方法，需要样本量足够大。

Fisher精确检验直接计算所有可能的排列概率，结果完全精确，适合小样本。

? 你可以理解成：

卡方检验是“大样本用计算器算个近似值”。

Fisher 精确检验是“小样本时，逐个数清楚所有可能情况”。

? 医学论文里常见的应用场景

●样本量小，分组数据

例：罕见病临床试验，药物组 10 人，对照组 8 人 → 观察治愈/未治愈。

数据太少，卡方检验不可靠 → 选 Fisher 精确检验。

●稀有事件

例：分析某罕见不良反应是否和药物使用相关。

2×2 表格（最常用）

例：某新药 vs 对照，疗效（有效 / 无效）。

? 和卡方检验的关系

? 医学比喻

卡方检验：像是“大城市人口普查”，只要估算就足够准确。

Fisher 精确检验：像是“小村子人口统计”，人数太少，必须一个个点名精确计算。

●一句话总结

卡方检验：分类变量关联分析，适合大样本。

Fisher 精确检验：小样本/稀有事件时，更精确可靠。

McNemar 检验

1. McNemar 检验到底是干嘛的？

它主要用来比较同一批对象在两种情况下的表现有没有差别。

比如你做了一项调查，想看看某种治疗前后，人们的状态有没有显著变化。

关键点：

对象是配对的（比如同一个人治疗前后）。

关注的是结果有没有从一种状态变到另一种（是/否、对/错、喜欢/不喜欢）。

2. 用个生活比喻

想象你有一群人去参加相亲活动。活动前，你问他们：“你愿意再见这个人吗？”（回答是“愿意”或“不愿意”）。

活动后，你再次问他们同样的问题。

如果一个人前后都说愿意，那就没什么变化。

如果一个人前后都说不愿意，那也没什么变化。

最有意思的是那些从“不愿意”变成“愿意” 或者从“愿意”变成“不愿意” 的人。

McNemar 检验就是专门看这两种“反悔者”人数是不是差很多。如果差很多，就说明活动确实改变了大家的想法；如果差不多，那说明活动对整体态度没啥影响。

3. 再换个直白的比喻

把它想象成“石头剪刀布”的裁判。

不关心谁一直出石头。

不关心谁一直出布。

只关心那些中途改手势的人，看看改的方向是不是有偏向。

统计上，就是看“正向变化的人数”和“反向变化的人数”差得大不大。

4. 一句话总结：

McNemar 检验是用来检验‘前后变化’是否存在显著差异的方法，重点只看那些改变立场的人。

1. 表格呈现

我们关心的是同一批人，在「前」和「后」的两个状态，比如“同意/不同意”、“正确/错误”、“是/否”。表格就是这样：

	后=同意	后=不同意
前=同意	A	B
前=不同意	C	D

A：前后都同意 → 没改变

D：前后都不同意 → 也没改变

B：前同意 → 后不同意 → 这是「改口」人群之一

C：前不同意 → 后同意 → 这是「改口」人群之二

2. McNemar 检验盯着谁？

只盯着 B 和 C：

如果 B ≈ C → 说明改口的人是“扯平”的，不算什么显著变化。

如果 B 和 C 差很大 → 说明变化有方向性（比如很多人都从不同意变成同意），这就是显著差异。

3. 用个直观例子

假设：20 个人用了某个减肥APP，前后问他们“你觉得自己瘦了吗？”

A=2，D=0 → 不重要

B=8（从瘦了→没瘦）

C=10（从没瘦→瘦了）

对比 B=8 和 C=10，差不算大，所以没有明显证据证明这个APP真让人整体变瘦。

4. 一句话小结

McNemar 检验 = 只看「改口人数的两个方向」。

B 和 C 相差大 → 有显著效果。

B 和 C 接近 → 效果不显著。

Cochran’s Q 检验

Cochran’s Q 检验其实可以看成是McNemar检验的“升级版”。

1. McNemar 检验 vs. Cochran's Q 检验

McNemar 检验：只能比较两种情况（比如治疗前 vs 治疗后）。

Cochran’s Q 检验：可以比较三种及以上情况（比如治疗前，治疗后1个月，治疗后3个月）。

所以，你可以把 McNemar 当成“对比2个时间点的工具”，Cochran’s Q 就是“对比多个时间点或多个处理方式的工具”。

2. 生活比喻

McNemar 的相亲比喻

刚才说了：一次相亲活动前后，统计有多少人改口。

Cochran’s Q 的“多场活动比喻”

假设有一群人连续参加了三次相亲活动：活动1、活动2、活动3。

每次你都问他们：“你愿意再见这个人吗？”（回答仍然是是/否）。

如果你只比较「活动前 vs 活动后」，用 McNemar 就够了。

但现在有三个活动，你想知道：大家的态度整体有没有变化？是不是活动2或活动3真的不一样？

→ 这时 McNemar 就搞不定了，需要用 Cochran’s Q。

3. 表格脑图（简化版）

假设有 10 个人，三个时间点（或三种处理方式），每人回答“是/否”。数据像这样：

Cochran’s Q 就是看：

各时间点“是”的比例差距大不大？

差大 → 至少有一个时间点结果不一样。

如果差不大 → 说明整体上没有证据表明时间点之间存在差异。

4. 一句话小结

McNemar：两组配对二分类（前 vs 后）。

Cochran’s Q：三组或以上配对二分类（前 vs 中 vs 后）。

同样是“配对”的，只不过 Cochran’s Q 能处理更多情况。

好啦，这十大统计方法就算掌握了一遍。是不是感觉心里有点底了？说白了，统计就是个工具，别把它想得太玄乎。核心在于：明确研究设计 → 看清数据类型 → 对号入座选择方法 → 合理解读结果。

如果你现在正卡在统计这关，或者被数据分析搞得焦头烂额，别自己硬扛。欢迎咨询「医嘉研临床研究1V1指导」！我们将从选题方向沟通、数据挖掘、数据清洗、数据分析、写作指导、专家评审、语言编辑、投稿指导为您提供全方位指导！

END

医嘉研专注于提供医学科研服务，不论您是需要发SCI还是国内核心，都可以联系我们！主要方向如下：

Meta分析

经典meta，网状meta，预测模型meta等等，医护全领域各类meta分析！

临床研究

Minic数据库挖掘、NHanes数据库、GBD数据库、Charls数据库、临床真实数据（已有数据或制定数据收集方案）

生信分析

转录组、单细胞测序、蛋白组、基因组、代谢组、孟德尔随机化、网络药理学、分子对接、多组学+机器学习等各类生信分析指导服务！

扫码了解更多内容

医嘉研专注于医学科研1V1指导

统计方法全了！医学论文中常见的十大统计检验方法总结（大白话版）

需要科研辅导服务？

统计方法全了！医学论文中常见的十大统计检验方法总结（大白话版）

需要科研辅导服务？

用户登录