GWAS模型对比
- 在 GWAS(全基因组关联分析)中,LM、GLM、LMM、MLM 都是用来分析 “基因位点” 和 “性状”(比如身高、是否患病)之间关系的统计模型。它们的核心目标是找到 “某个基因位点是否真的影响性状”,但适用场景和解决的问题不同。
先打个比方:用 “考试成绩” 理解模型
假设我们想研究 “每天刷题时间”(类似 “基因位点”,取值 0/1/2 小时)是否真的影响 “数学成绩”(类似 “性状”)。不同模型的区别,就像分析时是否考虑其他干扰因素(比如班级差异、同桌影响等)。
1. LM(线性模型,Linear Model)
核心特点:最简单的模型,只看 “基因位点” 和 “性状” 的直接线性关系。
通俗理解:直接算 “刷题时间”(0/1/2)和 “成绩”(80/85/90)是否呈直线关系(比如刷题时间每多 1 小时,成绩平均高 5 分)。
适用场景:仅适合连续型性状(如身高、体重这种可以用数字连续表示的)。
缺点:没考虑干扰因素(比如 “班级差异”—— 重点班学生即使不刷题,成绩也可能比普通班高),容易把 “班级差异” 误当成 “刷题的效果”(虚假关联)。
2. GLM(广义线性模型,Generalized Linear Model)
核心特点:在 LM 基础上扩展,能处理非连续型性状(比如 “患病 / 不患病”“及格 / 不及格” 这种分类性状)。
通俗理解:如果性状是 “是否及格”(0 = 不及格,1 = 及格),LM 无法直接分析(因为及格与否不是连续的)。GLM 会用一个 “转换函数”(比如 logistic 函数),把 “刷题时间” 和 “及格概率” 联系起来(比如刷题 1 小时,及格概率从 30% 升到 60%)。
适用场景:连续型、二分类(患病 / 不患病)、多分类性状都能处理。
缺点:和 LM 一样,没解决 “干扰因素”(如班级差异)的问题,仍可能出现虚假关联。
3. LMM(线性混合模型,Linear Mixed Model)
核心特点:在 LM 基础上加入 “随机效应”,专门用来控制干扰因素(如群体结构、亲缘关系)。
通俗理解:分析 “刷题时间” 和 “成绩” 时,不仅看两者的直接关系(固定效应),还加入 “班级差异” 作为 “随机效应”(比如重点班和普通班的平均成绩差异是随机波动的)。这样就能排除 “班级好导致成绩高” 的干扰,更准确判断 “刷题是否真有效”。
适用场景:仅适合连续型性状,但能有效减少虚假关联(因为控制了群体结构,比如不同人群的遗传差异;或亲缘关系,比如一家人的基因更像)。
优点:比 LM 更可靠,是处理复杂群体(如自然人群)的常用模型。
4. MLM(混合线性模型,Mixed Linear Model)
核心特点:本质上和 LMM 类似,都是 “固定效应 + 随机效应” 的混合模型,但更强调同时控制群体结构(如不同族群)和亲属关系(如血缘远近)。
通俗理解:在 LMM 的基础上,不仅考虑 “班级差异”(群体结构),还加入 “同桌影响”(亲属关系,比如同桌经常互相讲题,成绩更相似)作为随机效应。通过同时控制这两种干扰,进一步减少虚假关联。
适用场景:主要处理连续型性状,在遗传背景复杂的群体(如包含多个族群、有亲属关系的人群)中表现更好。
和 LMM 的小区别:LMM 更泛泛地指 “含随机效应的线性模型”,而 MLM 在 GWAS 中常特指 “同时控制群体结构和亲属关系” 的混合模型(可以理解为 “升级版 LMM”)。
总结对比表
模型 | 全称 | 适用性状类型 | 核心优势 | 主要缺点 |
---|---|---|---|---|
LM | 线性模型 | 连续型(如身高) | 简单直接 | 不控制干扰,易有虚假关联 |
GLM | 广义线性模型 | 连续型、二分类(患病 / 不患病)、多分类 | 能处理非连续性状 | 不控制干扰,易有虚假关联 |
LMM | 线性混合模型 | 连续型 | 加入随机效应,控制部分干扰(如亲缘关系) | 仅处理连续型性状 |
MLM | 混合线性模型 | 连续型 | 同时控制群体结构和亲属关系,减少虚假关联 | 计算更复杂,仍主要处理连续型性状 |
简单说:LM/GLM 是 “基础款”,适合简单场景但易出错;LMM/MLM 是 “进阶款”,通过控制干扰因素更可靠,其中 MLM 在复杂群体中表现更好。