Gemma使用
GEMMA 是一款专门用于 GWAS 的高效软件,尤其擅长处理线性混合模型(LMM)。以下详细介绍如何在 GEMMA 中使用 LM、LMM、GLM 和 MLM 模型:
1. 数据准备(GEMMA 格式)
1.1 基因型数据
- 将 PLINK 格式(.bed/.bim/.fam)转换为 GEMMA 支持的二进制格式:
1 |
|
-gk 1:计算基因组亲缘关系矩阵(K/G矩阵)。
结果保存在output/relatedness_matrix.cXX.txt。
1.2 表型数据
创建表型文件(如pheno.txt),每行对应一个样本,列可以是多个表型(用空格分隔)。
表型文件顺序必须与.fam文件一致。
2. 在 GEMMA 中实现不同模型
2.1 LM(线性模型)
1 |
|
-lm 1:执行线性模型。
-n 1:分析第 1 列表型。
2.2 GLM(广义线性模型,二分类)
1 |
|
- -glm 2:执行逻辑回归(二分类表型)。
2.3 LMM(线性混合模型)
1 |
|
-lmm 4:使用高效的 LMM 算法(LMM-LOGISTIC)。
-k:指定亲缘关系矩阵文件。
2.4 MLM(混合线性模型,含固定效应)
1 |
|
- -c:指定协变量文件(如性别、年龄、PCA 成分)。
3. 协变量与群体结构校正
3.1 主成分分析(PCA)
1 |
|
- -pca 10:计算前 10 个主成分,结果保存在output/pca_results.eigenvec。
3.2 将 PCA 作为协变量
将 PCA 结果添加到协变量文件covariates.txt,并在分析中使用:
1 |
|
4. 结果解读
GEMMA 输出文件(如output/lmm_results.assoc.txt)包含:
rs:SNP ID
chr:染色体
ps:物理位置
p_wald:Wald 检验 p 值
p_lrt:似然比检验 p 值
p_score:Score 检验 p 值
5. 可视化结果
使用 R 绘制曼哈顿图和 QQ 图:
1 |
|
6. 高级用法:多表型分析
同时分析多个表型:
1 |
|
- -n 1 2 3:同时分析第 1、2、3 列表型。
GEMMA 模型选择建议
模型 | GEMMA 参数 | 适用场景 |
---|---|---|
LM | -lm 1 | 连续型表型,不考虑群体结构 |
GLM | -glm 2 | 二分类表型,不考虑群体结构 |
LMM | -lmm 4 | 连续型表型,校正群体结构 |
MLM | -lmm 4 -c … | 连续型表型,含固定效应(如 PCA) |
注意事项
内存优化:对于大样本量,使用-w和-s参数分块计算 GRM。
模型比较:通过 AIC/BIC 比较不同模型的拟合优度。
多重检验校正:GEMMA 不自动校正,需后续处理(如 Bonferroni 或 FDR)。
通过上述命令,你可以在 GEMMA 中灵活实现四种模型,并高效完成 GWAS 分析。
Gemma使用
https://oldstory.cn/2025/08/13/gemma_shi_yong/