GWAS流程
QC质控
格式转化
- 初始文件为二进制类型文件bed、bim和fam,需要使用plink转化为ped、map格式
1 |
|
- 查看SNP个数和样本个数
1 |
|
缺失质控
查看是否有缺失
1 |
|
- 单个SNP缺失的个体数在plink.lmiss.中
- 个体缺失位点的统计在plink.imiss中
个体缺失质控
- 过滤在总样本SNP中缺失率大于2%的SNP(SNP在部分样品中缺少分型)
1 |
|
- 使用下面的命令进行验证,检验是否过滤
1 |
|
SNP缺失质控
- 过滤样本中总SNP缺失率大于2%的个体(样本质量不合格)
1 |
|
- 使用下面的命令进行验证,检验是否过滤
1 |
|
性别质控
主要是在人类研究中使用
- 检查性别冲突
1 |
|
- 生成plink.sexcheck文件
- 查看有问题数据的信息
1 |
|
- 将相关错误的ID提取出来(家系ID,个体ID)
1 |
|
- 使用remove去掉个体
1 |
|
MAF质控
- MAF < 0.02时,代表SNP代表的基因型分型比较极端(如b极少,B极多),我的理解是变异的基因所在的群体在自然选择下不占优势,或者虽是优良突变但是该突变的群体繁衍次数较少等,此时MAF呈假阳性,该SNP对性状的解释基本没贡献,需要过滤掉
- 以人的染色体为例,选取1~22号常染色体,提取第二列的ID
1 |
|
- 查看常染色体上的样品SNP个数
1 |
|
- 提取常染色体上的位点
1 |
|
- 共有165个基因型,共有1398544个SNP
- 去掉MAF小于0.05的位点
1 |
|
- 325318个位点被删掉了,剩余1073226个位点
哈温质控
- 计算所有位点的HWE的P值
1 |
|
- 设定过滤标准1e-4 (一般为1e-4或1e-6, 若样本量很小,则设为1e-4或更低,避免过度过滤)
1 |
|
杂合度质控(大规模饲养的缢蛏是否需要?)
排除近亲繁殖、样品污染、技术误差等因素
- 基因型个体的杂合度过高或者过低,都不正常,我们需要根据杂合度进行过滤。偏差可能表明样品受到污染,近亲繁殖。我们建议删除样品杂合率平均值中偏离±3 SD的个体。
- 计算杂合度
1 |
|
- 查看在3倍标准差以外的个体
1 |
|
1 |
|
- 去掉这些个体:先对数据进行清洗,去掉引号,然后提取家系和个体ID
1 |
|
- 使用remove去掉这两个个体
1 |
|
亲缘关系质控
这里讲亲子关系的个体移除,不是必须要的,比如我们分析的群体里面有亲
子关系的个体,想要进行分析,不需要做这一步的筛选。
1 |
|
- 52个被移除
质控结果
- 查看经上面质控后的结果
1 |
|
1 |
|
PCA分析
- 使用GCTA对PCA分析
1 |
|
- 协变量文件和PCA文件合并
1 |
|
- 可以查看列数,检验是否合并了
1 |
|
GEMMA分析
- 将表型数据单独提取一列
1 |
|
- 生成G矩阵
1 |
|
- 使用MLM模型进行分析
1 |
|
1 |
|
GWAS流程
https://oldstory.cn/2025/08/13/gwas_liu_cheng/