GCTA中遗传力的理解
一、GCTA遗传力结果解读(.hsq
文件)
核心关注指标
指标 | 含义 | 解读要点 |
---|---|---|
h2 |
SNP遗传力估计值(h²_SNP ) |
核心结果: • 值范围 [0,1](如 0.25 =25%)• 越高表示当前SNP解释的遗传力越强(常见于身高、生育性状等) |
SE |
h2 的标准误 |
精度评估: • SE越小越可靠(如 0.25±0.03 )• 95%置信区间 ≈ h2 ± 1.96×SE (区间宽=结果不稳定) |
Pval |
检验 h²_SNP > 0 的显著性 |
基础门槛: • P<0.05 :遗传力显著存在• P≥0.05 :可能遗传力低/样本不足(≠无遗传力) |
V(G) |
SNP加性遗传方差 | 遗传贡献: • 标准化后 Vp=1 时,V(G)=h2 • 非标准化时需结合 Vp 计算比例 |
V(e) |
残差方差 | 未解释部分: • 含环境因素+未捕获遗传+误差 • V(e)=1-V(G) (标准化后) |
intercept |
LD Score回归截距(防混杂指标) | 数据质量: • ≈1.0(理想,混杂控制好) • >1.05(警告!可能高估 h2 ,需检查PCA/批次效应) |
n |
样本量 | 可靠性基石: • **<10,000**:低遗传力性状结果可能不稳定 • >50,000:常见性状估计较精确 |
解读流程
- 确认遗传力存在性:
Pval < 0.05
(否则结果无意义)。 - 评估精度:
SE
应小于h2
的50%(如h2=0.2, SE<0.1
)。 - 检查混杂:
intercept
是否接近1.0(偏离1.0需警惕偏差)。 - 结合生物学背景:
• 身高:h2
≈0.4-0.6(低则异常)
• 复杂疾病:h2
≈0.05-0.2(高则可能混杂)。
示例:
h2=0.251 (SE=0.035, P=1e-10)
,intercept=0.999 (SE=0.011)
,n=10,000
结论:SNP遗传力25.1%显著存在,精度可靠,混杂控制良好。
二、方差分量的含义(V(G)
, V(e)
, Vp
)
核心概念
方差分量 | 公式 | 生物学含义 | 关键解读 |
---|---|---|---|
Vp |
- | 总表型方差:观测到的个体间差异总量(如身高差异、疾病风险差异) | 分析前常被标准化为1(简化计算) |
V(G) |
h²_SNP × Vp |
SNP解释的遗传方差: 当前芯片SNP共同捕获的加性遗传效应导致的差异 |
• 非单个SNP效应之和 • 高 V(G) =SNP对表型影响大(育种有利)• 低 V(G) =存在未捕获遗传因素 |
V(e) |
Vp - V(G) |
残差方差:未被SNP解释的部分,包含: 1. 环境因素(饮食、污染等) 2. 未捕获遗传(稀有变异、非加性效应) 3. 测量误差 |
• “缺失遗传力”的藏身处 • 高 V(e) 提示遗传结构复杂或数据缺陷 |
标准化模型的特殊性
当GCTA输出中 Vp=1.0
时:
- **
V(G) = h²_SNP
**(如V(G)=0.25
直接表示25%遗传力) - **
V(e) = 1 - h²_SNP
**(残差占比)
示例(身高分析):
Vp=1.0
,V(G)=0.45
,V(e)=0.55
解读:
- 总差异 = 100%
- 45%差异由当前SNP解释(加性遗传效应)
- 55%差异归因于环境+未捕获遗传因素(如稀有变异或显性效应)
关键关联:遗传力与方差分量的关系
$$ h²_{SNP} = \frac{V(G)}{Vp} \quad \xrightarrow{\text{标准化}} \quad h²_{SNP} = V(G) $$
V(G)
是分子:直接决定遗传力大小V(e)
是分母的补集:反映遗传力未被解释的部分Vp
是标尺:提供变异的总体框架
总结
- 看结果:先关注
h2
、SE
、Pval
,判断遗传力是否可靠存在。 - 验质量:用
intercept
排除混杂,用n
评估样本可靠性。 - 解方差:
V(G)
→ SNP实际贡献的遗传变异V(e)
→ 环境+遗漏遗传的“黑箱”Vp
→ 差异的总量(常=1)
- 联实际:结合性状的已知遗传背景(如身高应高遗传力)判断结果合理性。
掌握这两部分,即可准确解读GCTA遗传力结果及其背后的遗传学含义。
GCTA中遗传力的理解
https://oldstory.cn/2025/08/13/gcta_zhong_yi_chuan_li_de_li_jie/