基因组注释计划蓝图
gene-anno 工程蓝图
适用场景:任意物种的基因组结构 + 功能注释工程,用于从基因组序列到完整发布集的系统化加工。
目录
- 工程定位与总体流程
- 顶层目录结构
- 配置文件结构说明(config.yaml 占位)
- 必备软件与数据库
- 每步脚本说明(01–12 + 可选模块)
- 5.1 公共工具模块
- 5.2–5.13:01–12 主线
- 5.14:03b 长读转录本证据模块(可选)
- 5.15:10b ncRNA 注释模块(可选)
- 5.16:12b 交叉流水线与近缘物种对照 QC(高级模块)
- 功能注释整合机制(本地 vs 线上)
- 日志规范(文件 + 终端流式输出)
- QC 与交付物
- 方法学模板(占位说明)
- 施工注意事项(硬件与数据组织)
1. 工程定位与总体流程
1.1 项目定位
- 项目名称:gene-anno
- 核心目标:为任意一个物种,提供一套可复用、工程化的基因组注释流程,包括:
- 重复序列注释
- RNA-seq 支持的基因结构预测
- 可选:长读(Iso-Seq / Nanopore)转录本证据整合
- 基因集质量控制与过滤(含 TE 相关过滤、证据打分、AED 分布、白名单回捞与假基因分流)
- 同源、结构域、KEGG、eggNOG 等多源功能注释
- 可选:ncRNA 注释(tRNA、rRNA、snRNA、miRNA 等)
- 标准发布集构建与 QC 汇总
- 可选:与其它注释流水线结果、近缘物种注释结果进行对照 QC
这一套流程强调配置驱动、目录清晰、表头契约,在不同物种、不同项目中可以重复使用。
1.2 在整体科研工程中的角色
对同一物种:
gene-anno
负责产生统一的注释发布集:
genome.fagenes.gff3cds.fapep.fatx2gene.tsvfunctional.tsvTS.ncrna.gff3(如启用 ncRNA 模块)- 各类 QC 摘要与比较 QC 报告
phylo
- 从 gene-anno 的
genome.fa + genes.gff3中,提取规范化 CDS/pep,用于跨物种正交基因构建与系统发育分析。
- 从 gene-anno 的
aphylo
- 利用 gene-anno 产生的蛋白和功能注释,进行 PSG、CAFE、MCMCTree 等进化分析。
rna-seq
- 使用 gene-anno 的
genome.fa + genes.gff3 + tx2gene.tsv + functional.tsv
进行表达定量与富集分析。
- 使用 gene-anno 的
核心思想:
对每个物种,只有一套权威注释来自 gene-anno,所有下游工程都以此为统一入口,避免多版本混乱。
1.3 设计原则
- 可复用
- 换物种时,只需替换
config/config.yaml中的物种信息与data/下的原始数据。 - 脚本逻辑保持稳定,由配置和表头驱动行为。
- 换物种时,只需替换
- 契约清晰
- 每一步的输入输出路径、表头格式,在蓝图中写明。
- 脚本之间只通过这些“契约文件”通信。
- 可追溯
- 每一步都有日志文件,并在终端输出关键信息。
- 关键统计统一写入 TSV,方便查阅与复现。
- 可扩展
- 在不破坏 01–12 主线的前提下,引入 03b、10b、12b 等模块;
- 模块通过配置开关控制,按需启用。
- 多层 QC
- 结构层:基因长度、外显子数、TE 重叠等;
- 证据层:BUSCO、同源、InterPro、RNA-seq 与长读支持等,形成证据打分(E-score);
- AED(Annotation Edit Distance)分布:量化基因模型与转录证据吻合度;
- 高级策略:白名单回捞(SwissProt/InterPro 强支持)、假基因分流、比较 QC。
1.4 12 步流程总览 + 可选模块
主线步骤顺序:
1 | |
可以理解为四层结构:
- 基础层(01–04 + 03b)
- 基因组 QC 与重复注释;
- RNA-seq 质控与比对;
- 如有长读,整合转录本证据,生成 hints。
- 基因集层(05–06)
- 利用 masked genome + RNA-seq + 长读 + 蛋白证据进行结构预测;
- 对基因集进行统计、TE 过滤、证据打分、AED 分析;
- 引入白名单回捞机制与假基因分流,生成高可信基因列表。
- 功能与发布层(07–12 + 10b)
- 多源功能注释(同源、InterPro、KEGG、eggNOG);
- 可选 ncRNA 注释;
- 整合功能表,构建发布集;
- 可选新基因候选筛选。
- 高级 QC 层(12b)
- 与其它流水线结果、近缘物种注释对照;
- 汇总比较 QC 指标,辅助判断注释整体合理性。
1.5 标准发布集内容
以物种代码 TS 为例,完成 gene-anno 后至少产出:
- 结构与序列:
TS.genome.faTS.genes.gff3TS.cds.faTS.pep.faTS.tx2gene.tsv
- 功能与 QC:
TS.functional.tsvTS.busco_proteome_summary.txtTS.qc_summary.tsvREADME.annotation.txt
- 可选扩展:
TS.ncrna.gff3:ncRNA 注释(10b)results/12b_comparative_qc/:交叉流水线与近缘物种对照 QC 报告(12b)results/06_gene_qc/aed_distribution.tsv:AED 分布表(建议)results/06_gene_qc/gene.confidence.tsv:证据打分与标签表
这些文件作为 phylo / aphylo / rna-seq / NCBI 提交 / 论文附录的统一基础。
2. 顶层目录结构
2.1 目录树与各部分职责
推荐顶层结构:
1 | |
config/:全局配置。scripts/:步骤脚本与公共模块。data/:基因组、RNA-seq、长读、外部注释与线上功能注释结果。db/:共享数据库。results/:各步骤产物。logs/:所有脚本运行日志。
2.2 data/ 子目录使用原则
data/genome/:原始与 clean 基因组。data/rnaseq/:原始 / clean RNA-seq 及 meta 表。data/longread/:长读原始 reads、BAM、GTF。data/proteins/:近缘物种蛋白。data/annotation/:外部 TE/ncRNA/GFF 注释。data/functional_external/:KAAS、eggNOG-mapper 等线上结果表。
3. 配置文件结构说明(config.yaml 占位)
此处仅占位,详情见附录中完整 的config.yaml。
4. 必备软件与数据库
4.1 软件组件说明
与原蓝图一致,只补充一点约定:
- 质控与比对
- fastp / FastQC
- HISAT2 / STAR
- samtools
- minimap2
- 结构注释
- BRAKER3(集成 GeneMark、AUGUSTUS 等)
- 重复与 ncRNA
- RepeatModeler / RepeatMasker / EDTA
- Infernal(cmscan)+ Rfam
- tRNAscan-SE
- 功能注释
- DIAMOND
- InterProScan
- KEGG 注释工具或对 KAAS 结果解析脚本
- eggNOG-mapper 或对其 web 结果解析脚本
- 质量评估与辅助
- BUSCO
- bedtools / gffread / gffutils
4.2 数据库部署
| 类型 | 内容示例 | 路径示例 |
|---|---|---|
| BUSCO lineage | mollusca_odb10 |
db/busco/ |
| TE 库 | Dfam / EDTA 库 | db/dfam/ |
| ncRNA | Rfam CM | db/rfam/ |
| Domain / GO | InterProScan DB | db/interpro/ |
| 同源注释(精) | SwissProt | db/swissprot/ |
| 同源注释(全) | NCBI NR | db/nr/ |
| KEGG(可选) | KEGG KO DB | db/kegg/ |
| eggNOG(可选) | eggNOG DB | db/eggnog/ |
5. 每步脚本说明(01–12 + 可选模块)
5.1 common_utils.py —— 公共工具模块
目标:统一基础能力:
- 读取
config.yaml - 构造 logger(写日志 + 终端输出)
- 封装外部程序调用(失败时记录命令、退出码和 stderr 摘要)
- 统一 TSV 读写,检查必备表头
- 建立目录、检查输入存在、写简单统计信息
日志规范约定:
- 每脚本对应
logs/XX_stepname.log - 日志中至少包含:
- config 版本摘要(如 git tag / 手动版本号)
- 本次运行使用的关键参数(数据库、线程数等)
- 输入文件路径与记录数
- 核心统计(例如 BUSCO C/F/M、基因数等)
- 错误与警告(ERROR / WARNING)
5.2 01_genome_qc.py —— 基因组质量评估
目的:
评估基因组组装质量,为后续注释提供背景。
输入:
paths.genome.cleandb.busco_lineage
输出:
results/01_genome_qc/genome.busco/results/01_genome_qc/genome.stats.tsv
表头约定:
genome.stats.tsv:
1 | |
BUSCO 输出使用官方格式,不额外规定。
5.3 02_repeat_annot.py —— 重复序列注释
目的:
识别并标记基因组中的重复序列,生成 TE GFF 与 masked genome。
输入:
paths.genome.cleandb.dfam或 EDTA 内部库
输出:
results/02_repeat/TS.repeat.lib.faresults/02_repeat/TS.repeats.gff3results/02_repeat/TS.genome.masked.faresults/02_repeat/repeat.stats.tsv
表头约定:
repeat.stats.tsv:
1 | |
TS.repeats.gff3 遵循 GFF3 标准,attributes 中推荐包含:
IDNameClassorFamily
5.4 03_rnaseq_qc_and_clean.py —— RNA-seq 质控与清洗
目的:
对 RNA-seq 样本进行统一 QC,生成 clean reads。
输入:
data/rnaseq/raw/*.fq.gzdata/rnaseq/samples.meta.tsv
样本 meta 表必需列:
1 | |
输出:
data/rnaseq/clean/:clean fqresults/03_rnaseq_qc/fastp_summary.tsv
表头约定:
fastp_summary.tsv:
1 | |
5.5 03b_longread_support.py —— 长读转录本证据整合(可选)
目的:
将 Iso-Seq / Nanopore 转录本证据转换为 BRAKER3 可用的 hints。
输入:
paths.longread.bam或paths.longread.gtf- 可选:
longread_transcripts.fa
输出:
results/03b_longread_support/longread_hints.gffresults/03b_longread_support/longread_transcripts.stats.tsv
表头约定:
longread_transcripts.stats.tsv:
1 | |
5.6 04_rnaseq_mapping.py —— RNA-seq 比对
目的:
将 clean reads 比对到基因组,生成 BAM 与 splice hints。
输入:
data/rnaseq/clean/paths.genome.clean或 masked genome
输出:
results/04_mapping/rnaseq.sorted.bam(或多个 BAM)results/04_mapping/hints.gff(可选)results/04_mapping/mapping.stats.tsv
表头约定:
mapping.stats.tsv:
1 | |
5.7 05_braker3_run.py —— 基因结构注释
目的:
在重复屏蔽基因组上,整合 RNA-seq、长读和蛋白证据进行基因预测。
输入:
results/02_repeat/TS.genome.masked.faresults/04_mapping/rnaseq.sorted.bam+hints.gffresults/03b_longread_support/longread_hints.gff(如启用)data/proteins/homologs.merged.pep.fa
输出:
results/05_braker/braker.gff3results/05_braker/braker.cds.faresults/05_braker/braker.proteins.faresults/05_braker/braker.log.summary.tsv
表头约定(log.summary):
1 | |
例如:
metric = n_genes, value = 32000metric = n_transcripts, value = xxx等。
5.8 06_gene_qc_and_filter.py —— 基因集 QC 与过滤
目的:
对 BRaker 基因集进行结构统计、TE 过滤、证据评分和 AED 分析,形成高可信基因列表、假基因列表与低可信基因列表。
输入:
braker.gff3,braker.cds.fa,braker.proteins.faresults/02_repeat/TS.repeats.gff3results/04_mapping/rnaseq.sorted.bam(用于 AED)- 可选:长读 BAM/转录本 GTF(用于 AED)
results/07_homology/results/08_interpro/ BUSCO 结果(供白名单回捞与证据评分使用)
注:证据打分 / AED 统计可分多次运行,蓝图允许脚本内部串联。
输出(核心):
results/06_gene_qc/gene.stats.tsvresults/06_gene_qc/gene.confidence.tsvresults/06_gene_qc/gene.filtered_gene_ids.txt(高可信基因 ID)results/06_gene_qc/pseudogene.gff3(假基因)results/06_gene_qc/aed_distribution.tsvresults/06_gene_qc/proteome.busco/
表头约定:
gene.stats.tsv:
1 | |
gene.confidence.tsv(证据层 + 策略层):
1 | |
aed_distribution.tsv:
1 | |
过滤与策略要点(概念):
- 结构过滤:
- 短 CDS(
min_cds_len_nt、min_protein_len_aa) - 高 TE 重叠(
te_overlap_fraction) - 过多 N 或 frameshift
- 短 CDS(
- 证据评分(E-score):
- 来自 RNA-seq、长读、SwissProt、InterPro、eggNOG、BUSCO 等;
- 脚本中定义权重,不在蓝图展开;
- AED 分布:
- 输出
aed_distribution.tsv用于整体查看;
- 输出
- 白名单回捞:
- 即使基因短或高 TE 重叠,只要
has_swissprot_hit或has_interpro_domain等强证据,可is_rescued_by_homology = true且keep_flag = keep;
- 即使基因短或高 TE 重叠,只要
- 假基因分流:
- 有明确同源支持但存在 frameshift 或提前终止子,可
is_pseudogene = true,记录到pseudogene.gff3,不进入高可信蛋白编码基因集合,但可保留在整体 GFF 中作注释。
- 有明确同源支持但存在 frameshift 或提前终止子,可
高可信基因列表 gene.filtered_gene_ids.txt 为后续 07–10 的唯一蛋白编码基因入口。
5.9 07_functional_homology.py —— 同源注释
目的:
利用 DIAMOND 对高可信蛋白进行同源比对,给出精简 best hit 表。
输入:
pep.filtered.fa(06 步从高可信基因提取)db.swissprot、可选db.nr
输出:
results/07_homology/homology.best.tsv
表头约定:
1 | |
5.10 08_functional_interpro.py —— 结构域与 GO 注释
目的:
通过 InterProScan 探测结构域与 GO/Pathway 信息。
输入:
pep.filtered.fadb.interproscan
输出:
results/08_interpro/interpro.domains.tsv- 可选:
results/08_interpro/interpro.by_gene.tsv
表头约定:
interpro.domains.tsv:
1 | |
interpro.by_gene.tsv(可选汇总):
1 | |
5.11 09_functional_kegg.py —— KEGG 注释(本地 or 线上)
目的:
为高可信基因赋予 KO 与 Pathway 信息。
输入:
- 本地模式:
pep.filtered.fa+db.kegg
- 线上模式:
functional.external_kegg_tsv(KAAS 输出)
统一输出:
results/09_kegg/kegg.tsv
表头约定:
1 | |
5.12 10_functional_eggnog.py —— eggNOG 注释(本地 or 线上)
目的:
通过 eggNOG ortholog group 提供 OG、COG、GO、KO 等。
输入:
- 本地 eggNOG DB 或
functional.external_eggnog_tsv
输出:
results/10_eggnog/eggnog.tsv
表头约定:
1 | |
5.13 10b_ncrna_annot.py —— ncRNA 注释(可选)
目的:
注释 tRNA、rRNA、snRNA、snoRNA、miRNA 等 ncRNA。
输入:
paths.genome.clean或 masked genomedb.rfam- tRNAscan-SE 二进制
输出:
results/10b_ncrna/ncrna.raw.gff3results/10b_ncrna/ncrna.filtered.gff3results/10b_ncrna/TS.ncrna.gff3results/10b_ncrna/ncrna.stats.tsv
表头约定:
ncrna.stats.tsv:
1 | |
TS.ncrna.gff3 中 attributes 推荐包含:
IDNamebiotype
5.14 11_build_publish_release.py —— 发布集构建
目的:
整合结构注释、功能注释和 QC 结果,构建统一发布集。
结构输入:
- 高可信蛋白编码基因 GFF:
genes.filtered.gff3 cds.filtered.fapep.filtered.fa- 可选 ncRNA GFF:
TS.ncrna.gff3
功能输入:
homology.best.tsv(07)interpro.by_gene.tsv(08)kegg.tsv(09)eggnog.tsv(10)gene.confidence.tsv(06)——用于标记 TE-like / pseudogene / novel 等
QC 输入:
- genome BUSCO 摘要
- proteome BUSCO 摘要
gene.stats.tsv、aed_distribution.tsv等
输出:
TS.genome.faTS.genes.gff3TS.cds.faTS.pep.faTS.tx2gene.tsvTS.functional.tsvTS.busco_proteome_summary.txtTS.qc_summary.tsvREADME.annotation.txt
表头约定:
TS.tx2gene.tsv:
1 | |
TS.functional.tsv(统一功能总表,推荐结构):
1 | |
TS.qc_summary.tsv:
1 | |
5.15 12_novel_gene.py —— 新基因候选(可选)
目的:
在功能注释基础上,筛选缺乏同源或结构域但具表达证据、AED 良好的潜在新基因。
输入:
TS.functional.tsvgene.confidence.tsv
输出:
results/12_novel_gene/novel_candidates.tsv
表头约定:
1 | |
5.16 12b_comparative_qc.py —— 交叉流水线与近缘物种对照 QC(可选)
目的:
从两个方向对注释结果进行高级 QC:
- 与其它注释流水线 / 外部 GFF 对照;
- 与近缘物种注释特征对照。
输入:
- 本工程注释:
TS.genes.gff3TS.pep.fa
- 其它流水线注释(可选):
comparative_qc.extra_gffs列出的 GFF
- 近缘物种注释:
comparative_qc.related_species[*].gffcomparative_qc.related_species[*].pep
输出:
results/12b_comparative_qc/gene_feature_comparison.tsvresults/12b_comparative_qc/pipeline_diff_summary.tsv- 可选:可视化辅助数据表
表头约定:
gene_feature_comparison.tsv(跨物种结构特征比较):
1 | |
pipeline_diff_summary.tsv(多流水线对同一物种的注释差异):
1 | |
6. 功能注释整合机制(本地 vs 线上)
6.1 模式控制
通过 functional.use_local_kegg_db 与 functional.use_local_eggnog_db 控制:
true:跑本地数据库;false:使用functional.external_*_tsv。
6.2 合并原则(蛋白编码基因)
在 11 步中:
- 以
gene_id为主键左连接:homology.best.tsvinterpro.by_gene.tsvkegg.tsveggnog.tsvgene.confidence.tsv
primary_desc:- 优先采用 SwissProt 描述;
- 无 SwissProt 时,采用 eggNOG/NR 描述。
ko:- 合并 KEGG + eggNOG 的 KO,去重。
go_bp/cc/mf:- 合并 InterPro 和 eggNOG 的 GO,拆分到 BP/CC/MF 三列。
interpro_domains:- 由 InterPro 汇总。
is_te_like / is_pseudogene / is_novel_candidate / confidence_level:- 直接从
gene.confidence.tsv和novel_candidates.tsv映射。
- 直接从
6.3 ncRNA 的整合方式
- ncRNA 的功能信息相对简单,主要通过
biotype与Name表达; - 推荐使用独立 GFF:
TS.ncrna.gff3; - 是否合并入
TS.genes.gff3由项目决定; TS.functional.tsv不强制包含 ncRNA 信息,可后续视需要扩展ncrna.functional.tsv。
6.4 对下游的意义
- phylo / aphylo / rna-seq 只需识别:
- 蛋白编码基因功能表:
TS.functional.tsv; - 结构注释:
TS.genes.gff3; - ncRNA:
TS.ncrna.gff3(如需要)。
- 蛋白编码基因功能表:
- 下游无需关心 KEGG / eggNOG 的具体来源(本地 / 线上)。
7. 日志规范(文件 + 终端流式输出)
7.1 日志文件命名
- 每个步骤脚本生成一个主日志文件:
logs/01_genome_qc.loglogs/02_repeat_annot.log- ……
- 如步骤内部有子任务,可在日志中以清晰前缀区分,而不是拆分多个日志文件。
7.2 日志内容要求
每个日志至少包含:
- 运行基本信息
- 起止时间
- 所用脚本名与简要版本(如内部版本号)
- 环境信息(可选:hostname、线程数等)
- 配置摘要
- 关键路径(输入 genome、输出目录等)
- 用到的数据库路径
- 主参数(如最小 CDS 长度、TE 阈值、是否启用长读模块等)
- 输入摘要
- 样本数 / 记录数 / 基因数等
- 文件是否存在的检查结果
- 核心统计
- 每一步的关键 QC 数字(如 BUSCO 指标、mapping rate、n_genes 等)
- 06 步建议记录高可信基因数、假基因数、TE-like 基因数、AED<0.5 的比例等。
- 告警与错误
- WARNING:参数略偏极端、部分输入为空、某些基因被大规模过滤等;
- ERROR:外部程序返回非零状态、必需文件缺失、表头不匹配等。
7.3 终端流式输出
- 所有关键信息既写入日志文件,也通过 logger 的 stream 处理器输出到终端;
- 运行时默认可在终端实时观察进度和关键统计;
- 有条件时可加上简单的进度计数(如“处理到第 x / N 个样本”)。
8. QC 与交付物
8.1 按阶段的 QC 要点
- 基因组层面(01)
- BUSCO(genome) 完整度
- N50、GC%、contig 数
- 重复注释(02)
- TE 占比
- masked genome 与原始 genome 长度差
- RNA-seq(03–04)
- clean reads 数量与质量分布
- mapping rate / uniquely mapping rate
- 长读支持(03b,可选)
- 长读转录本长度和外显子数分布
- 支持的剪接位点数量
- 与短读 hints 的重合度
- 基因集 QC(05–06)
- 基因总数、平均 CDS 长度、平均外显子数
- 单外显子基因比例
- 与 TE 重叠的基因比例
- BUSCO(proteome) 完整度
- AED 分布(如 >90% 基因 AED < 0.5)
- 高可信基因数、假基因数、TE-like 基因数等
- 白名单回捞后被保留的短基因数量
- 功能注释(07–10)
- 有同源注释的基因比例
- 有 InterPro 域的基因比例
- 有 KEGG KO 的基因比例
- 有 eggNOG 注释的基因比例
- ncRNA 注释(10b,可选)
- 各类 ncRNA 的数量及长度分布
- 与近缘物种的 tRNA/rRNA 数量对比
- 发布集与高级 QC(11–12b)
- 发布集蛋白 BUSCO 指标
- GFF/CDS/pep/tx2gene 一致性(可在 11 步检查)
- 与近缘物种的基因结构特征对比(12b 输出)
- 与其他流水线结果的差异定位(12b 输出)
8.2 对外发布物清单
results/11_publish/ 至少包含:
TS.genome.faTS.genes.gff3TS.cds.faTS.pep.faTS.tx2gene.tsvTS.functional.tsvTS.busco_proteome_summary.txtTS.qc_summary.tsvREADME.annotation.txt
如启用扩展:
TS.ncrna.gff3results/12b_comparative_qc/*results/06_gene_qc/aed_distribution.tsvresults/06_gene_qc/gene.confidence.tsv(内部 QC 也可在必要时作为附件提供)
9. 方法学模板(占位说明)
本章只保留结构框架,不在蓝图中放完整中英文 Methods 文本。
- 9.1 中文方法学结构建议
- 基因组数据来源与质量评估
- 重复序列注释
- RNA-seq 数据质控与比对
- 长读转录本支持(如适用)
- 基因结构预测与证据整合
- 基因集质量控制与高可信基因筛选(含 TE 过滤、证据打分与 AED)
- 功能注释:同源、结构域、KEGG、eggNOG
- 非编码 RNA 注释(如适用)
- 注释发布集构建与 QC 汇总
- 比较质量评估与跨物种对照(如适用)
- 9.2 英文 Methods 结构建议
- Genome data and quality assessment
- Repeat annotation and genome masking
- RNA-seq processing and genome alignment
- Long-read transcriptome support (if applicable)
- Gene prediction and evidence integration
- Gene set quality control and high-confidence selection (including TE filtering, evidence scoring and AED)
- Functional annotation (homology, domains, KEGG, eggNOG)
- Non-coding RNA annotation (if applicable)
- Construction of the genome annotation release
- Comparative quality assessment and cross-species comparison (if applicable)
完整中英方法学文本在论文阶段单独撰写,不附于蓝图。
10. 施工注意事项(硬件与数据组织)
- 路径规范
- 一律使用相对路径,通过
config.yaml管理; - 脚本中不写死绝对路径。
- 一律使用相对路径,通过
- 数据库与磁盘
- BUSCO、InterPro、NR、eggNOG、KEGG 等数据库建议放在 SSD/NVMe 上;
- 多项目共享同一
db/目录; - 长读数据体积大时注意 I/O 与临时目录容量。
- 脚本与蓝图一致性
- 调整脚本名称或模块时,要同步修改蓝图中对应章节;
- 蓝图中提到的每个脚本、目录、表头,都应在工程中可查。
- 多服务器场景
- 核心数据库尽量本地部署;
- KEGG / eggNOG 部署成本高的服务器可以只读线上结果表(KAAS / eggNOG-mapper);
- 长读分析可以在专门机器完成,再把 BAM/GTF 作为 03b 输入。
- 表头与契约管理
- 本蓝图中给出的所有 TSV 表头应视为“契约接口”;
- 修改表头时需同步更新蓝图与下游脚本;
- 表头变化属于工程级变动,应在 README 中记录。
- 日志与 QC 文档化
- 关键 QC 指标建议整理进
TS.qc_summary.tsv和 README 中; - 对于重要物种,可将
gene_feature_comparison.tsv、aed_distribution.tsv等作为论文补充材料备选。
- 关键 QC 指标建议整理进
附录
config.yaml
1 | |