生信文件数据格式转化

在GWAS分析中,使用PLINK将文本格式文件(.ped和.map)转换为二进制文件(.bed/.bim/.fam)可显著提高处理效率并减少存储空间。以下是详细步骤:

转换步骤:

  1. 准备文件:确保你有一对PLINK文本格式文件:

    • .ped文件:包含样本信息和基因型数据(空格分隔)
    • .map文件:包含SNP的染色体和位置信息
  2. 执行转换命令

    bash

    1
    plink --file <输入文件前缀> --make-bed --out <输出文件名>
    • **--file**:指定输入文件前缀(无需扩展名,PLINK会自动查找.ped/.map)
    • **--make-bed**:指示生成二进制文件
    • **--out**:设置输出文件前缀(默认生成.bed/.bim/.fam)

    示例

    bash

    1
    plink --file mydata --make-bed --out mydata_binary
  3. 验证输出:成功后会生成三个文件:

    • mydata_binary.bed:基因型二进制数据
    • mydata_binary.bim:SNP信息(文本格式)
    • mydata_binary.fam:样本信息(文本格式)

其他常见场景:

1. 处理转置文本格式(.tped/.tfam)

bash

1
plink --tfile my_transposed_data --make-bed --out binary_output

2. 从其他格式转换

  • 若数据为VCF格式,先转文本再转二进制:

    bash

    1
    2
    plink --vcf input.vcf --recode --out temp  # 转文本格式
    plink --file temp --make-bed --out binary # 转二进制

3. 添加额外参数

  • 设置染色体编码:--chr-set 95(非人类物种)
  • 排除特定样本:--remove exclude_list.txt
  • 仅保留常染色体:--autosome

生信文件数据格式转化
https://oldstory.cn/2025/08/13/sheng_xin_wen_jian_ge_shi_zhuan_hua/
作者
Ricardo
发布于
2025年8月13日
许可协议