生信文件数据格式转化
在GWAS分析中,使用PLINK将文本格式文件(.ped和.map)转换为二进制文件(.bed/.bim/.fam)可显著提高处理效率并减少存储空间。以下是详细步骤:
转换步骤:
准备文件:确保你有一对PLINK文本格式文件:
.ped
文件:包含样本信息和基因型数据(空格分隔).map
文件:包含SNP的染色体和位置信息
执行转换命令:
bash
1
plink --file <输入文件前缀> --make-bed --out <输出文件名>
- **
--file
**:指定输入文件前缀(无需扩展名,PLINK会自动查找.ped/.map) - **
--make-bed
**:指示生成二进制文件 - **
--out
**:设置输出文件前缀(默认生成.bed/.bim/.fam)
示例:
bash
1
plink --file mydata --make-bed --out mydata_binary
- **
验证输出:成功后会生成三个文件:
mydata_binary.bed
:基因型二进制数据mydata_binary.bim
:SNP信息(文本格式)mydata_binary.fam
:样本信息(文本格式)
其他常见场景:
1. 处理转置文本格式(.tped/.tfam):
bash
1 |
|
2. 从其他格式转换:
若数据为VCF格式,先转文本再转二进制:
bash
1
2plink --vcf input.vcf --recode --out temp # 转文本格式
plink --file temp --make-bed --out binary # 转二进制
3. 添加额外参数:
- 设置染色体编码:
--chr-set 95
(非人类物种) - 排除特定样本:
--remove exclude_list.txt
- 仅保留常染色体:
--autosome
生信文件数据格式转化
https://oldstory.cn/2025/08/13/sheng_xin_wen_jian_ge_shi_zhuan_hua/