文件格式-365bet登录-365bet登录-365BET体育下载-365体育是哪个国家的

文件格式 | 对VCF文件的常见操作¶

发表于: 2024-02-20

压缩¶

bcftools view sativa332.indel.Lsat_1_v5_gn_7_15020.hard.vcf -Oz -o sativa332.indel.Lsat_1_v5_gn_7_15020.hard.vcf.gz

-Oz: 指定输出文件为压缩格式 gz.

-o: 指定输出文件名。

建立索引¶

只能对压缩后的vcf文件建立索引

bcftools index -t sativa332.indel.Lsat_1_v5_gn_7_15020.hard.vcf.gz

-t: 填压缩后的 vcf.gz 文件.

tabix -p vcf view.vcf.gz

-p: 填压缩后的 vcf.gz 文件.

上述命令任选其一, 均可完成建索引.

提取变异¶

gatk SelectVariants -R Lactuca_sativa_Salinas_V8.fa -V Lactuca.snp.vcf.gz -L chr7:18846094-18857694 -L chr8:1884094-188009694 -O sativa332.snp.Lsat_1_v5_gn_7_15020.hard.vcf.gz

-R: 参考基因组fasta文件

-V: 输入vcf文件

-L: 需要提取的变异区间,可以为 chrx:xx-xx 或直接提取整条染色体 chrx, 但格式必须与输入vcf文件相同,如: chr1, Chr1, Chr01, 可以同时提取多个区间 (重复使用该参数)

-O: 输出vcf文件名

bcftools view -S keep.list test.vcf > sub_indv.vcf

-S: 需要提取的变异的位置信息,可以是染色体\t具体位置两列，也可以是染色体\t起始\t终止三列.

上述命令任选其一即可

提取样品¶

gatk SelectVariants -R Lactuca_sativa_Salinas_V8.fa -V Lactuca.snp.vcf.gz -sn s001 -sn s002 -sn s003 -O sativa332.snp.Lsat_1_v5_gn_7_15020.hard.vcf

-R: 参考基因组fasta文件

-V: 输入vcf文件

-O: 输出vcf文件名

-sn: 需要提取的样品名,可以同时提取多个样品 (重复使用该参数)

bcftools view view.vcf.gz -s NA00001,NA00002 -o subset.vcf

-s: 需要提取的样品名,,分割

-o: 输出文件名

bcftools view input.SNP.revhet.recode.vcf.gz -S input_samples.list -Oz -o output_fixed.vcf.gz

-S: 需要提取的样品名称列表

vcftools --gzvcf in.vcf.gz --recode --recode-INFO-all --stdout --keep id.txt > out.vcf.gz

--gzvcf: 输入文件名

--recode: 告诉程序使用过滤器写入一个新的vcf文件

--recode-INFO-all: 保留旧vcf文件中的所有INFO标志

--stdout: 配合后面的管道函数，如果输出文件是压缩文件 --stdout > out.vcf.gz (也可以不压缩),不压缩时，可以直接 --out out 此处第一个out是命令，第二个out是文件名 (也可以 --stdout > out.vcf)

--keep: 所需要的样品名列表

选择一个即可完成

去除样品¶

适用于去除少数样品

bcftools view example.vcf.gz -s ^NA00001,NA00002 -o subset.vcf

-s ^ 后接需要去除的样品名, , 分割

-o 输出文件名

适用于较多样品

vcftools --gzvcf in.vcf.gz --recode --recode-INFO-all --stdout --remove id.txt > out.vcf.gz

--gzvcf: 输入文件名

--recode: 告诉程序使用过滤器写入一个新的vcf文件

--recode-INFO-all: 保留旧vcf文件中的所有INFO标志

--stdout: 配合后面的管道函数，如果输出文件是压缩文件 --stdout > out.vcf.gz (也可以不压缩), 不压缩时，可以直接 --out out 此处第一个 out 是命令，第二个 out 是文件名 (也可以 --stout > out.vcf)

--remove: 所需要的样品名列表

修改样品名¶

bcftools的常用命令

bcftools reheader --samples sub.list -o output.vcf.gz input.vcf.gz

--samples: 内容为oldname\tnewname, 可有多行 (修改多个样品名)

MAF 过滤¶

参考: VCFtools的使用(参数说明)

/zfssz5/BC_PUB/Software/03.Soft_ALL/vcftools-0.1.13/bin/vcftools --gzvcf sativa332.hard.Lsat_1_v5_gn_7_15020.snp_indel.vcf.gz --max-missing 0.9 --maf 0.05 --recode --recode-INFO-all --stdout | /ldfssz1/ST_AGRIC/P18Z10200N0148_LETTUCE/USER/bin/01.software/smcpp1.13.1/bin/bgzip -c > sativa332.maf.Lsat_1_v5_gn_7_15020.snp_indel.vcf.gz

--gzvcf: 输入文件名

--max-missing: 缺失率，0为接受完全缺失，1为接受数据全都存在

--maf: Minor Allele Frequency二等位基因频率进行过滤，通常保留大于0.05的。

--recode : 告诉程序使用过滤器写入一个新的vcf文件

--recode-INFO-all: 保留旧vcf文件中的所有INFO标志

bgzip -c >: 压缩文件

提取染色体名称¶

bioawk -c vcf ' { print $chrom } ' old.vcf.gz | sort -n | uniq > ChrName.txt

sort -n :按数值排序

uniq: 去重

更改染色体名称¶

bcftools annotate --rename-chrs NewChrName.txt old.xxx.vcf.gz -Oz -o new.xxx.gz

rename-chr: 接新老名称的对应关系,其中NewChrName.txt文件中第一列为旧ID，第二列为对应的新ID

-Oz: 指定输出文件为压缩格式 gz

-o: 指定输出文件名

按染色体拆分vcf¶

for i in {chr1..chr9};do echo -e "gatk SelectVariants -R Lactuca_sativa_Salinas_V8.fa -V Lactuca.snp.vcf.gz -L chr7:18846094-18857694 -L $i -O sativa332.snp.$i.hard.vcf.gz";done

循环使用提取变异命令

按染色体合并vcf (推荐转换成bed文件合并，更快速)¶

参考: 多款软件进行vcf合并-gatk、vcftools、bcftools

gatk GatherVcfs -I concat-a.vcf -I concat-b.vcf -O combine_a_b_samesample_diffsites.vcf

-I: 输入文件名(可重复使用该参数)

-O: 输出文件名

gatk MergeVcfs -I concat-a.vcf -I concat-b.vcf -O combine_a_b_diffsample_allsites_gatk.vcf

-I: 输入文件名(可重复使用该参数)

-O: 输出文件名

bcftools concat concat-a.vcf concat-b.vcf -o combine_a_b_samesample_diffsites_bcftools.vcf

concat:后接需要合并的vcf名

-O: 输出文件名

合并SNP和indel¶

bcftools concat -R Lsat_1_v5_gn_7_15020.region -a sativa332.indel.hard.vcf.gz sativa332.snp.vcf.gz -Oz -o sativa332.hard.snp_indel.vcf.gz

-R: 只有包含在这个文件中指定的区域的记录才会被合并,格式为 chr1\t1389\t111333,可有多行(多个区间)

-a: 需要合并的文件,示例中的两个文件将按顺序合并

-Oz: 指定输出文件为压缩格式 gz.

-o: 指定输出文件名。

vcf的基本信息¶

bcftools stats example.vcf.gz > example.vcf.stats

提取样品ID信息¶

bcftools query -l example.vcf.gz >example.id.list

-l: 后接需要查询的vcf文件

提取变异信息¶

参考: bcftools常用命令详解

bcftools query -f '%CHROM\t%POS\t%REF\t%ALT[\t%SAMPLE=%GT]\n' view.vcf.gz

%CHROM: 代表VCF文件中染色体那一列，其他的列，比如POS, ID, REF, ALT, QUAL, FILTER也是类似的写法

[]: 对于FORMAT字段的信息，必须要中括号括起来

%SAMPLE: 代表样本名称

%GT: 代表FORMAT字段中genotype的信息

365bet登录-365BET体育下载-365体育是哪个国家的

文件格式

相关阅读

鬼谷无双怎样加点是正确的？鬼谷无双技能加点攻略概括有没有？

觉醒时代来临《街头篮球》角色深度解析

《炉石传说》酒馆战棋元素流最终阵容图一览

友情链接

相关阅读

鬼谷无双怎样加点是正确的？鬼谷无双技能加点攻略概括有没有？

觉醒时代来临 《街头篮球》角色深度解析

《炉石传说》酒馆战棋元素流最终阵容图一览

友情链接

觉醒时代来临《街头篮球》角色深度解析