01查找参考基因组
查找参考基因组
ncbi_genome_download
mamba activate ncbi_genome_download
## 根据登录号下载
ncbi-genome-download --assembly-accessions refseq.txt plant --section refseq --formats fasta,gff --progress-bar --parallel 3 -o data1 --flat-output
## 根据物种名
ncbi-genome-download --genera "Pseudomonas reinekei" bacteria --section genbank --formats fasta,gff --progress-bar --parallel 3 -o genbank
ncbi-genome-download --genera "Pseudomonas reinekei" bacteria --section refseq --formats fasta,gff --progress-bar --parallel 3 -o refseq
## 根据属名
ncbi-genome-download --genera Pseudomonas bacteria
## 物种名或属名可以放txt中
ncbi-genome-download --genera ref.txt bacteria
0.创建文件夹
mkdir summary/data/subset -p
for i in {UB002};do echo $i;touch $i.txt;mkdir $i;done
1.截取250万条reads
zcat xx路径/13_S52_L002_R1_001.fastq.gz |head -5000000 > summary/data/subset/13_S52_L002_R1_001.fq
## for循环
for i in {UB002};do for j in {1,2} ; do zcat 分发路径/2.clean_data/$i/${i}_S*_L007_R${j}_001.fastq.gz |head -5000000 > summary/data/subset/${i}_L007_R${j}_001.fq & done; done
2.下载参考基因组
## 把样品对应的属名物种名放进样品txt中
mamba activate ncbi_genome_download
## for循环 每个文件夹下有对应txt
for i in {UB002};do mv $i.txt $i; done
--- refseq数据库
for i in {UB002};do cd $i && ncbi-genome-download --genera $i.txt bacteria --formats fasta,gff --progress-bar --parallel 3 & done
for i in P{10P11,16P17,5}; do cd $i && ncbi-genome-download --genera *.txt fungi --formats fasta,gff --progress-bar --parallel 3 & done
--- genbank数据库
for i in P{10P11,16P17,5}; do cd $i && ncbi-genome-download --genera *.txt fungi --formats fasta,gff --progress-bar --parallel 3 --section genbank -o ./ & done
3.比对运行
cd UB002 && perl /share/nas2/yuj/project/2024/re-sequencing/GP-20240220-7911_20240509/pipline/bwa2pip.pl -i 项目路径/summary/data/subset -g refseq/bacteria -o ident -p UB002 && cd - &
## for循环
for i in {UB0029};do rm $i/ident -rf ;done
for i in {UB0029};do echo $i; cd $i && perl /share/nas2/yuj/project/2024/re-sequencing/GP-20240220-7911_20240509/pipline/bwa2pip.pl -i 项目路径/summary/data/subset -g */fungi -o ident -p $i && cd - & done
for i in {UB0029};do echo $i; cd *$i* && perl /share/nas2/yuj/project/2024/re-sequencing/GP-20240220-7911_20240509/pipline/bwa2pip.pl -i 项目路径/summary/data/subset -g */fungi -o $i.ident -p $i && cd - & done # 不同样品的参考放一块了,需要分别对样品进行比对
# summary/data/subset里面是每个样品截取后的序列
# refseq/bacteria文件夹下有很多以登录号命名的文件夹
# */fungi文件夹下有很多以登录号命名的文件夹
4.查看结果
for i in {UB002};do head -n 1 $i/ident/map.stat.xls;done | sort -k 3 -n > ref_sort.txt
cat ref_sort.txt
## 看看有没有gff
后n个都是比对大于70%的
n=11 && for i in $(cat ref_sort.txt | tail -n $n | cut -f 2);do ll */refseq/bacteria/$i/*.gff*;done
5.没有参考基因组的,尝试genbank数据库
mamba activate ncbi_genome_download
n=11 && for i in $(cat ref_sort.txt | head -n $n | cut -f 1);do cd $i && ncbi-genome-download --genera $i.txt bacteria --section genbank --formats fasta,gff --progress-bar --parallel 3 -o ./ & done
for i in $(cat ref_sort.txt | head -n $n | cut -f 1);do echo $i; cd $i && perl /share/nas2/yuj/project/2024/re-sequencing/GP-20240220-7911_20240509/pipline/bwa2pip.pl -i 项目路径/summary/data/subset -g genbank/genbank/bacteria -o ident2 -p $i && cd - & done
for i in $(cat ref_sort.txt | head -n $n | cut -f 1);do head -n 1 $i/ident2/map.stat.xls;done | sort -k 3 -n > ref_sort2.txt
cat ref_sort2.txt
n=11 && for i in $(cat ref_sort2.txt | tail -n $n | cut -f 2);do ll */genbank/genbank/bacteria/$i/*.gff*;done # 后n个是比对大于70%的
while read -r line; do echo "$line"; cd $(echo "$line" | cut -f 1) && ln -s refseq/bacteria/$(echo "$line" | cut -f 2) data;cd -; done < 11ok.txt
for i in $(cat 11ok.txt | cut -f 1);do cd $i && gunzip data/*.gz && cd data && ir.py -i *.fna -l | sort -k 1 -nr > len.txt && cd - & done
for i in $(cat 11ok.txt | cut -f 1);do cat $i/data/len.txt ;done
方法描述
共进行了5轮基因组下载比对
1.(一轮比对)根据第1次菌种鉴定结果,
对每个样品利用ncbi-genome-download v0.3.3(https://github.com/kblin/ncbi-genome-download)从refseq数据库下载对应鉴定物种们的基因组,
从测序数据中抽取125万条reads后使用bwa-mem2 v2.2.1(https://github.com/bwa-mem2/bwa-mem2)将reads比对参考基因组,
对获得的sam文件使用samtools v1.9(https://github.com/samtools/samtools/)软件的flagstat功能进行统计获得匹配率,
从匹配率大于70%的众多基因组中挑选比对率最高的基因组作为参考。
2.(二轮比对)若某个样品没有匹配率大于70%的基因组,
再使用ncbi-genome-download从genbank数据库下载对应物种们的基因组,
重新抽取reads比对统计,从匹配率大于70%的众多基因组中挑选比对率最高的基因组作为参考。
3.若某个样品依旧没有大于70的参考,
则对该样品使用spades v3.15.5(https://github.com/ablab/spades)进行初步组装,
从组装结果中挑选100k左右的contig到ncbi使用blast进行比对获得潜在的鉴定物种,取前5个物种。
4.(三轮比对)将第3步的潜在物种们和第2次提供的菌种鉴定结果整合,
重复1步骤
5.(四轮比对)若某个样品没有匹配率大于70%的基因组,
重复2步骤
6.(五轮比对)若在第4、第5步中对某个样品操作时,遇到基因组多到软件下载不下来中途报错的情况,
则根据第4步的整合结果,将该样品对应的潜在物种们放宽至属水平,把其他样品下载下来的同属基因组整合后,
进行比对统计,挑选大于70%的参考基因组
7.若依旧没有,就没有其他操作,定为找不到