基因组比对绘图 -- 8703项目

## 从fasta中提取指定序列  一次只能提取一条
awk '/^>/{if(seq){print seq};seq="";if($0~/>GWHBJXA00000002/){flag=1}else{flag=0}}flag{seq=seq""$0}END{if(seq)print seq}'  GWHBJXA00000000.genome.fasta  > chr2V.fa

1.seqkit
seqkit stat  *.fna # 统计总长
seqkit seq -rp ly.chr1.fasta > ly.chr1-rp.fasta # 反向互补

2.统计长度
samtools faidx *.fna && cat *.fai | cut -f 1,2 > size # id(只有序列号)<TAB>长度

3.提取染色体 # https://www.jianshu.com/p/e834562ef52c/
可以一次提取多条
$ vim 4A.bed #每条Scaffold的长度信息,一般基因组注释文件gff含有这些信息
NC_057803.1	0	754227511
NC_057803.1	0	754227511
$ bedtools getfasta -fi *.fna -bed 4A.bed -fo 4A.fasta
grep "^>" -v 4A.fasta | awk '{ ORS = ""; $1 = $1; print $0}' > chrUn.fasta # 去掉名字
fold -w 80 chrUn.fasta > chromosome_4A.fasta # 控制行宽80输出
sed -i '1 i\>NC_057803.1' chromosome_4A.fasta # 在第一行加">ID"

4.切分为两段 # https://www.jianshu.com/p/e834562ef52c/
$ vim chr4A_2parts.bed # 这里每条染色体从哪里断开是随意设置的,有一点点不严谨
NC_057803.1	0	400000000
NC_057803.1	400000000	754227511
$ bedtools getfasta -fi *.fna -bed chr4A_2parts.bed -fo chr4A_2parts.fasta
grep "^>" chr4A_2parts.fasta
fold -w 80 chr4A_2parts.fasta > chromosome_4A_2parts.fasta

一.单拷贝基因共线性图(同源基因)

1.准备目标区间的pep序列
## 对每个样本进行提取
CHROM=`awk -F ">"  'NR==1 {print $2}'  chromosome_4A.fasta`  && START=`awk 'NR==1 {print $1}' 12m.bed`  &&  END=`awk 'NR==1 {print $2}' 12m.bed`    && awk -v chrom="$CHROM" -v start="$START" -v end="$END" '{    if ($1 == chrom && $4 >= start && $5 <= end) {        print;    }}' chromosome_4A.gff   > 12m.gff && gffread -x cds.fa -g chromosome_4A.fasta 12m.gff  &&  ir.py -i cds.fa -o pep.fa  -s7   -n 1
## 复制备用
for i in *;do cp $i/pep.fa   gene_plot/$i.pep.fa;done

2.运行聚类
# /share/nas2/zhouxy/pipline2/cpar_genome/current/bin/tree/EasyTree.pl 其他路径
perl /share/nas6/xul/program/fungi/tree/EasyTree.pl -id pep
# pep是目录,里面放各自的蛋白序列
# 会生成TREE目录,其中TREE/format_seq/OrthoFinder/Results_Aug13/Orthogroups是所需结果
# 获得Orthogroups_SingleCopyOrthologues.txt、Orthogroups.txt

3.绘图
## 所有gff复制过去
for i in *;do cp $i/12m.gff   gene_plot/TREE/format_seq/OrthoFinder/Results_*/Orthogroups/$i.12m.gff;done
## 生成tmp.txt
cat Orthogroups_SingleCopyOrthologues.txt  | while read i ;do grep $i Orthogroups.txt  ;done | cut -d ":" -f 2 |sed 's/^ //g' > tmp.txt

## 调整画图的列数和顺序,注意这里索引从0开始
perl -lane 'print join" ",@F[4,5,6,1,2,3]' tmp.txt  | less  > tmp2.txt # 按第5,6,7,2,3,4列重排

## 可以不调整画图的列数,不使用tmp2,直接输入tmp.txt
perl /share/nas6/xul/program/nuclear/other/get_single_copy_gene_pos.pl -i tmp2.txt  -g  *.12m.gff*  && realpath tmp_collinearity/input.cfg
# 这一步报错可能是因为tmp文件每个基因多了transcript标签,要删掉

## 6种颜色
perl /share/nas6/xul/program/fungi/colinearity/draw_collinearity.pl -i tmp_collinearity/input.cfg  -l tmp_collinearity/*.txt -o synteny.svg && svg2xxx synteny.svg ./ -t png -dpi 300
## 15种颜色,修改线宽为5
perl /share/nas1/yuj/program/fungi/colinearity/draw_collinearity.pl -i tmp_collinearity/input.cfg  -l tmp_collinearity/*.txt2 -o synteny.svg && svg2xxx synteny.svg ./ -t png -dpi 300

通过全部减去720000000来完成部分绘图

二.特有基因

bash /share/nas2/yuj/project/2024/genome/GP-20240704-8703_20240717/region.sh  chromosome_4A.gff chr4A  740000000  800000000  >  chr4AL.gff

个性分析 2DL 特有序列
        1.获取CDS序列
                gffread  -x yzm_chr2AL.fa -g GCA_900231445.1_Svevo.v1_genomic.fna  chr2AL.gff

        2.比对
                makeblastdb  -dbtype nucl -in final.cds.fa
                for i in chym_chr2E.cds.fa dm_chr2H.cds.fa  hm_2R.cds.fa ;do blastn  -db final.cds.fa -query $i  -outfmt 5 > $i.blast.xml ;done
                for i in *.blast.xml ;do perl /share/nas6/pub/pipline/genome-assembly-seq/mitochondrial-genome-seq/current/annotation/src/blast_parser.pl -tophit 1 -topmatch 1 -eval 1e-5 -m 7 $i > `basename $i .blast.xml`.blast.tophit.xls;done 

        3.整理结果
                perl /share/nas6/xul/program/nuclear/other/get_homo_cds_from_blastn_tophit.pl -i *.tophit.xls -g *.gff -f final.cds.fa -o jjm_and_yzm_L.homo.pos.xls  > jjm_and_yzxm_L.homo.xls
                #perl /share/nas6/xul/program/nuclear/other/get_homo_cds_from_blastn_tophit.pl -i *.tophit.xls  ../chr2DL.cds.filter.fa.blast.tophit.xls -g *.gff3  ../chr2DL.gff -f ../2VL.cds.filter.fa   -o  homo.pos.xls

                venn:
                        head -7 ptxm.homo.xls  | sed 's/#//' > ptxm.homo.venn
                        perl /share/nas6/xul/program/nuclear/gene_family/veen_draw.pl  -i  jjm_and_yzxm.homo.venn -o jjm_and_yzxm.homo.venn.svg

        4.共线性图
                perl /share/nas6/xul/program/nuclear/other/get_link_from_homo.pos.pl -i all.homo.pos.xls 

                cp /share/nas6/xul/program/nuclear/other/ticks.conf /share/nas6/xul/program/nuclear/other/ideogram.conf .
                
                /share/nas6/xul/soft/circos/circos-0.69-6/bin/circos  -conf circos.conf && svg2xxx -t pdf circos.svg

三.SV可视化

3.0 区间寻找

1.
## 中国春
cp_add.py -i chromosome_*A.fasta -p 740000001-754227511:+ -sn 4A_12M.fa  > log ; sed -i '1 i\>4A_12M'  *4A_12M.fa && rm log

2.绘图查找
for i in {aegilopoides_TA299,dicoccoides_WEW_v2.1,durum,monococcum_TA10622,urartu_G1812} ;do cd $i && nucmer  -t 15    -l 300 -c 1000 --mum     ../4A_12M.fa  chromosome_*A.fasta  -p $i && delta-filter -m -i 85 -l 15000 -o 85 $i.delta -1>$i.filtered.delta && show-snps -Clr $i.filtered.delta > $i.filtered.delta.snps && mummerplot -p $i $i.filtered.delta -t postscript  && ps2pdf $i.ps $i.pdf && convert -density 300 $i.pdf $i.png & done

3.根据比对结果填写取出的bed文件
cat */*bed  && echo -e "\t$(awk 'NR==1 {print $3}' */*bed)" > 12m.bed && rm *4A_12M.fa  ; cpath=`pwd`&& awk 'NR==4 {print $0}' ../plot/`basename  $cpath`.filtered.delta

4.提取序列
start=`awk   'NR==1 {print $1}' 12m.bed`   && end=`awk   'NR==1 {print $2}' 12m.bed` &&  cp_add.py -i chromosome_4A.fasta -p  $start"-"$end":+"  -sn 4A_12M.fa  > log ; sed -i '1 i\>4A_12M'  *4A_12M.fa  && rm log && ir.py -l -i 4A_12M.fa && ll

3.1提取

1.seqkit查看染色体长度
seqkit fx2tab --length --name --header-line  *.fna > size # id(包括染色体)<TAB>长度

2.提取某染色体序列和gff
## 输出长度
fa=*.f*a* && gff=*.gff* && seqkit fx2tab --length --name --header-line  $fa > size
## 提取染色体
chr=4A && grep $chr size | awk '{print  $1"\t"0"\t"$NF}'  > $chr.bed && bedtools getfasta -fi $fa -bed $chr.bed -fo $chr.fasta && tail -n 1 $chr.fasta > noid.$chr.fasta && fold -w 80 noid.$chr.fasta > chromosome_${chr}.fasta && sed -i '1 i\>4A' chromosome_4A.fasta
# 初步提取出来是id+序列,共两行,拿出序列后格式化为每行80字符,再加上序列名称
## 提取gff
grep `cat $chr.bed|awk '{print  $1}'` $gff  > chromosome_${chr}.gff && mv chromosome_* ../

3.提取染色体序列,从指定位置到末尾
length=`cut -f 3 $chr.bed` && cd ../ && cp_add.py -i chromosome_4A.fasta -p 740000001-${length}:+ -sn 4A_12M.fa  > log ; sed -i '1 i\>4A_12M'  *4A_12M.fa && rm log

3.2比对后画图

3.2.0 软件参数(可不看)

输入文件:
-c INFILE:包含比对坐标的文件。这个文件可能是从一个比对软件(比如MUMmer)生成的,其中包含了两个基因组之间的比对信息,包括每个比对的起始位置、终止位置等信息。
-r REF:作为比对参考的基因组A的文件。
-q QRY:作为比对查询的基因组B的文件。
-d DELTA:MUMmer生成的.delta文件。

可选参数:
-F {T,S,B}:指定输入文件的类型。可以是表格文件(T),SAM文件(S)或BAM文件(B)。默认为表格文件。
-k:保留中间输出文件。默认为False。
--log {DEBUG,INFO,WARN}:设置日志级别。可以选择DEBUG(调试)、INFO(信息)、WARN(警告)等级别。默认为INFO。
--lf LOG_FIN:指定日志文件的名称。默认为"syri.log"。
--dir DIR:指定工作目录的路径。默认为当前目录。
--prefix PREFIX:指定输出文件名前缀。默认为空。
--seed SEED:用于生成随机数的种子。默认为1。
--nc NCORES:指定并行计算时使用的核心数量。最大值是染色体的数量。默认为1。
--novcf:不将所有文件合并为一个输出文件。默认为False。
-f:过滤掉低质量的比对。默认为True。

结构变异检测:
--nosv:设置为True以跳过结构变异的识别。默认为False。
--nosnp:设置为True以跳过在比对中识别SNP/Indel。默认为False。
--all:设置为True以使用重复区域(duplications)进行变异识别。默认为False。
--allow-offset OFFSET:允许碱基对(base pairs)重叠的数量。默认为5,表示如果两个变异区域之间的重叠小于等于5个碱基对,则允许识别为同一变异。
--cigar:设置为True以使用CIGAR字符串来查找SNP/Indel。默认为False,表示不使用CIGAR字符串。通常在使用除了nucmers之外的比对器生成的比对结果时,需要设置为True。
-s SSPATH:指定show-snps工具的路径,show-snps是MUMmer软件包中的一个工具,用于从.delta文件中提取SNP信息。默认为show-snps。

结构重排识别:
--nosr:设置为True以跳过结构重排事件的识别。默认为False,表示执行结构重排事件的识别。
--tdgaplen TDGL:多重比对转座或重复(TD)的两个比对之间允许的最大间隙长度。较大的值会增加TD识别的灵敏度,但也会增加运行时间。默认为500000。
-b BRUTERUNTIME:限制Brute Force方法运行时间的阈值(以秒为单位)。较小的值会使算法运行更快,但可能会对准确性产生边际影响。在一般情况下,可能不需要设置这个参数。默认为60。
--unic TRANSUNICOUNT:选择转座时所需的唯一碱基对数。较小的值会更好地选择较小的转座,但可能会增加时间并降低准确性。默认为1000。
--unip TRANSUNIPERCENT:选择转座时所需的唯一区域百分比。值应在(0,1]范围内。较小的值会选择与其他区域更重叠的转座。默认为0.5。
--inc INCREASEBY:添加另一个比对到转座簇解决方案所需的最小分数增加。默认为1000。
--no-chrmatch:如果两个基因组的染色体ID不相等,则设置为True,不允许SyRI自动匹配染色体ID。默认为False。
plotsr
python /path/to/plotsr syri.out /path/to/refgenome /path/to/qrygenome

positional arguments:
  reg                   syri.out file generated by SyRI
  r                     path to reference genome
  q                     path to query genome

optional arguments:
  -h, --help            show this help message and exit
  -s S                  minimum size of a SR to be plotted
  -R                    Create ribbons
  -f F                  font size
  -H H                  height of the plot
  -W W                  width of the plot
  -o {pdf,png,svg}      output file format (pdf, png, svg)
  -d D                  DPI for the final image
  -b {agg,cairo,pdf,pgf,ps,svg,template}
                        Matplotlib backend to use

3.2.1 方法1mummer

1.基因组比对
# nucmer  -t 15 --maxmatch -c 100 -b 500 -l 50 refgenome qrygenome 
# Whole genome alignment. Any other alignment can also be used. -maxmatch 
# 会识别所有比对,搭配下一步筛选的“-m -i 85 -l 15000 -o 85 out.delta -1”,绘图会比较好看
nucmer  -t 15    -l 300 -c 1000 --mum refgenome qrygenome # 更快

2.比对结果过滤
delta-filter -m -i 85 -l 15000 -o 85 out.delta -1> out.filtered.delta # Remove small and lower quality alignments 筛选长度>15000bp,匹配度>85% 的匹配情况
-m 会删除冗余比对。
-i 指定最小的alignment相似性阈值
-l 注意,这里是字母小写的L,指定最小的alignment长度
-o 和-r,-q相关,可以理解为alignment coverage
-1 注意,这里是数字1,指定是否进行一对一的比对,一个位置(subject或query上)只找一个最佳的比对。特别是对大的基因组一定要加这个选项,否则会异常慢

show-snps -Clr out.filtered.delta > out.filtered.delta.snps
mummerplot -p out out.filtered.delta -t postscript # ps格式图片
ps2pdf out.ps out.pdf && convert -density 300 out.pdf out.png

for i in *.fa;do echo ${i%_4A_12M.fa};nucmer  -t 15    -l 300 -c 1000 --mum  ../CS2.1_4A_12M.fa $i -p ${i%_4A_12M.fa}   && delta-filter -m -i 85 -l 15000 -o 85   ${i%_4A_12M.fa}.delta -1>  ${i%_4A_12M.fa}.filtered.delta && show-snps -Clr ${i%_4A_12M.fa}.filtered.delta  > ${i%_4A_12M.fa}.filtered.delta.snps && mummerplot -p ${i%_4A_12M.fa}  ${i%_4A_12M.fa}.filtered.delta  -t postscript  && ps2pdf ${i%_4A_12M.fa}.ps  ${i%_4A_12M.fa}.pdf  && convert -density 300   ${i%_4A_12M.fa}.pdf  ${i%_4A_12M.fa}.png &  done

3.获得每个 alignment 的位置
show-coords -THrd out.filtered.delta > out.filtered.coords      # Convert alignment information to a .TSV format as required by SyRI

4.结构变异检测
syri -c out.filtered.coords -d out.filtered.delta -r refgenome -q qrygenome --prefix 4A_12M --nc 8 # -nc 核心数,默认1

5.结果绘图
plotsr 4A_12Msyri.out refgenome qrygenome  -H 8 -W 12 -o 4A_12M.pdf # 简简单单
/share/nas1/yuj/software/micromamba/envs/py3.8/bin/plotsr --genomes genomes.txt -o output_plot.pdf -H 8 -W 12  --sr ref_4A_12M_dicoccoides_4A_12Msyri.out # --genomes 是绘图样式参数,里面有ref qry路径
mummer
show-snps 用于显示两样本的snp信息
show-aligns 用于显示比对,可以单独列出每个序列的比对情况。
show-coords 用于显示比对坐标,用于后续共线性分析定制化绘图
show-diff显示大的染色体变化 倍增 重排或者直接使用dnadiff软件一步生成,结果非常详细,还有一个report报告文件
dnadiff可以直接加-d接delta格式的结果(/opt/software/mummer-3.9.4alpha/dnadiff -d \<outpfix\>.delta),或者更方便直接接两条序列即可,非常方便好用。

3.2.2 方法2minimap2

一键操作:/share/nas6/xul/program/nuclear/syri/multi-genome_syri_plot.pl
perl /share/nas1/yuj/program/nuclear/syri/multi-genome_syri_plot.pl -i ref_4A_12M.fa dicoccoides_4A_12M.fa xxx.fa  aaa.fa

## 分步进行
# Using minimap2 for generating alignment. Any other whole genome alignment tool can also be used.
1.全基因组序列比对
minimap2 -ax asm5 --eqx refgenome qrygenome > out.sam

2.基于比对结果检测结构变异
python3 $PATH_TO_SYRI -c out.sam -r refgenome -q qrygenome -k -F S
# or
samtools view -b out.sam > out.bam
python3 $PATH_TO_SYRI -c out.bam -r refgenome -q qrygenome -k -F B

3.结构变异检测结果绘图
python3 $PATH_TO_PLOTSR syri.out refgenome qrygenome -H 8 -W 5

3.3 结果文件

syri.out #检测序列变异的文本信息
syri.vcf #检测序列vcf
syri.summary #变异类型统计文件
syri.pdf #输出图

syri.out
顺序依次为:参考染色体/起始位置/结束位点/参考位点/等位位点/比对染色体(query)/起始位点(query)/结束位点(query)/类型+顺序(ref)/类型+顺序(query)/注释类型/复制状态