10415青虾项目
GP-20250220-10415上海海洋大学100份样本重测序+线粒体测序分析-动物线粒体 | GP-20240716-8768-2上海海洋大学2份样品线粒体测序分析 | GP-20240716-8768(加送3-建库2)上海海洋大学2份样品线粒体测序分析-加送3个样-建库2个 | GP-20240716-8768上海海洋大学2份样品线粒体测序分析 | GP-20231122-7377上海海洋大学1个动物线粒体基因组测序分析 | GP-20210809-3280上海海大24个 |
---|---|---|---|---|---|
Macrobrachium nipponense日本沼虾 | Macrobrachium meridionalis | Macrobrachium latidactylus | Macrobrachium mammillodactylum | Macrobrachium hainanense | Macrobrachium nipponense日本沼虾 |
Macrobrachium lanatum | Macrobrachium meridionalis | Macrobrachium lar | |||
Macrobrachium venustum | |||||
5个群体 | 8个群体取5个群体 |
一.线粒体部分
1.1 线粒体全基因组
1.1.1 单倍型网络
使用MAFFT v7.427软件(--auto模式)对115个(10415的100个+3280的15个)样品序列进行比对,
使用DnaSP v6(http://www.ub.edu/dnasp/) 载入比对结果并结合样品分组生成单倍型的nex文件,
使用PopART v1.7(https://popart.maths.otago.ac.nz/download/) 载入nex文件后绘制单倍型网络图。
1.1.2 单倍型序列构建进化树
上一步共鉴定出83个单倍型。
采用83个单倍型序列做进化树分析,物种间序列用MAFFT v7.427软件(--auto模式)进行多序列比对。
在贝叶斯信息准则下,使用jModelTest v2.1.10寻找最优的核苷酸替代模型。
使用raxml-ng v1.2.2(https://github.com/amkozlov/raxml-ng) 软件,
选用GTR模型,1000次bootstrap重复分析,构建最大似然进化树。
1.2 线粒体共有cds构建进化树
从116个(3280的15个+10415的100个+7377的1个)gbk文件中提取13个蛋白编码基因并按基因名分组。
将每组CDS序列用MAFFT v7.427软件(--auto模式)进行多序列比对,
随后将比对好的CDS序列首尾相接(每个物种的CDS序列串联在一起)。
在贝叶斯信息准则下,使用jModelTest v2.1.10寻找最优的核苷酸替代模型。
最后用RAxML v8.2.10(https://cme.h-its.org/exelixis/software.html) 软件,选用GTR+I模型,rapid Bootstrap分析,bootstrap=1000,构建最大似然进化树。
二.核基因组部分
2.0 重测序分析部分
1.使用BWA v0.7.17对101个(10415的100个+7377的1个)样品测序数据与参考基因组进行比对。
2.变异检测过程如下:
(1) 对于BWA v0.7.17比对得到的结果,使用picard v2.21.2的Mark Duplicate工具去除重复,屏蔽PCR duplication的影响。
(2) 使用gatk v4.1.4.1进行InDel Realignment,即对存在插入缺失比对结果附近的位点进行局部重新比对(Local Realignment),校正由于插入缺失引起的比对结果错误。
(3)使用gatk v4.1.4.1进行碱基质量值再校准(Base Recalibration),对碱基的质量值进行校正。
(4)使用gatk v4.1.4.1进行变异检测(variant calling),主要包括SNP和InDel。
(5)使用gatk v4.1.4.1对得到的变异结果进行校正,选取可靠的变异结果。
获得初步的vcf文件。
2.1 28s进化树
使用bcftools v1.9 从检测到的snp(上述初步的vcf文件)中提取28s区间的snp,共126个位点用于后续建树分析。
使用vcf2phylip v2.0(https://github.com/edgardomortiz/vcf2phylip) 将snp位点转换为fasta格式的序列比对文件。
使用FastTreeMP v2.1.11(https://morgannprice.github.io/fasttree) 选用gtr模型来快速构建28s进化树。
2.2 核基因组进化树
为了减少后续分析数据量,使用vcftools v0.1.16对检测到的snp(上述初步的vcf文件)进行过滤,获取可信的变异位点,过滤标准如下:
(1) --minDP 30 变异位点深度大于30X;
(2) --max-missing 0.9 变异位点信息完整度≥90%;
(3) --minQ 50 变异位点质量值大于50;
(4) --minGQ 20 样本基因型质量大于20;
(5) --maf 0.05 次要等位基因频率(MAF)大于5%;
(6) --min-alleles 2 --max-alleles 2 仅保留双等位基因位点。
最后得到2561个位点用于后续建树分析。
使用vcf2phylip v2.0(https://github.com/edgardomortiz/vcf2phylip) 将snp位点转换为fasta格式的序列比对文件。
使用FastTreeMP v2.1.11(https://morgannprice.github.io/fasttree) 选用gtr模型来快速构建核基因组进化树。