一.Ratatosk
GitHub - DecodeGenetics/Ratatosk: Hybrid error correction of long reads using colored de Bruijn graphs
Ratatosk: hybrid error correction of long reads enables accurate variant calling and assembly | Genome Biology | Full Text
1.1 mamba安装
mamba install Ratatosk
1.2 使用 -- correct
重要提示:来自同一对的输入(短)读数必须具有相同的名称。不允许使用 /1
或 /2
后缀。
## 矫正示例
Ratatosk correct -v -c 16 -s 2dai/bowtie/map_pair_hits.1.fq 2dai/bowtie/map_pair_hits.2.fq -l map_gene.fa -o out_long_reads && seqtk seq -a out_long_reads.fastq > out_long_reads.fa
1.2.1正常参数
必需参数(带参数)
选项 |
描述 |
-s , --in-short |
输入短读数文件(FASTA/FASTQ,支持 .gz ) |
|
或短读数文件列表(每行一个文件) |
-l , --in-long |
输入待纠错的长读数文件(FASTA/FASTQ,支持 .gz ) |
|
或长读数文件列表(每行一个文件) |
-o , --out-long |
输出纠错后的长读数文件 |
可选参数(带参数)
选项 |
描述 |
-c , --cores |
使用的核心数(默认:1) |
-S , --subsampling |
短读数子采样率(默认:自动) |
-t , --trim-split |
修剪并分割质量分数 < t 的碱基(默认:不修剪/分割) |
|
如果使用,只输出长度 >= 63 的子读数 |
-u , --in-unmapped-short |
输入未映射的短读数文件(FASTA/FASTQ,支持 .gz ) |
|
或未映射短读数文件列表(每行一个文件) |
-a , --in-accurate-long |
输入高质量长读数文件(FASTA/FASTQ,支持 .gz ) |
|
或高质量长读数文件列表(每行一个文件) |
|
(这些读数不会被纠正,但会协助输入读数的纠正) |
-g , --in-graph |
加载使用 index 命令准备的图文件 |
-d , --in-unitig-data |
加载使用 index 命令准备的 unitig 数据文件 |
-Q , --max-base-qual |
输入长读数的最大碱基质量(默认:40) |
可选参数(无参数)
选项 |
描述 |
-G , --gzip-out |
输出文件使用 gzip 压缩 |
-O , --force-io-order |
强制保持长读数输入/输出顺序 |
-v , --verbose |
打印信息 |
1.2.2高级参数
可选参数(带参数)
选项 |
描述 |
-m , --min-conf-snp-corr |
纠正 SNP 的最小置信度阈值(默认:0.9) |
-M , --min-conf-color2 |
第二遍着色顶点的最小置信度阈值(默认:0) |
-C , --min-len-color2 |
第二遍着色顶点的长读数最小长度(默认:3000) |
-i , --insert-sz |
输入配对端短读数的插入大小(默认:500) |
-k , --k1 |
第一遍短 k-mer 的长度(默认:31) |
-K , --k2 |
第二遍长 k-mer 的长度(默认:63) |
-w , --max-len-weak1 |
第一遍不纠正非固态区域 >= w 碱基(默认:1000) |
-W , --max-len-weak2 |
第二遍不纠正非固态区域 >= w 碱基(默认:5000) |
可选参数(无参数)
选项 |
描述 |
-1 , --1st-pass-only |
仅执行第一遍纠正(默认:false) |
-2 , --2nd-pass-only |
仅执行第二遍纠正(默认:false) |
-F , --no-snp-correction |
禁用 SNP 检测和纠正 |
-I , --no-graph-index |
禁用图索引输出 |
1.2.3实验性参数
可选参数(带参数)
选项 |
描述 |
-L , --in-long_raw |
输入来自第一遍的长读数文件(FASTA/FASTQ,支持 .gz ) |
|
或长读数文件列表(每行一个文件) |
-p , --in-short-phase |
输入短读数相位文件(仅适用于二倍体) |
|
或短读数相位文件列表(每行一个文件) |
-P , --in-long-phase |
输入长读数相位文件(仅适用于二倍体) |
|
或长读数相位文件列表(每行一个文件) |