2代数据矫正3代数据

一.Ratatosk

GitHub - DecodeGenetics/Ratatosk: Hybrid error correction of long reads using colored de Bruijn graphs
Ratatosk: hybrid error correction of long reads enables accurate variant calling and assembly | Genome Biology | Full Text

1.1 mamba安装

mamba install Ratatosk

1.2 使用 -- correct

重要提示:来自同一对的输入(短)读数必须具有相同的名称。不允许使用 /1/2 后缀。

## 矫正示例
Ratatosk correct -v  -c 16 -s  2dai/bowtie/map_pair_hits.1.fq   2dai/bowtie/map_pair_hits.2.fq -l map_gene.fa -o out_long_reads && seqtk seq -a out_long_reads.fastq > out_long_reads.fa

1.2.1正常参数

必需参数(带参数)

选项 描述
-s, --in-short 输入短读数文件(FASTA/FASTQ,支持 .gz
或短读数文件列表(每行一个文件)
-l, --in-long 输入待纠错的长读数文件(FASTA/FASTQ,支持 .gz
或长读数文件列表(每行一个文件)
-o, --out-long 输出纠错后的长读数文件

可选参数(带参数)

选项 描述
-c, --cores 使用的核心数(默认:1)
-S, --subsampling 短读数子采样率(默认:自动)
-t, --trim-split 修剪并分割质量分数 < t 的碱基(默认:不修剪/分割)
如果使用,只输出长度 >= 63 的子读数
-u, --in-unmapped-short 输入未映射的短读数文件(FASTA/FASTQ,支持 .gz
或未映射短读数文件列表(每行一个文件)
-a, --in-accurate-long 输入高质量长读数文件(FASTA/FASTQ,支持 .gz
或高质量长读数文件列表(每行一个文件)
(这些读数不会被纠正,但会协助输入读数的纠正)
-g, --in-graph 加载使用 index 命令准备的图文件
-d, --in-unitig-data 加载使用 index 命令准备的 unitig 数据文件
-Q, --max-base-qual 输入长读数的最大碱基质量(默认:40)

可选参数(无参数)

选项 描述
-G, --gzip-out 输出文件使用 gzip 压缩
-O, --force-io-order 强制保持长读数输入/输出顺序
-v, --verbose 打印信息

1.2.2高级参数

可选参数(带参数)

选项 描述
-m, --min-conf-snp-corr 纠正 SNP 的最小置信度阈值(默认:0.9)
-M, --min-conf-color2 第二遍着色顶点的最小置信度阈值(默认:0)
-C, --min-len-color2 第二遍着色顶点的长读数最小长度(默认:3000)
-i, --insert-sz 输入配对端短读数的插入大小(默认:500)
-k, --k1 第一遍短 k-mer 的长度(默认:31)
-K, --k2 第二遍长 k-mer 的长度(默认:63)
-w, --max-len-weak1 第一遍不纠正非固态区域 >= w 碱基(默认:1000)
-W, --max-len-weak2 第二遍不纠正非固态区域 >= w 碱基(默认:5000)

可选参数(无参数)

选项 描述
-1, --1st-pass-only 仅执行第一遍纠正(默认:false)
-2, --2nd-pass-only 仅执行第二遍纠正(默认:false)
-F, --no-snp-correction 禁用 SNP 检测和纠正
-I, --no-graph-index 禁用图索引输出

1.2.3实验性参数

可选参数(带参数)

选项 描述
-L, --in-long_raw 输入来自第一遍的长读数文件(FASTA/FASTQ,支持 .gz
或长读数文件列表(每行一个文件)
-p, --in-short-phase 输入短读数相位文件(仅适用于二倍体)
或短读数相位文件列表(每行一个文件)
-P, --in-long-phase 输入长读数相位文件(仅适用于二倍体)
或长读数相位文件列表(每行一个文件)