2代数据矫正3代数据

一.Ratatosk

GitHub - DecodeGenetics/Ratatosk: Hybrid error correction of long reads using colored de Bruijn graphs
Ratatosk: hybrid error correction of long reads enables accurate variant calling and assembly | Genome Biology | Full Text

1.1 mamba安装

mamba install Ratatosk

1.2 使用 -- correct

重要提示：来自同一对的输入（短）读数必须具有相同的名称。不允许使用 /1 或 /2 后缀。

## 矫正示例
Ratatosk correct -v  -c 16 -s  2dai/bowtie/map_pair_hits.1.fq   2dai/bowtie/map_pair_hits.2.fq -l map_gene.fa -o out_long_reads && seqtk seq -a out_long_reads.fastq > out_long_reads.fa

1.2.1正常参数

必需参数（带参数）

选项	描述
`-s`, `--in-short`	输入短读数文件（FASTA/FASTQ，支持 `.gz`）
	或短读数文件列表（每行一个文件）
`-l`, `--in-long`	输入待纠错的长读数文件（FASTA/FASTQ，支持 `.gz`）
	或长读数文件列表（每行一个文件）
`-o`, `--out-long`	输出纠错后的长读数文件

可选参数（带参数）

选项	描述
`-c`, `--cores`	使用的核心数（默认：1）
`-S`, `--subsampling`	短读数子采样率（默认：自动）
`-t`, `--trim-split`	修剪并分割质量分数 < t 的碱基（默认：不修剪/分割）
	如果使用，只输出长度 >= 63 的子读数
`-u`, `--in-unmapped-short`	输入未映射的短读数文件（FASTA/FASTQ，支持 `.gz`）
	或未映射短读数文件列表（每行一个文件）
`-a`, `--in-accurate-long`	输入高质量长读数文件（FASTA/FASTQ，支持 `.gz`）
	或高质量长读数文件列表（每行一个文件）
	（这些读数不会被纠正，但会协助输入读数的纠正）
`-g`, `--in-graph`	加载使用 `index` 命令准备的图文件
`-d`, `--in-unitig-data`	加载使用 `index` 命令准备的 unitig 数据文件
`-Q`, `--max-base-qual`	输入长读数的最大碱基质量（默认：40）

可选参数（无参数）

选项	描述
`-G`, `--gzip-out`	输出文件使用 gzip 压缩
`-O`, `--force-io-order`	强制保持长读数输入/输出顺序
`-v`, `--verbose`	打印信息

1.2.2高级参数

可选参数（带参数）

选项	描述
`-m`, `--min-conf-snp-corr`	纠正 SNP 的最小置信度阈值（默认：0.9）
`-M`, `--min-conf-color2`	第二遍着色顶点的最小置信度阈值（默认：0）
`-C`, `--min-len-color2`	第二遍着色顶点的长读数最小长度（默认：3000）
`-i`, `--insert-sz`	输入配对端短读数的插入大小（默认：500）
`-k`, `--k1`	第一遍短 k-mer 的长度（默认：31）
`-K`, `--k2`	第二遍长 k-mer 的长度（默认：63）
`-w`, `--max-len-weak1`	第一遍不纠正非固态区域 >= w 碱基（默认：1000）
`-W`, `--max-len-weak2`	第二遍不纠正非固态区域 >= w 碱基（默认：5000）

可选参数（无参数）

选项	描述
`-1`, `--1st-pass-only`	仅执行第一遍纠正（默认：false）
`-2`, `--2nd-pass-only`	仅执行第二遍纠正（默认：false）
`-F`, `--no-snp-correction`	禁用 SNP 检测和纠正
`-I`, `--no-graph-index`	禁用图索引输出

1.2.3实验性参数

可选参数（带参数）

选项	描述
`-L`, `--in-long_raw`	输入来自第一遍的长读数文件（FASTA/FASTQ，支持 `.gz`）
	或长读数文件列表（每行一个文件）
`-p`, `--in-short-phase`	输入短读数相位文件（仅适用于二倍体）
	或短读数相位文件列表（每行一个文件）
`-P`, `--in-long-phase`	输入长读数相位文件（仅适用于二倍体）
	或长读数相位文件列表（每行一个文件）