参考:https://mp.weixin.qq.com/s/yBsUwsMSexxzt2erL_y21g
1. 安装
下载地址 http://opengene.org/fastp/fastp
使用 chmod a+x ./fastp 增加该文件的可执行权限,然后就可以使用了。
$ chmod 777 ./fastp
也可以从源代码进行编译,下载地址 https://github.com/OpenGene/fastp.git
$ cd fastp
$ make
$ sudo make install
2. 运行
$ fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz -q 20 -u 30 -l 75 -3 -W 4 -M 25 -w 24
或
$ fastp -i 1.fq.gz -I 2.fq.gz -o out.1.fq.gz -O out.2.fq.gz -t 2 -T 2 -q 25 -u 20 -l 75 -3 -W 4 -M 30 -w 8
-i: read1 的输入
-o: read1 的输出
-I: read2的输入
-O: read2的输出
-q 15 -u 40: 表示一个 read 最多只能有 40%的碱基的质量值低于Q15,否则会被扔掉
-l: 指定最低要求一个 read 有多长
-3: read末尾滑动窗的剪裁
-W: 4 指定滑动窗大小
-M: 25 滑动窗平均质量值
-f: read1 头部的剪裁碱基数
-t: read1 尾部的剪裁碱基数
-F: read2 头部的剪裁碱基数
-T: read2 尾部的剪裁碱基数
-w: CPU线程数
注:fastp 可以自动化地查找接头序列并进行剪裁,也就是说你可以不输入任何的接头序列,fastp 全自动搞定了!
数据量足够时,条件控制严格点,得到的结果有差别,严格控制得到的转录本比宽松控制得到的转录本要少很多(24万vs30万,unigene 15万vs20万)。