转录组分析流程|数据处理与De novo组装(一)
定义
转录组(transcriptome)广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。
RNA-Seq (RNA-sequencing)也称为转录组测序,是最新发展起来的利用新一代测序技术进行转录组分析的技术,可以全面快速地获得特定细胞或组织在某一状态下几乎所有转录本的序列信息和表达信息,包括编码蛋白质的mRNA和各种非编码RNA,基因选择性剪接产生的不同转录本的表达丰度等。在分析转录本的结构和表达水平的同时,还发现未知转录本和稀有转录本,从而准确地分析基因表达差异、基因结构变异、筛选分子标记等生命科学的重要问题。
组装软件及用法
数据矫正
使用rcorrector
软件对数据进行矫正,输入run_rcorrector.pl
弹出使用说明
1 | $ run_rcorrector.pl |
上面说的很详细,下面在介绍几个常用到的命令
1 | -s seq_files:单端测序的文件选择-s命令 |
当然如果你只有一对数据的话可以单独进行操作,但是当你的转录组数据有很多时,这里推荐进行批量处理,具体的操作如下:
1 | cat 文件名称 | while read f; do run_rcorrector.pl -t 12 -p ${f}"_1.fq.gz" ${f}"_2.fq.gz"; done |
cat+自己创建的文件名,如果你的序列为
1 | ABC_1.fq.gz,ABC_2.fq.gz; |
其中文件的格式应该为
1 | ABC |
这里如果你的数据是_1.fq.gz以及_2.fq.gz则不需要修改,但是如果后缀和这里不一致,就修改成你自己数据的名称后缀
(注意,处理的所有数据的后缀名应保持一致)
跑完之后会在原有的*.fq.gz
生成 *.cor.fq.gz
去接头和低质量序列
去接头一般是需要去除掉测序时多余的接头,这一步的话如果测序数据下来之后已经做过了就可以选择可做可不做,说一下具体操作步骤
这里用到的软件为Trimmomatic
软件安装方法:
1、直接进入Trimmomatic官方下载
2、conda install -c bioconda trimmomatic
下载Illumina双端接头序列
1 | curl -O -L http://dib-training.ucdavis.edu.s3.amazonaws.com/mRNAseq-semi-2015-03-04/TruSeq2-PE.fa |
或者从官网下载的话自带有一般在adapter文件夹里 ~/Trimmomatic-0.39/adapters
1 | $ trimmomatic |
单端测序
trimmomatic SE -phred33 input.fq.gz output.fq.gz ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
双端测序
trimmomatic PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
或者将trimmomatic
改为java -jar trimmomatic-0.35.jar
运行
常用参数:
-threads 线程数
-trimlog 生成日志名,log文件较多建议不开启
-quiet 静默模式
修整步骤:
ILLUMINACLIP:从reads中剪切adapter和其他Illumina特定序列。
SLIDINGWINDOW:执行滑动窗口修剪,一旦窗口内的平均质量低于阈值,则切割。
LEADING:如果低于阈值质量,则在reads起始处剪切碱基
TRAILING:如果低于阈值质量,则在reads末尾处剪切碱基
CROP:将reads从末尾切割为指定长度
HEADCROP:从reads剪切后低于指定长度,则删除
MINLEN:如果reads低于指定长度,则删除
TOPHRED33:将质量得分转换为Phred-33
TOPHRED64:将质量得分转换为Phred-64
若数据有很多对转录组,建议批量操作
1 | cat 文件名 | while read f; do time java -jar /home/你的路径/software/Trimmomatic-0.39/trimmomatic-0.39.jar PE -threads 20 -phred33 ${f}"_1.cor.fq.gz" ${f}"_2.cor.fq.gz" ${f}"_1.cor.p.fq.gz" ${f}"_1.cor.u.fq.gz" ${f}"_2.cor.p.fq.gz" ${f}"_2.cor.u.fq.gz" ILLUMINACLIP:/home/lixingze/software/Trimmomatic-0.39/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:4:15 LEADING:5 TRAILING:4 MINLEN:80; done |
${f}"_1.cor.fq.gz" ${f}"_2.cor.fq.gz"
为输入的文件
${f}"_1.cor.p.fq.gz" ${f}"_1.cor.u.fq.gz" ${f}"_2.cor.p.fq.gz" ${f}"_2.cor.u.fq.gz"
为输出的文件
后缀一致,将名称放入文件中 cat 文件
即可,和上面形式一致。
转录组De novo组装
用Trinity
进行转录组组装
Trinity
包括三个模块,能处理大型的RNA数据
Inchworn: 将RNA-seq数据组装成单个转录本,通常是主要转录亚型的全长转录本
Chrysalis: 这一步将上一步得到contig进行聚类,对于每个聚类构建完整的德布罗意图(de Bruijin graph)每个转录本表示的是给定基因或者一组有着共同序列的基因的全部转录组成。 之后会根据图中不相交的点对全部短读数据进行拆分
Butterfly: 并行处理各个图(graph), 追踪每个图中的短读和配对短读的路径,最后报告可变剪切亚型的全长转录本,并且区分出旁系同源基因的转录本
安装方法
1、conda install -c bioconda trinity
2、trinity官网
因为trinity需要的依赖包很多,这里建议用conda
安装,目前最新版本为Trinity-v2.11.0
操作步骤
安装成功后输入Trinity
弹出如下
1 | $ Trinity |
上面给的信息很详细运行只需要下面一条命令,接下来就是等待结果~
几个常用命令介绍
Trinity --seqType fq --samples_file 文件名称 --CPU 20 --max_memory 70G --output 输出文件夹
1 | Trinity |
查看trinity的完整的全部参数 Trinity --show_full_usage_info
数据解读
组装完成之后会在输出文件夹中输出一个Trinity.fasta
这个就是最终组装结果!
1 | >TRINITY_DN59_c0_g1_i10 len=4860 path=[0:0-614 2:615-757 4:758-815 5:816-882 7:883-919 9:920-1052 10:1053-1080 11:1081-1408 13:1409-1434 15:1435-1614 16:1615-1638 18:1639-1773 20:1774-1960 22:1961-2333 24:2334-2374 26:2375-2404 27:2405-2991 29:2992-4149 30:4150-4212 32:4213-4318 33:4319-4526 34:4527-4559 36:4560-4859] |
其中TRINITY_DN59_c0
是Trinity聚类编号,g1
是基因编号,i10
是转录组亚型编号
转录组后续分析
组装完成之后,就需要对其进行注释等后续操作,将会在下一篇中提到。
点击返回主页