不同测序数据应用与基因组组装|Canu
介绍
Canu专门组装PacBio或Oxford Nanopore序列。Canu分为三个阶段:校正、修整和装配。校正阶段将提高读取中基数的准确性。微调阶段将微调显示为高质量序列的部分的读取,删除可疑区域,如剩余的SMRTbell适配器。组装阶段将把读取排序为重叠,生成一致序列,并创建备用路径图。
输入序列可以是FASTA或FASTQ格式,未压缩或用gzip(.gz)、bzip2(.bz2)或xz(.xz)压缩。请注意,不支持zip文件(.zip)。
官方测试数据下载
下面包括了pacbio、Nanopore以及Pacbio HIFI的测试数据集
12345678910111213#Pacific Biosciences released P6-C4 chemistry reads for Escherichia coli K12. curl -L -o pacbio.fastq http://gembox.cbcb.umd.edu/mhap/raw/ecoli_p6_25x.filtered.fastq#Oxford Nanopore样本数据(Escherichia coli K12 ...
HiFi全基因组测序技术与实例|HiFi基因组组装软件推荐
HIFI技术的简介
HiFi reads(High fidelity reads)
是Sequel II 三代测序平台推出的兼顾长读长和高准确度的测序序列,一般采用CCS(Circular Consensus Sequencing)模式测序。在这种测序模式下,酶读长一般大于插入片段长度,因此酶会绕着模板进行滚环测序,插入片段会被多次测序。单次测序中造成的随机测序错误,可以通过算法进行自我纠错校正,最终得到高准确度的HiFi reads。
要在单次测序中得到更多的HiFi reads往往需要平衡测序的酶读长和插入片段的长度,插入片段太长会导致酶无法进行滚环测序,插入片段太短又牺牲了三代长读长测序的优势。因此HiFi模式测序对酶试剂和建库过程的均一性要求较高。
HiFi建库流程
PacBio SMRT测序原理
聚合酶捕获文库DNA序列,锚定在零模波导孔底部
4种不同荧光标记的dNTP随机进入零模波导孔底部
荧光dNTP被激光照射,发出荧光,检测荧光
荧光dNTP与DNA模板的碱基匹配,在酶的作用下合成一个碱基
统计荧光信号存在时间长短,区分匹配碱基与游离碱基,获得DNA序列
酶反应过 ...
转录组分析流程|基于salmon转录组批量定量流程(三)
TransDecoder那一步最终得到了*.cds序列,之后就需要用到salmon进行下面操作
salmon介绍
Salmon是不基于比对计数而直接对基因进行定量的工具,适用于转录组、宏基因组等的分析。Salmon通过许多不同的创新来提高其准确性和速度,包括使用选择性比对(传统读取比对中的准确但快速计算的代理)以及大规模并行的随机折叠变分推理。
其优势是:
定量时考虑到不同样品中基因长度的改变(比如不同isoform的使用)
速度快、需要的计算资源和存储资源小
敏感性高,不会丢弃匹配到多个基因同源区域的reads
可以直接校正GC-bias
自动判断文库类型
使用Salmon
salmon有两种“操作模式”。首先,要求您为转录组建立索引,但随后需要直接处理读取。第二种模式仅要求您提供转录组的FASTA文件和包含一组比对的.sam或.bam
准备转录组索引(mapping-based mode)
生成decoy-aware transcriptome的方法有两种:
第一种方法是通过将你想要索引的注释转录本映射到生物体基因组的hard-masked version来计算一组诱 ...
转录组分析流程|TransDecoder预测转录本的开放阅读框(二)
使用TransDecoder预测CDS
TransDecoder按照其官网的说明,主要用于识别转录本序列中的潜在的编码区域,也就是预测CDS。转录本可以由RNA-Seq数据通过Trinity组装来的,也可以由RNA-Seq比对到参考基因组上构建的转录本。
最新版本的TransDecoder可在此处找到。
TransDecoder识别可能的编码区域是基于以下几个标准:
a minimum length open reading frame (ORF) is found in a transcript sequence
a log-likelihood score similar to what is computed by the GeneID software is > 0
the above coding score is greatest when the ORF is scored in the 1st reading frame as compared to scores in the other 5 reading frames
if a candidate ORF ...
转录组分析流程|数据处理与De novo组装(一)
定义
转录组(transcriptome)广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。
RNA-Seq (RNA-sequencing)也称为转录组测序,是最新发展起来的利用新一代测序技术进行转录组分析的技术,可以全面快速地获得特定细胞或组织在某一状态下几乎所有转录本的序列信息和表达信息,包括编码蛋白质的mRNA和各种非编码RNA,基因选择性剪接产生的不同转录本的表达丰度等。在分析转录本的结构和表达水平的同时,还发现未知转录本和稀有转录本,从而准确地分析基因表达差异、基因结构变异、筛选分子标记等生命科学的重要问题。
组装软件及用法
数据矫正
使用rcorrector软件对数据进行矫正,输入run_rcorrector.pl弹出使用说明
12345678910111213141516171819202122$ run_rcorrector.plUsage: perl ./run_rcorrector.pl [OPTIONS]OPTIONS:Required parameters: -s seq_fi ...
物种内共线性分析——思路以及踩坑总结(二)
物种内共线性分析(MCScanX+BLAST+TBtools)
数据要求:做物种内共线性分析的话主要需要的是
全基因组序列、cds或pep序列、gff3/gtf序列三者缺一不可。
上一节下载好了cds序列以及gff3序列文件,以此为例
(数据可在Phyzome下载,也可以在服务器上在线下载)
软件要求:MCScanX、blast、TBtools(JCVI)
物种内blast
物种内blast 使用cds或pep序列进行自我比对,结果*.blast格式得到此结果(这一步耗时最长,可以使用TBtools一键完成,有服务器的同学可以使用服务器运行)
blast构建索引 | makeblastdb
12makeblastdb -in Zmarina_324_v2.2.cds.fa -dbtype nucl -out Zmarina.db
参数说明:
-in 后接输入文件,你要格式化的fasta序列
-dbtype 后接序列类型,nucl为核酸,prot为蛋白
-out 后接数据库名,自定义,后续blast+要用到的-db的参数
-logfile 日志文件,如果没有默认输出到屏幕
比对核酸数 ...
物种内共线性分析——JCVI安装以及数据下载(一)
物种内共线性分析步骤——JCVI安装以及数据下载(一)
安装
最简单的方法是通过PyPI安装它:
1234pip install jcvi#或者安装开发版本pip install git+git://github.com/tanghaibao/jcvi.git
或者,如果要手动安装:
12git clone git://github.com/tanghaibao/jcvi.gitpip install -e .
还有一些依赖包安装方法移步官网
数据下载
接下来重点说一下安装完成之后的使用,
1、下载测试数据
下载数据可以从Phytozome官方直接下载,
当然也有另外一种方法就是直接在服务器操作下载,相比而言第二种省去了下载上传的时间,可以直接放到后台运行:
1234python -m jcvi.apps.fetch phytozome#输入第一行命令之后会弹出,只需输入自己注册过的Phyzome账号密码即可Phytozome Login: xxxxxxxxPhytozome Password:
如果没有登录名,在此处注册一个。
登录成功之后会自动弹出
1234567891011121 ...
Markdown使用教程|入门指南
导语
这是我的第一篇文章,写博客主要目的是把自己所学到的知识整理归纳起来,自己每次总结的过程也是不断学习重复巩固的过程,因为博文的编写需要用到Markdown所以下面先介绍一下具体的使用方法
Markdown是一种轻量级标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成有效的XHTML(或者HTML)文档。这种语言吸收了很多在电子邮件中已有的纯文本标记的特性。
由于Markdown的轻量化、易读易写特性,并且对于图片,图表、数学式都有支持,目前许多网站都广泛使用Markdown来撰写帮助文档或是用于论坛上发表消息。如GitHub、Reddit、Diaspora、StackExchange、OpenStreetMap、SourceForge、简书等,甚至还能被使用来撰写电子书。
标题
要设置为标题的文字前面加#来表示
一个#是一级标题,二个#是二级标题,以此类推。支持六级标题。
注:标准语法一般在#后跟个空格再写文字
示例:
123456# 一级标题## 二级标题### 三级标题#### 四级标题##### 五级标题###### 六级标题
效果如下:
一级标题
二级标题
三 ...