WGDI 分析全基因组复制事件完整流程
简介
WGDI(全基因组重复识别),一种基于 Python 的命令行工具,可让研究人员深入了解递归多倍化并进行跨物种基因组比对分析。
安装
12345678910## 1.使用conda安装conda install -c bioconda wgdi## 2.使用pip安装pip install wgdi## 3.本地安装git clone https://github.com/SunPengChuan/wgdi.gitcd wgdipython setup.py install
依赖软件
PAML | MAFFT | MUSCLE | PAL2NAL | IQTREE
使用pip下载完成 需要配置文件目录
wgdi -conf /? >conf.ini
里面是默认的文件路径,如果不对应打开修改即可
再次输入 wgdi -conf conf.ini
就将配置环境导入到程序中了
分析
数据预处理
数据处理是很有必要的,如果格式不正确,后面的分析很有可能会报错,大家可以自行处理数据得到gff文件以及基因组len文件
下面提供wgdi作者以及写的处理脚本,具体脚本内容 ...
lrzsz(Linux服务器和Mac互传文件工具)
安装
Mac电脑安装
12345brew install lrzszwget https://hub.fastgit.org/aikuyun/iterm2-zmodem/blob/master/iterm2-recv-zmodem.sh -P /usr/local/binwget https://hub.fastgit.org/aikuyun/iterm2-zmodem/blob/master/iterm2-send-zmodem.sh -P /usr/local/binchmod 777 /usr/local/bin/*.sh #设置一下两个脚本的权限
在本地/usr/local/bin/目录下保存iterm2-send-zmodem.sh 和iterm2-recv-zmodem.sh两个脚本
设置Iterm2的Tirgger特性
Mac电脑需要使用 iterm2 这个终端软件(https://iterm2.com/)
1. 打开偏好设置
2. 进入
profiles->default->editProfiles->Advanced中的Tirgger
3. ...
JGI Phytozome 批量下载的几种方法
方法一
登陆账号
123curl 'https://signon.jgi.doe.gov/signon/create' --data-urlencode 'login=*****' --data-urlencode 'password=*****' -c cookies > /dev/null# ****处修改为账号与密码
下载所有文件的列表
1curl 'https://genome.jgi.doe.gov/portal/ext-api/downloads/get-directory?organism=PhytozomeV12' -b cookies > files.xml
1https://genome.jgi.doe.gov
下载文件
files.xml文件里记录每个文件的大小、存放路径、md5、类型等
比如下面记录的是拟南芥的cds序列文件,其中的url=" “中的内容提取出来,”&“替换为”&",前面加上网站https://genome.jgi.doe.gov,用curl下载(记得指定cookie文件)。
1<file label=“Ph ...
ALLHIC使用 | HiC辅助基因组组装(三)
安装
12345git clone https://github.com/tangerzhang/ALLHiCcd ALLHiCchmod +x bin/*chmod +x scripts/* export PATH=/your/path/to/ALLHiC/scripts/:/your/path/to/ALLHiC/bin/:$PATH
依赖软件
samtools v1.9+
bedtools
matplotlib v2.0+
写在前面
ALLHIC官网提供了很详尽的内容,以及完整的pipeline,所以这里我主要是用来理清楚其整体思路,记录一下。
建议使用软件务必参照官网
官网链接手册
整体流程
ALLHiC一共分为五步:pruning, partition, rescue, optimization, building
prune 步骤去除了等位基因之间的联系,因此同源染色体更易于单独分离。
partition 功能将修剪的bam文件作为输入,并根据Hi-C建议的链接对链接的contigs进行聚类,大概是沿着相同同源染色体在预设数量的分区中进行。
rescue ...
3d-DNA的使用及juicebox调整挂载到染色体水平 | HiC辅助基因组组装(二)
定义
之前的文章中有介绍过,HiC常用的几款软件的原理内容。可以点击链接访问了解一下
在这里不做赘述。
软件安装
3d-DNA
1234567891011$ git clone https://hub.fastgit.org/aidenlab/3d-dna.git$ cd 3d-dna$ chmod 755 run-asm-pipeline.sh$ chmod 755 run-asm-pipeline-post-review.shor#github安装(2021年7月18日-目前的最新版本)$ wget https://github.com/aidenlab/3d-dna/archive/refs/tags/201008.tar.gz$ tar zxvf 201008.tar.gz
Juicer
123456git clone https://github.com/theaidenlab/juicer.gitcd juicerln -s CPU scriptscd scripts/commonwget https://hicfiles.tc4ga.com/public/juicer/ ...
HiC-Pro的使用 | HiC辅助基因组组装(一)
定义
之前的文章中有介绍过,HiC常用的几款软件的原理内容。可以点击链接访问了解一下
在这里不做赘述。
软件安装
新版本
建议使用目前最新的3.0.0版本(需要root权限)
安装方法如下:
123456789101112# 创建conda环境conda create -y -n hic-pro python=3.7 pysam bx-python numpy scipy samtools bowtie2 iced# 下载HiC-Pro最新版本wget https://hub.fastgit.org/nservant/HiC-Pro/archive/refs/tags/v3.0.0.tar.gztar zxf v3.0.0.tar.gzcd HiC-Pro-3.0.0/# 需要root权限sudo make install
旧版本
如果新版本不适应可以使用旧版本
1conda install -c davebx hicpro
其他安装方法参考官方
软件操作流程
数据准备
将Hi-C数据放入对应以样品名命名的目录下。
(注意文件夹名、_R1.fastq.gz._R2.fastq.g ...
Linux三剑客grep、sed、awk的使用
Linux正则表达式
正则表达式:Regual Expression, REGEXP
由一类特殊字符及文本字符所编写的模式,其中有些字符不表示其字面意义,而是用于表示控制或通配的功能;
分两类:
基本正则表达式:BRE
扩展正则表达式:ERE
正则表达式的意义
处理大量的字符串
处理文本
通过特殊符号的辅助,可以让linux管理员快速过滤、替换、处理所需要的字符串、文本,让工作高效。
通常Linux运维工作,都是面临大量带有字符串的内容,如:
配置文件
程序代码
命令输出结果
日志文件
且此类字符串内容,我们常会有特定的需要,查找出符合工作需要的特定的字符串,因此正则表达式就出现了
正则表达式是一套规则和方法
正则工作时以单位进行,一次处理一行
正则表达式化繁为简,提高工作效率
linux仅受三剑客(sed、awk、grep)支持,其他命令无法使用
正则表达式应用非常广泛,应用在如Python、Java、Perl等,Linux下普通命令无法使用正则表达式的,只能使用三剑客。
Linux三剑客
文本处理工具,均支持正则表达式引擎
grep:文本过滤工具,(模式:patter ...
Hi-C辅助基因组组装原理|主流软件
导语
Hi-C是高通量染色体构象捕获(High-throughput Chromosome Conformation Capture, Hi-C)技术的简称,开发于2009年,最初用于捕获全基因组范围内所有的染色质内和染色质间的空间互作信息,目前已应用于基因表达的空间调控机制研究、构建染色体水平参考基因组、构建单体型图谱等。
Hi-C技术源于染色体构象捕获(Chromosome Conformation Capture, 3C)技术,利用高通量测序技术,结合生物信息分析方法,研究全基因组范围内整个染色质DNA在空间位置上的关系,获得高分辨率的染色质三维结构信息。Hi-C技术不仅可以研究染色体片段之间的相互作用,建立基因组折叠模型,还可以应用于基因组组装、单体型图谱构建、辅助宏基因组组装等,并可以与RNA-Seq、ChIP-Seq等数据进行联合分析,从基因调控网络和表观遗传网络来阐述生物体性状形成的相关机制。
3C,4C,5C以及HiC测序技术
3C
染色质构象捕获(3C)技术是用福尔马林瞬时固定细胞核染色质,用过量的限制性内切酶酶切消化染色质 - 蛋白质交联物,在 DNA ...
如何进行基因组注释
定义
基因组注释:是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。
基因组注释:即在一条DNA序列上,通过从头、同源、结构定义等多种方法,搜寻并定义基因组原件,得到其位置、序列、结构、功能等信息。
基因组注释流程图
基因组注释前期准备
物种拉丁名,例如:Orazy sativa,基因id:Osa000001
同源物种: 一般选5个左右物种,需要有注释的基因/蛋白序列,保证高组装和注释质量
转库组数据: RNAseq和lsoseq注释(用于结构注释中的转录辅助注释)(建议自测同样本的数据)
基因组注释的分析内容
]
重复注释
重复序列广泛存在于真核生物基因组中,这些重复序列或集中成簇,或分散在基因之间。根据分布把重复序列分为散在重复序列和串联重复序列。
重复序列根据序列特征分为2类:串联重复(Tandem repeats)和散布重复(Dispersed repeats)
RepeatMasker:基于Repbase(dna)/自建elibrary查询重复序列
123RepeatMasker -nolow -no_is -n ...
利用HIFI测序数据进行基因组组装|hifiasm
目前用于Pacbio HIFI测序数据的组装软件主流上有:FALCON、Hifiasm、Hicanu三款。
Hifiasm的使用
介绍
Hifiasm是用于PacBio Hifi读取的快速单倍型解析的从头汇编程序。它可以在几个小时内组装一个人类基因组,并与加利福尼亚红木基因组(迄今为止测序最复杂的基因组之一)一起工作。Hifiasm可以生产质量最好的组装商的初级/替代组装。它还引入了新的图合并算法,并在给定三重数据的情况下实现了最佳的单倍型解析程序集。
软件安装
123456#使用conda安装conda install -c bioconda hifiasm#安装hifiasm(需要g++和zlib)git clone https://github.com/chhylp123/hifiasmcd hifiasm && make
格式转换
由于是bam格式需要转换为fasta格式
12345678910111213# bam --> fastasamtools view *.bam | awk '{print ">"$1"\n"$10}' > fas ...