生信技术 - Cease to struggle and you cease to live

发表于2021-09-06|更新于2021-09-06|比较基因组学|教程•WGD•WGDI

简介 WGDI（全基因组重复识别），一种基于 Python 的命令行工具，可让研究人员深入了解递归多倍化并进行跨物种基因组比对分析。安装 12345678910## 1.使用conda安装conda install -c bioconda wgdi## 2.使用pip安装pip install wgdi## 3.本地安装git clone https://github.com/SunPengChuan/wgdi.gitcd wgdipython setup.py install 依赖软件 PAML | MAFFT | MUSCLE | PAL2NAL | IQTREE 使用pip下载完成需要配置文件目录 wgdi -conf /？ >conf.ini 里面是默认的文件路径，如果不对应打开修改即可再次输入 wgdi -conf conf.ini 就将配置环境导入到程序中了分析数据预处理数据处理是很有必要的，如果格式不正确，后面的分析很有可能会报错，大家可以自行处理数据得到gff文件以及基因组len文件下面提供wgdi作者以及写的处理脚本,具体脚本内容 ...

lrzsz(Linux服务器和Mac互传文件工具)

发表于2021-08-31|更新于2021-08-31|Linux|教程

安装 Mac电脑安装 12345brew install lrzszwget https://hub.fastgit.org/aikuyun/iterm2-zmodem/blob/master/iterm2-recv-zmodem.sh -P /usr/local/binwget https://hub.fastgit.org/aikuyun/iterm2-zmodem/blob/master/iterm2-send-zmodem.sh -P /usr/local/binchmod 777 /usr/local/bin/*.sh #设置一下两个脚本的权限在本地/usr/local/bin/目录下保存iterm2-send-zmodem.sh 和iterm2-recv-zmodem.sh两个脚本设置Iterm2的Tirgger特性 Mac电脑需要使用 iterm2 这个终端软件(https://iterm2.com/) 1. 打开偏好设置 2. 进入 profiles->default->editProfiles->Advanced中的Tirgger 3. ...

JGI Phytozome 批量下载的几种方法

发表于2021-08-05|更新于2021-08-05|下载|Phytozome•JGI•下载

方法一登陆账号 123curl 'https://signon.jgi.doe.gov/signon/create' --data-urlencode 'login=*****' --data-urlencode 'password=*****' -c cookies > /dev/null# ****处修改为账号与密码下载所有文件的列表 1curl 'https://genome.jgi.doe.gov/portal/ext-api/downloads/get-directory?organism=PhytozomeV12' -b cookies > files.xml 1https://genome.jgi.doe.gov 下载文件 files.xml文件里记录每个文件的大小、存放路径、md5、类型等比如下面记录的是拟南芥的cds序列文件，其中的url=" “中的内容提取出来，”&“替换为”&"，前面加上网站https://genome.jgi.doe.gov，用curl下载（记得指定cookie文件）。 1<file label=“Ph ...

ALLHIC使用｜ HiC辅助基因组组装（三）

发表于2021-08-05|更新于2021-08-05|Hi-C|HiC•教程•ALLHIC

安装 12345git clone https://github.com/tangerzhang/ALLHiCcd ALLHiCchmod +x bin/*chmod +x scripts/* export PATH=/your/path/to/ALLHiC/scripts/:/your/path/to/ALLHiC/bin/:$PATH 依赖软件 samtools v1.9+ bedtools matplotlib v2.0+ 写在前面 ALLHIC官网提供了很详尽的内容，以及完整的pipeline，所以这里我主要是用来理清楚其整体思路，记录一下。建议使用软件务必参照官网官网链接手册整体流程 ALLHiC一共分为五步:pruning, partition, rescue, optimization, building prune 步骤去除了等位基因之间的联系，因此同源染色体更易于单独分离。 partition 功能将修剪的bam文件作为输入，并根据Hi-C建议的链接对链接的contigs进行聚类，大概是沿着相同同源染色体在预设数量的分区中进行。 rescue ...

3d-DNA的使用及juicebox调整挂载到染色体水平｜ HiC辅助基因组组装（二）

发表于2021-07-18|更新于2021-09-01|Hi-C|HiC•教程•ALLHIC•HiC-Pro

定义之前的文章中有介绍过，HiC常用的几款软件的原理内容。可以点击链接访问了解一下在这里不做赘述。软件安装 3d-DNA 1234567891011$ git clone https://hub.fastgit.org/aidenlab/3d-dna.git$ cd 3d-dna$ chmod 755 run-asm-pipeline.sh$ chmod 755 run-asm-pipeline-post-review.shor#github安装(2021年7月18日-目前的最新版本)$ wget https://github.com/aidenlab/3d-dna/archive/refs/tags/201008.tar.gz$ tar zxvf 201008.tar.gz Juicer 123456git clone https://github.com/theaidenlab/juicer.gitcd juicerln -s CPU scriptscd scripts/commonwget https://hicfiles.tc4ga.com/public/juicer/ ...

HiC-Pro的使用｜ HiC辅助基因组组装（一）

发表于2021-07-18|更新于2021-07-18|Hi-C|HiC•教程•HiC-Pro

定义之前的文章中有介绍过，HiC常用的几款软件的原理内容。可以点击链接访问了解一下在这里不做赘述。软件安装新版本建议使用目前最新的3.0.0版本（需要root权限）安装方法如下： 123456789101112# 创建conda环境conda create -y -n hic-pro python=3.7 pysam bx-python numpy scipy samtools bowtie2 iced# 下载HiC-Pro最新版本wget https://hub.fastgit.org/nservant/HiC-Pro/archive/refs/tags/v3.0.0.tar.gztar zxf v3.0.0.tar.gzcd HiC-Pro-3.0.0/# 需要root权限sudo make install 旧版本如果新版本不适应可以使用旧版本 1conda install -c davebx hicpro 其他安装方法参考官方软件操作流程数据准备将Hi-C数据放入对应以样品名命名的目录下。 (注意文件夹名、_R1.fastq.gz._R2.fastq.g ...

Linux三剑客grep、sed、awk的使用

发表于2021-04-22|更新于2021-04-22|Linux|教程•Linux•awk•grep•sed

Linux正则表达式正则表达式：Regual Expression, REGEXP 由一类特殊字符及文本字符所编写的模式，其中有些字符不表示其字面意义，而是用于表示控制或通配的功能；分两类：基本正则表达式：BRE 扩展正则表达式：ERE 正则表达式的意义处理大量的字符串处理文本通过特殊符号的辅助，可以让linux管理员快速过滤、替换、处理所需要的字符串、文本，让工作高效。通常Linux运维工作，都是面临大量带有字符串的内容，如：配置文件程序代码命令输出结果日志文件且此类字符串内容，我们常会有特定的需要，查找出符合工作需要的特定的字符串，因此正则表达式就出现了正则表达式是一套规则和方法正则工作时以单位进行，一次处理一行正则表达式化繁为简，提高工作效率 linux仅受三剑客（sed、awk、grep）支持，其他命令无法使用正则表达式应用非常广泛，应用在如Python、Java、Perl等，Linux下普通命令无法使用正则表达式的，只能使用三剑客。 Linux三剑客文本处理工具，均支持正则表达式引擎 grep：文本过滤工具，（模式：patter ...

Hi-C辅助基因组组装原理｜主流软件

发表于2021-04-03|更新于2021-04-03|Hi-C|教程•ALLHIC•HiC-Pro•Hi-C•LACHESIS

导语 Hi-C是高通量染色体构象捕获（High-throughput Chromosome Conformation Capture, Hi-C）技术的简称，开发于2009年，最初用于捕获全基因组范围内所有的染色质内和染色质间的空间互作信息，目前已应用于基因表达的空间调控机制研究、构建染色体水平参考基因组、构建单体型图谱等。 Hi-C技术源于染色体构象捕获（Chromosome Conformation Capture, 3C）技术，利用高通量测序技术，结合生物信息分析方法，研究全基因组范围内整个染色质DNA在空间位置上的关系，获得高分辨率的染色质三维结构信息。Hi-C技术不仅可以研究染色体片段之间的相互作用，建立基因组折叠模型，还可以应用于基因组组装、单体型图谱构建、辅助宏基因组组装等，并可以与RNA-Seq、ChIP-Seq等数据进行联合分析，从基因调控网络和表观遗传网络来阐述生物体性状形成的相关机制。 3C，4C，5C以及HiC测序技术 3C 染色质构象捕获（3C）技术是用福尔马林瞬时固定细胞核染色质，用过量的限制性内切酶酶切消化染色质 - 蛋白质交联物，在 DNA ...

如何进行基因组注释

发表于2021-02-08|更新于2021-03-24|基因组注释|教程•基因组注释

定义基因组注释：是利用生物信息学方法和工具，对基因组所有基因的生物学功能进行高通量注释，是当前功能基因组学研究的一个热点。基因组注释:即在一条DNA序列上，通过从头、同源、结构定义等多种方法，搜寻并定义基因组原件，得到其位置、序列、结构、功能等信息。基因组注释流程图基因组注释前期准备物种拉丁名，例如:Orazy sativa，基因id:Osa000001 同源物种: 一般选5个左右物种，需要有注释的基因/蛋白序列，保证高组装和注释质量转库组数据: RNAseq和lsoseq注释（用于结构注释中的转录辅助注释）(建议自测同样本的数据) 基因组注释的分析内容 ] 重复注释重复序列广泛存在于真核生物基因组中，这些重复序列或集中成簇，或分散在基因之间。根据分布把重复序列分为散在重复序列和串联重复序列。重复序列根据序列特征分为2类：串联重复（Tandem repeats）和散布重复（Dispersed repeats） RepeatMasker:基于Repbase(dna)/自建elibrary查询重复序列 123RepeatMasker -nolow -no_is -n ...

利用HIFI测序数据进行基因组组装｜hifiasm

发表于2021-02-06|更新于2021-03-24|基因组组装|教程•HiFiasm

目前用于Pacbio HIFI测序数据的组装软件主流上有：FALCON、Hifiasm、Hicanu三款。 Hifiasm的使用介绍 Hifiasm是用于PacBio Hifi读取的快速单倍型解析的从头汇编程序。它可以在几个小时内组装一个人类基因组，并与加利福尼亚红木基因组（迄今为止测序最复杂的基因组之一）一起工作。Hifiasm可以生产质量最好的组装商的初级/替代组装。它还引入了新的图合并算法，并在给定三重数据的情况下实现了最佳的单倍型解析程序集。软件安装 123456#使用conda安装conda install -c bioconda hifiasm#安装hifiasm（需要g++和zlib）git clone https://github.com/chhylp123/hifiasmcd hifiasm && make 格式转换由于是bam格式需要转换为fasta格式 12345678910111213# bam --> fastasamtools view *.bam | awk '{print ">"$1"\n"$10}' > fas ...