3d-DNA的使用及juicebox调整挂载到染色体水平 | HiC辅助基因组组装(二)
定义
软件安装
3d-DNA
1 |
|
Juicer
1 | git clone https://github.com/theaidenlab/juicer.git |
要求环境
LastZ (version 1.03.73 released 20150708) – for diploid mode only
Java version >=1.7
Bash >=4
GNU Awk >=4.0.2
GNU coreutils sort >=8.11
3d-DNA使用
为基因组建索引
1 | bwa index genome.fa |
根据基因组构建创建可能的酶切位点文件
需要使用到juicer/misc/generate_site_positions.py
1 | $ python /home/lixingze/software/juicer/misc/generate_site_positions.py |
运行如下命令, 获取每条contig的长度
1 | awk 'BEGIN{OFS="\t"}{print $1, $NF}' genome_DpnII.txt > genome.chrom.sizes |
运行juicer
1 | $ /home/lixingze/software/juicer/scripts/juicer.sh -h |
个人运行示例:
1 | bash /home/lixingze/software/juicer/scripts/juicer.sh -d /home/lixingze/data/HiC/05.3d-DNA-3cell/hic -D /home/lixingze/software/juicer/ -z ./genome.fa -y ./genome_DpnII.txt -p ./genome.chrom.sizes -s DpnII -t 70 |
输出的结果文件在aligned目录下,其中merged_nodups.txt
就是下一步3D-DNA的输入文件之一。
运行3d-dna
在3d-dna目录下有个run-asm-pipeline.sh
脚本,使用此脚本
1 | USAGE: ./run-asm-pipeline.sh [options] <path_to_input_fasta> <path_to_input_mnd> |
个人运行示例
1 | nohup bash /home/lixingze/software/3d-dna/run-asm-pipeline.sh -r 2 genome.fa /home/lixingze/data/HiC/05.3d-DNA-3cell/hic/aligned/merged_nodups.txt &> 3d.log & |
推荐使用 genome.0.hic文件以及 genome.0.assembly文件进行后续操作
juicebox调整3d-DNA输出的结果
这个调整过程需要细心耐心以及相关背景知识。
-
aidenlab提供了在线的juicebox
http://aidenlab.org/juicebox/ -
本地juicebox调整(推荐下载)
https://github.com/aidenlab/juicebox/wiki/Download
网上有相关操作视频
调整完成之后将其保存为genome.review.assembly
如果是未发表的基因组,建议将染色体从大到小进行排列。
再次运行3d-DNA
这次使用
run-asm-pipeline-post-review.sh
脚本,用于在Juicebox Assembly Tools模块(由review.Assembly文件表示)中进行审阅,将程序集(由之前对齐的Hi-C reads和Juicer pipeline生成的)最终确定为染色体长度的fasta序列。该脚本将生成一个输出fasta文件、最终装配Hi-C map的assembly文件和一些补充注释文件,便于在Juicebox中查看结果。
1 | USAGE: ./run-asm-pipeline-post-review.sh [options] -r <review.assembly> <path_to_input_fasta> <path_to_input_mnd> |
个人运行示例
1 | nohup bash ~/software/3d-dna/run-asm-pipeline-post-review.sh -r genome.rawchrom.assembly genome.fa hic/aligned/merged_nodups.txt &> 3d.log |
得出最终的染色体水平文件 genome.FINAL.fasta
提升最后一步的速度
因为run-asm-pipeline-post-review.sh
原始的速度太慢了。所以建议去修改一下源文件内容,大大提升最后一步的速度,可以参考链接