Pre-release!
Prepare input data 准备输入文件
- GFF
- cds
Format 对输入文件进行统一的格式化
convert GFF to BED 将GFF格式转换成BED格式
python3 -m jcvi.formats.gff bed --type=mRNA --key=Parent JamaicanLionDASH.gene.gff3.gz -o CsJLD.bed
formatting cds sequences
python3 -m jcvi.formats.fasta format JamaicanLionDASH.cds.fasta.gz CsJLD.cds
Pairwise synteny search 搜索共线性对
python3 -m jcvi.compara.catalog ortholog CsFN CsPK --no_strip_names
此步骤会调用LAST以CsPK为subject建库,以CsFN为query做blastp。结果文件中.last是比对的全部结果,.last.filtered是过滤后的结果,但过滤的规则尚不清楚。同时生成的.anchors和.lifted.anchors文件格式尚不清楚。生成的.pdf文件绘制了CsFN和CsPK的共线性点图。
若杂点太多可以通过添加
--cscore=.99参数修改last的C-score过滤阈值,在此之前需删除旧的.last.filtered文件。
Macrosynteny visualization 宏观共线性可视化
seqids and layout
chr1,chr2,chr3,chr4,chr5,chr6,chr7,chr8
Pp01,Pp02,Pp03,Pp04,Pp05,Pp06,Pp07,Pp08
seqids文件是CsFN和CsPK中需要展示的染色体编号,编号的排列顺序与结果文件中染色体的排列顺序一致
两个个体之间的染色体编号若有重复,可能导致在微观共线性可视化时产生错误。
# y, xstart, xend, rotation, color, label, va, bed
.6, .1, .8, 0, , Grape, top, grape.bed
.4, .1, .8, 0, , Peach, top, peach.bed
# edges
e, 0, 1, grape.peach.anchors.simple
layout文件主要存放一些绘图参数。
上半部分说明需要绘制的个体分别是那些,其中y是在纵轴方向上的位置,xstart和xend是在横轴方向上的起始和终止位置,rotation表示旋转的角度,label为在图中标注的名称,va为染色体编号相较染色体的位置,bed是个体的BED文件。color表示显示的颜色,但填写的参数与实际显示结果之间的联系尚不清楚。
下半部分说明连接个体之间线段的依赖文件。e可能为edge的缩写,其后的两个由逗号分隔的数字m, n表示根据.anchors.simple文件的结果将上半部分的第m行与第n行联系起来。
.simple
python3 -m jcvi.compara.synteny screen --minspan=20 --simple CsFN.CsPK.anchors CsFN.CsPK.anchors.new
.simple是在.anchors的基础上进一步简化(more succince) 的一个文件
生成
.simple文件时有若干参数可以调整保留下来基因对(gene pairs) 的数量,已知的有例中的--minspan和--minsize。
plot
python3 -m jcvi.graphics.karyotype CsCBD.CsPK.seqids CsCBD.CsPK.layout
Microsynteny visualization 微观共线性可视化
.blocks
python3 -m jcvi.compara.synteny mcscan CsFN.bed CsFN.CsPK.lifted.anchors --iter=2 -o CsFN.CsPK.i2.blocks
plot
python3 -m jcvi.graphics.synteny CsFN.CsPK.i2.order.blocks CsFN_CsPK.bed CsFN.CsPK.i2.order.blocks.layout