Pre-release!

Prepare input data 准备输入文件

  1. GFF
  2. cds

Format 对输入文件进行统一的格式化

convert GFF to BED 将GFF格式转换成BED格式

python3 -m jcvi.formats.gff bed --type=mRNA --key=Parent JamaicanLionDASH.gene.gff3.gz -o CsJLD.bed

formatting cds sequences

python3 -m jcvi.formats.fasta format JamaicanLionDASH.cds.fasta.gz CsJLD.cds

Pairwise synteny search 搜索共线性对

python3 -m jcvi.compara.catalog ortholog CsFN CsPK --no_strip_names

此步骤会调用LAST以CsPK为subject建库,以CsFN为query做blastp。结果文件中.last是比对的全部结果,.last.filtered是过滤后的结果,但过滤的规则尚不清楚。同时生成的.anchors.lifted.anchors文件格式尚不清楚。生成的.pdf文件绘制了CsFN和CsPK的共线性点图。

若杂点太多可以通过添加--cscore=.99参数修改last的C-score过滤阈值,在此之前需删除旧的.last.filtered文件。

Macrosynteny visualization 宏观共线性可视化

seqids and layout

chr1,chr2,chr3,chr4,chr5,chr6,chr7,chr8
Pp01,Pp02,Pp03,Pp04,Pp05,Pp06,Pp07,Pp08

seqids文件是CsFN和CsPK中需要展示的染色体编号,编号的排列顺序与结果文件中染色体的排列顺序一致

两个个体之间的染色体编号若有重复,可能导致在微观共线性可视化时产生错误。

# y, xstart, xend, rotation, color, label, va,  bed
.6,     .1,    .8,       0,      , Grape, top, grape.bed
.4,     .1,    .8,       0,      , Peach, top, peach.bed
# edges
e, 0, 1, grape.peach.anchors.simple

layout文件主要存放一些绘图参数。
上半部分说明需要绘制的个体分别是那些,其中y是在纵轴方向上的位置,xstartxend是在横轴方向上的起始和终止位置,rotation表示旋转的角度,label为在图中标注的名称,va为染色体编号相较染色体的位置,bed是个体的BED文件。color表示显示的颜色,但填写的参数与实际显示结果之间的联系尚不清楚。
下半部分说明连接个体之间线段的依赖文件。e可能为edge的缩写,其后的两个由逗号分隔的数字m, n表示根据.anchors.simple文件的结果将上半部分的第m行与第n行联系起来。

.simple

python3 -m jcvi.compara.synteny screen --minspan=20 --simple CsFN.CsPK.anchors CsFN.CsPK.anchors.new

.simple是在.anchors的基础上进一步简化(more succince) 的一个文件

生成.simple文件时有若干参数可以调整保留下来基因对(gene pairs) 的数量,已知的有例中的--minspan--minsize

plot

python3 -m jcvi.graphics.karyotype CsCBD.CsPK.seqids CsCBD.CsPK.layout

Microsynteny visualization 微观共线性可视化

.blocks

python3 -m jcvi.compara.synteny mcscan CsFN.bed CsFN.CsPK.lifted.anchors --iter=2 -o CsFN.CsPK.i2.blocks

plot

python3 -m jcvi.graphics.synteny CsFN.CsPK.i2.order.blocks CsFN_CsPK.bed CsFN.CsPK.i2.order.blocks.layout