Pre-release!

上一篇中准备好了需要的二代测序数据,这篇就开始call SNP

bwa比对

构建索引

在开始比对之前要先对参考基因组构建索引。需要使用到三个软件sentioen bwa(目前看来跟bwa本身没有太多区别),samtools和picard,这里主要介绍samtools和picar的安装。

# samtools
conda install -c bioconda samtools
# picard
wget https://github.com/broadinstitute/picard/releases/download/2.25.6/picard.jar
java -jar picar.jar

构建索引的流程也很简单bwa index生成.amb.ann.bwt.pac.sa文件,samtools faidx生成.faipicard CreateSequenceDictionary生成.dict

sentieon bwa index ${GENOME}
samtools faidx ${GENOME}
java -jar picard.jar CreateSequenceDictionary REFERENCE=${GENOME} OUTPUT=${DICT}

比对与排序

这里将比对和排序两个步骤合并在一起执行。比对的部分还是使用的sentioen bwa,算法部分使用的是mem,-M

( sentieon bwa mem -M -R "@RG\tID:${RGID}\tSM:${SM}\tPL:${PL}" -t ${NT} -K 10000000 ${GENOME} ${FQ1} ${FQ2} || echo -n 'error' ) | sentieon util sort -r ${GENOME} -o ${SORTED.BAM} -t ${NT} --sam2bam -i -

统计信息

去除重复

Haplotyper