做小麦的都知道麦类基因组庞大而且重复序列比例又很高,这给基因组分析造成了很大的困难,衡量基因组重复序列特征的一个方法就是统计kmer的分布情况。
这里简单的介绍下什么是kmer,所谓mer,大家可以理解成撕纸片,就是把基因组的碱基ATCG序列撕碎,怎么撕呢?假如k=4,就是撕成连续的4个碱基长度,k=20,就是就是撕成连续的20个碱基长度。假如基因组很小,只有ATCGCG,6个碱基组成,那么4mer就是ATCG,TCGG,CGCG。
kmer的分布可以估算基因组的大小,基因组的重复序列占比,杂合性等特征。可以快速的对基因组瞄一眼,看一看。所以利用重测序对基因组的kmer分布画图,一般也叫作调研图。调研吗,就是领导来走马观花的看一看,有时候准有时候不准,只是看看,有个印象,别太当真。
一段长序列,按照一定的长度分拆后,就会产生片段化的mer,这时候对这些短序列统计重复出现的次数,可以得到没有重复的mer和重复的mer,进而得到没有重复的mer占比。比如还是ATCGCG。2mers就是AT,TC,CG,GC,CG一共5个2mer,CG重复了一次,所以Uniqueness2mers比例就是3/5=0.6,4mers就是ATCG,TCGG,CGCG,没有重复出现的mers,因此Uniqueness4mers比例就是1。大家可以想象的到一段序列重复序列越多Uniquenesskmers比例越低。
今天给大家介绍一个软件叫Tallymer来做这个分析。这个软件其实是genometools软件包下面的小软件,详细介绍和安装(linux系统下载解压就可以使用)可以参考这里