做Sanger测序之后,我们通常需要把正向和反向两个测序结果合并成一条一致、可靠的序列。利用DNAMAN软件来完成这个拼接过程,以及在拼接中遇到碱基冲突时该如何处理,关键的一步就是先把两端质量较低的序列片段裁掉,再去做序列比对,最后确认出一条共识序列。DNAMAN本身具备DNA序列分析、比对和多序列处理的能力,能够很方便地把不同测序片段放在同一个窗口中互相对齐比较,因此很适合用来完成这类拼接工作。
一、DNAMAN拼接测序结果的基本步骤
在正式开始拼接之前,得先把测序文件准备好。常用的输入文件可以是测序公司直接返回的FASTA格式序列,也可以是自己从原始峰图里面提取出来的碱基序列。不过有一点要记住,不要直接把还带着一大堆低质量末端的原始序列拿过去就拼,那些模糊的尾巴会严重干扰软件对重叠区域的判断。
1、把测序序列导入软件
打开DNAMAN之后,把正向和反向的测序结果都导入到同一个分析环境里来。导入的时候,最好顺便把样本名称、引物方向以及测序批次这些信息都理清楚,比方说用Sample1-F和Sample1-R这样的方式来标记,免得后面一不小心就把不同样本的数据给搞混了。
2、将反向序列转成反向互补链
反向测序跑出来的那一段,并不能直接跟正向序列放到一起去比对,需要先把它转换成它的反向互补链。DNAMAN在序列比对的设置里支持使用负链进行比较,这个功能正好就是拿来处理这种一正一反两个方向片段的。
3、执行一次序列比对
然后把正向序列、刚才生成的反向互补序列,还有你手上的参考序列,一起拿去做一个比对。DNAMAN既提供快速的比对模式,又有一种优化程度更高的比对模式,并且还允许你只框定一小段目标区域来专门比对。如果测序片段本身比较短,那比对的时候建议选一个更严格的模式,这样可以减少一些由算法造成的错误错配。
4、生成一条共识序列
等比对跑完之后,先观察一下重叠区是不是连成了一片,再根据那些完全一致的碱基来生成一条共识序列。拼接最终得到的Contig,本质上就是由这些互相重叠的测序片段所构成的一段连续共识区域,所以重叠部分的质量越高,最后拼出来的结果也就越可靠。
二、如何处理拼接中出现的冲突区域
拼接时发生的碱基冲突,大多数情况下都出现在正向和反向测序互相重叠的那一片区域。常见的现象是同一个位置上,一条序列显示的是A,另一条显示的却是G,或者某一侧突然多出来一小段缺口。碰到这种情况,不能光看着软件给出的默认结果就按下接受键,还得把原始的峰图和上下游的测序质量结合起来,做一个综合的判断。
1、先判断冲突是不是出在低质量末端
正向序列的最尾巴上和反向序列的最尾巴上,测序信号往往最先开始往下掉。如果发现冲突主要就是集中扎堆在这两端,那就可以先把这些质量差的部分裁掉,然后再重新跑一次比对。不要为了硬撑出一段更长的序列,就把那些明显很乱的尾端也硬塞进共识序列里。
2、回到峰图上去重新确认碱基
如果测序公司还给你提供了ab1格式的峰图文件,那遇到冲突的地方就应该回到峰图上去看一看。凡是那种单峰清清楚楚、背景信号又很低的一方,它的结果一般更靠得住;而碰到双峰、拖尾或者峰形交叠在一起的位置,下判断的时候就要更加小心一些,实在拿不准的话,可以先给它标成一个N。
3、判断一下是不是真的存在突变
冲突并不一定全都是测序本身的错误。如果那个冲突位点,恰好落在我们重点关注的目标突变上,或者落在克隆的混合区域、杂合样本当中,那就必须结合自己当初的实验设计来整体判断。做质粒单克隆测序时,出来的峰图通常应该是比较干净的,要是大面积地冒出来双峰,那很有可能是菌落本身不纯,或者模板里面混进了别的东西。
4、把缺口区域单独拿出来处理
比对时如果出现了短缺口,先别急着动手去删碱基,得先排查一下,这个缺口是不是由低质量的碱基、残留的引物信号,或者测序读长不够所造成的。特别是在编码区里,任何插入或缺失都会直接影响后面的翻译结果,所以处理这部分的时候要格外谨慎。
三、拼接完成后怎样复核结果
等序列被拼出来以后,还得把这段最终结果当成一条全新的序列,再从头到尾过一遍。千万别只看到重叠区里面没有跳出红色的冲突标记,就觉得数据已经完全没问题了。
1、检查一下序列的方向和长度
首先确认一下最终这条序列的方向是不是跟参考序列一致,然后再核一下它的长度,跟原来PCR产物或者质粒片段的预期长度是不是相符。如果发现长度差得有点多,那就得退回到比对结果那里,仔细去查一查是不是在哪个地方多裁了或者少裁了。
2、去看一看开放阅读框
假如拼接出来的这一段区域属于编码序列,那很建议再去瞧一瞧它的开放阅读框,或者直接查看一下翻译出来的东西。要是发现翻译产物里出现了提前的终止密码子、发生了移码,或者有不正常的缺失,就必须回到刚才那些冲突区域上,重新去核对一遍。
3、把拼接过程的记录保存好
在导出最终的FASTA或GenBank格式序列的同时,务必把原始的正反向序列、比对出来的中间文件,还有处理冲突时做的那些记录一起留下来。这样一来,后面再去做质粒图谱、设计引物,或者是撰写文章的时候,就能随时翻出每一个碱基当初的判断依据了。
总结
用DNAMAN来拼接Sanger测序结果,大致可以按照这样一个顺序来走:先把正反向序列都导进去,给反向序列做好反向互补变换,跑一次比对,确认重叠区域,最后生成一条共识序列。碰到碱基冲突的时候,不要直接接受软件给出的默认结果,要先看它是不是落在低质量末端,再结合峰图、参考序列和实验设计去综合分析。拼接完成之后,也别忘了再复核一遍方向、长度和开放阅读框,别让测序过程里带出来的噪音,被误认成了真实的序列变化。
