DNAMAN怎么拼接测序结果 DNAMAN拼接冲突区域怎么处理-DNAMAN中文网站

　　做Sanger测序之后，我们通常需要把正向和反向两个测序结果合并成一条一致、可靠的序列。利用DNAMAN软件来完成这个拼接过程，以及在拼接中遇到碱基冲突时该如何处理，关键的一步就是先把两端质量较低的序列片段裁掉，再去做序列比对，最后确认出一条共识序列。DNAMAN本身具备DNA序列分析、比对和多序列处理的能力，能够很方便地把不同测序片段放在同一个窗口中互相对齐比较，因此很适合用来完成这类拼接工作。

　　一、DNAMAN拼接测序结果的基本步骤

　　在正式开始拼接之前，得先把测序文件准备好。常用的输入文件可以是测序公司直接返回的FASTA格式序列，也可以是自己从原始峰图里面提取出来的碱基序列。不过有一点要记住，不要直接把还带着一大堆低质量末端的原始序列拿过去就拼，那些模糊的尾巴会严重干扰软件对重叠区域的判断。

　　1、把测序序列导入软件

　　打开DNAMAN之后，把正向和反向的测序结果都导入到同一个分析环境里来。导入的时候，最好顺便把样本名称、引物方向以及测序批次这些信息都理清楚，比方说用Sample1-F和Sample1-R这样的方式来标记，免得后面一不小心就把不同样本的数据给搞混了。

　　2、将反向序列转成反向互补链

　　反向测序跑出来的那一段，并不能直接跟正向序列放到一起去比对，需要先把它转换成它的反向互补链。DNAMAN在序列比对的设置里支持使用负链进行比较，这个功能正好就是拿来处理这种一正一反两个方向片段的。

　　3、执行一次序列比对

　　然后把正向序列、刚才生成的反向互补序列，还有你手上的参考序列，一起拿去做一个比对。DNAMAN既提供快速的比对模式，又有一种优化程度更高的比对模式，并且还允许你只框定一小段目标区域来专门比对。如果测序片段本身比较短，那比对的时候建议选一个更严格的模式，这样可以减少一些由算法造成的错误错配。

　　4、生成一条共识序列

　　等比对跑完之后，先观察一下重叠区是不是连成了一片，再根据那些完全一致的碱基来生成一条共识序列。拼接最终得到的Contig，本质上就是由这些互相重叠的测序片段所构成的一段连续共识区域，所以重叠部分的质量越高，最后拼出来的结果也就越可靠。

　　二、如何处理拼接中出现的冲突区域

　　拼接时发生的碱基冲突，大多数情况下都出现在正向和反向测序互相重叠的那一片区域。常见的现象是同一个位置上，一条序列显示的是A，另一条显示的却是G，或者某一侧突然多出来一小段缺口。碰到这种情况，不能光看着软件给出的默认结果就按下接受键，还得把原始的峰图和上下游的测序质量结合起来，做一个综合的判断。

　　1、先判断冲突是不是出在低质量末端

　　正向序列的最尾巴上和反向序列的最尾巴上，测序信号往往最先开始往下掉。如果发现冲突主要就是集中扎堆在这两端，那就可以先把这些质量差的部分裁掉，然后再重新跑一次比对。不要为了硬撑出一段更长的序列，就把那些明显很乱的尾端也硬塞进共识序列里。

　　2、回到峰图上去重新确认碱基

　　如果测序公司还给你提供了ab1格式的峰图文件，那遇到冲突的地方就应该回到峰图上去看一看。凡是那种单峰清清楚楚、背景信号又很低的一方，它的结果一般更靠得住；而碰到双峰、拖尾或者峰形交叠在一起的位置，下判断的时候就要更加小心一些，实在拿不准的话，可以先给它标成一个N。

　　3、判断一下是不是真的存在突变

　　冲突并不一定全都是测序本身的错误。如果那个冲突位点，恰好落在我们重点关注的目标突变上，或者落在克隆的混合区域、杂合样本当中，那就必须结合自己当初的实验设计来整体判断。做质粒单克隆测序时，出来的峰图通常应该是比较干净的，要是大面积地冒出来双峰，那很有可能是菌落本身不纯，或者模板里面混进了别的东西。

　　4、把缺口区域单独拿出来处理

　　比对时如果出现了短缺口，先别急着动手去删碱基，得先排查一下，这个缺口是不是由低质量的碱基、残留的引物信号，或者测序读长不够所造成的。特别是在编码区里，任何插入或缺失都会直接影响后面的翻译结果，所以处理这部分的时候要格外谨慎。

　　三、拼接完成后怎样复核结果

　　等序列被拼出来以后，还得把这段最终结果当成一条全新的序列，再从头到尾过一遍。千万别只看到重叠区里面没有跳出红色的冲突标记，就觉得数据已经完全没问题了。

　　1、检查一下序列的方向和长度

　　首先确认一下最终这条序列的方向是不是跟参考序列一致，然后再核一下它的长度，跟原来PCR产物或者质粒片段的预期长度是不是相符。如果发现长度差得有点多，那就得退回到比对结果那里，仔细去查一查是不是在哪个地方多裁了或者少裁了。

　　2、去看一看开放阅读框

　　假如拼接出来的这一段区域属于编码序列，那很建议再去瞧一瞧它的开放阅读框，或者直接查看一下翻译出来的东西。要是发现翻译产物里出现了提前的终止密码子、发生了移码，或者有不正常的缺失，就必须回到刚才那些冲突区域上，重新去核对一遍。

　　3、把拼接过程的记录保存好

　　在导出最终的FASTA或GenBank格式序列的同时，务必把原始的正反向序列、比对出来的中间文件，还有处理冲突时做的那些记录一起留下来。这样一来，后面再去做质粒图谱、设计引物，或者是撰写文章的时候，就能随时翻出每一个碱基当初的判断依据了。

　　总结

　　用DNAMAN来拼接Sanger测序结果，大致可以按照这样一个顺序来走：先把正反向序列都导进去，给反向序列做好反向互补变换，跑一次比对，确认重叠区域，最后生成一条共识序列。碰到碱基冲突的时候，不要直接接受软件给出的默认结果，要先看它是不是落在低质量末端，再结合峰图、参考序列和实验设计去综合分析。拼接完成之后，也别忘了再复核一遍方向、长度和开放阅读框，别让测序过程里带出来的噪音，被误认成了真实的序列变化。