DNAMAN怎么翻译蛋白序列 DNAMAN阅读框选错了怎么修正-DNAMAN中文网站

　　测序数据一拿到手，很多人会先把DNA序列转成蛋白质的氨基酸序列，看看里面是不是藏着提前出现的终止信号、移码突变或者其他编码上的问题。用DNAMAN做这种蛋白翻译，一开始最要紧的是把序列的方向、第一个碱基的位置，还有要用的遗传密码表给确认好。如果后面发现阅读框选错了需要修正，就得回到开放阅读框（ORF）和起止密码子这些最基础的地方，再仔细查一遍。要知道，DNA双链上一共摆着六个可能的阅读框，正链有三个，负链也有三个，挑错了框，最后得到的氨基酸序列就会完全不一样。

　　一、用DNAMAN怎样把DNA序列翻译成蛋白

　　翻译之前，得先把手里的序列整理干净。测序的下机文件、克隆的片段或者PCR扩增出来的产物，里面常常混着载体序列、质量不太好的碱基，还有一些当初连进去的接头片段，如果不管不顾直接就拿来翻译，那么结果里很容易冒出来一连串的星号，或者只翻出些不正常的短肽段，看着就知道不对。

　　1、把DNA序列导进去，再把方向确认好

　　打开DNAMAN的序列编辑窗口，把已经整理过的DNA文件导进来，像是FASTA格式的也好，GenBank里的也好，或者自己从测序峰图里读出来的序列也好。导进来之后，别急着去点翻译按钮，先看清楚当前屏幕上显示的这条序列，到底是不是目标基因正方向的那条链。如果当初测的是反向的，那就该先做一次反向互补操作，把序列转成正向再往下走，不然后面所有的翻译都会跑偏。

　　2、找一找开放阅读框（ORF）都在哪里

　　接着去用那个查找ORF或者跟翻译相关的功能，软件会把正正反反六个阅读框里头的开放阅读框都给列出来。所谓开放阅读框，一般指的就是从起始密码子（最常见的是ATG）开始，一路读到碰到终止密码子（TAA、TAG或TGA）为止的，那一段能够被连续翻译成氨基酸的区间。通常来说，越长、越完整的ORF，就越可能是真正编码蛋白的地方，这也是NCBI在线工具ORF Finder常用的一套判断思路。

　　3、选准一个阅读框再去翻译

　　在列出来的一堆ORF里头找到自己的目标，选中之后执行翻译，软件就会把对应的氨基酸序列给摆出来。如果你要找的基因是已经研究过的，还可以顺便核对一下翻译的起点是不是ATG，末尾的终止密码子是不是正好停在预想的位置。只要阅读框偏移了一点点，后面的密码子分组就全打乱了，翻出来的蛋白自然也完全是另一码事。

　　4、把蛋白序列好好存起来

　　翻译结果看着没问题了，就另存成蛋白序列的文件，后面不管是拿去跟别的序列做比对，还是做结构预测、分析保守区段，都能直接拿来用。存之前最好把样本名、用的是正链还是负链、选的是第几个阅读框，还有翻译是从哪里开始到哪里结束的，这些信息都写进注释里，免得时间一长自己都搞混了。

　　二、DNAMAN里阅读框选错了该怎么改回去

　　阅读框要是选错了，最明显的表现就是翻出来的蛋白短得离谱，中间许多地方标着星号，又或者拿去跟已知的蛋白序列做比对时，压根儿对不上。这时候，千万不要在氨基酸那串字母上动手脚去改顺序，一定要退回到DNA序列那一层，从头再判断。

　　1、查一查是不是正反链的方向搞反了

　　如果已经把正链上的三个阅读框全看了一遍，却怎么都找不到一个看起来合理的ORF，那就先把这条DNA序列整个做反向互补，再去看负链上的那三个阅读框。双链DNA这两条链，都是有可能被读取并翻译的，连方向都不先定下来就硬翻，很容易一开始就选错了模板。

　　2、检查一下起始读取的位置对不对

　　阅读框这个东西，到底是从第几个碱基开始分组、三个三个地读密码子，差别可大了。比方说，从第一个、第二个还是第三个碱基开始读，最后读出的一连串密码子就完全不一样。像CLC这样的工具，在它文档里也特别提过，在翻译一整条序列的时候，是必须明确指出阅读框的，碰到了终止密码子，它就会在蛋白的对应位置上标一个星号出来。

　　3、看看序列里是不是藏着插入或缺失

　　去翻一下原始的测序峰图，要是看到某一个位置插进去一个碱基，或者缺了一个碱基，而插进去或丢掉的数量又不是3的倍数，那么十有八九已经引起了移码。移码一旦出现，突变点往后所有的氨基酸都跟着变了，而且很可能很快就碰到一个提前跑出来的终止密码子。碰到这种情况，就需要回到峰图或者最原始的测序文件里，去确认到底是不是那个碱基本身就被读错了。

　　4、找一份参考序列来帮忙核对

　　可以拿DNA序列，或者暂时翻出来的蛋白序列，跟那些已知的参考基因、质粒图谱，还有公共数据库里的序列，放在一起对一对。如果仅仅是整段序列的最前面多出来一小截载体，或者当初用来扩增的引物尾巴，那么把这段非编码区剪掉，再重新翻译一次，出来的蛋白通常就对了。

　　三、DNAMAN翻译结果出来了该怎么复核

　　拿到一串氨基酸字母之后，可不是看一眼生成了蛋白就算完事了，还得看它是不是符合当初实验设计的样子，以及从生物学常识上看讲不讲得通。

　　1、检查一下起始密码子和终止密码子的位置

　　一条完整的蛋白质编码区，一般都应该有一个明明白白的起始密码子和一个终止密码子。如果发现起始密码子的前边还拖着一截载体序列，或者终止密码子之后还带着一段长长的非编码尾巴，那多半是因为翻译的时候顺手把区间圈得太大，需要回去重新缩一缩范围。

　　2、留意一下星号都出现在哪里

　　蛋白序列里的星号，本身就是终止密码子的标记。如果一条蛋白的中间部分，隔三差五地出现了好些个星号，那基本上可以断定，要么是阅读框选错了，要么是测序质量太差，再不然就是真的发生了移码突变。只有星号恰恰落在整个序列的最末端，才更符合一个完整编码区正常翻译该有的样子。

　　3、跟已知的蛋白蛋白序列做个比对

　　把刚刚翻译得来的蛋白序列，和已经发表过的同源蛋白放在一起，重点去看它们的长度是不是差不多，保守的那些结构域在不在，还有几个关键的氨基酸位点是不是对得上。要是发现只有少数几个氨基酸不一样，那可以进一步判断到底是不是真实的点突变；可要是整条序列从头到尾都跟已知蛋白贴不到一块去，那就得赶紧回头，重新去审视阅读框是不是挑错了。

　　4、把每一次修正的记录都留下来

　　不管是去调整阅读框，还是把序列两端剪掉一些，又或者把测序峰图上明显可疑的某个碱基给改正过来，每一次修改，最好都把位置改了什么、为什么要改，顺手写下来。后面到了整理实验报告，或者往数据库里提交序列的时候，就能凭这些记录讲得清，最终的这条蛋白序列，是沿着怎样一条路径才走到今天的。

　　总结

　　在DNAMAN里把DNA序列翻译成蛋白，一般是从导入序列、确认方向开始，接着去查找开放阅读框，看准以后选对框让软件翻出氨基酸序列；如果发现阅读框选得不对，重点就是去核对正反向、检查起始位置、再瞧瞧有没有移码突变，最后靠一份参考序列把把关。至于翻译出来的结果靠不靠得住，就要看起止密码子完不完整、星号出在什么地方，以及跟已知蛋白比对的吻合度，这些都没问题了，才敢放心地拿去做后面的分析。