DNAMAN中文网站 > 新手入门 > DNAMAN怎么翻译蛋白序列 DNAMAN阅读框选错了怎么修正
DNAMAN怎么翻译蛋白序列 DNAMAN阅读框选错了怎么修正
发布时间:2026/06/29 13:39:37

  测序数据一拿到手,很多人会先把DNA序列转成蛋白质的氨基酸序列,看看里面是不是藏着提前出现的终止信号、移码突变或者其他编码上的问题。用DNAMAN做这种蛋白翻译,一开始最要紧的是把序列的方向、第一个碱基的位置,还有要用的遗传密码表给确认好。如果后面发现阅读框选错了需要修正,就得回到开放阅读框(ORF)和起止密码子这些最基础的地方,再仔细查一遍。要知道,DNA双链上一共摆着六个可能的阅读框,正链有三个,负链也有三个,挑错了框,最后得到的氨基酸序列就会完全不一样。

  一、用DNAMAN怎样把DNA序列翻译成蛋白

 

  翻译之前,得先把手里的序列整理干净。测序的下机文件、克隆的片段或者PCR扩增出来的产物,里面常常混着载体序列、质量不太好的碱基,还有一些当初连进去的接头片段,如果不管不顾直接就拿来翻译,那么结果里很容易冒出来一连串的星号,或者只翻出些不正常的短肽段,看着就知道不对。

 

  1、把DNA序列导进去,再把方向确认好

 

  打开DNAMAN的序列编辑窗口,把已经整理过的DNA文件导进来,像是FASTA格式的也好,GenBank里的也好,或者自己从测序峰图里读出来的序列也好。导进来之后,别急着去点翻译按钮,先看清楚当前屏幕上显示的这条序列,到底是不是目标基因正方向的那条链。如果当初测的是反向的,那就该先做一次反向互补操作,把序列转成正向再往下走,不然后面所有的翻译都会跑偏。

 

  2、找一找开放阅读框(ORF)都在哪里

 

  接着去用那个查找ORF或者跟翻译相关的功能,软件会把正正反反六个阅读框里头的开放阅读框都给列出来。所谓开放阅读框,一般指的就是从起始密码子(最常见的是ATG)开始,一路读到碰到终止密码子(TAA、TAG或TGA)为止的,那一段能够被连续翻译成氨基酸的区间。通常来说,越长、越完整的ORF,就越可能是真正编码蛋白的地方,这也是NCBI在线工具ORF Finder常用的一套判断思路。

 

  3、选准一个阅读框再去翻译

 

  在列出来的一堆ORF里头找到自己的目标,选中之后执行翻译,软件就会把对应的氨基酸序列给摆出来。如果你要找的基因是已经研究过的,还可以顺便核对一下翻译的起点是不是ATG,末尾的终止密码子是不是正好停在预想的位置。只要阅读框偏移了一点点,后面的密码子分组就全打乱了,翻出来的蛋白自然也完全是另一码事。

 

  4、把蛋白序列好好存起来

 

  翻译结果看着没问题了,就另存成蛋白序列的文件,后面不管是拿去跟别的序列做比对,还是做结构预测、分析保守区段,都能直接拿来用。存之前最好把样本名、用的是正链还是负链、选的是第几个阅读框,还有翻译是从哪里开始到哪里结束的,这些信息都写进注释里,免得时间一长自己都搞混了。

 

  二、DNAMAN里阅读框选错了该怎么改回去

 

  阅读框要是选错了,最明显的表现就是翻出来的蛋白短得离谱,中间许多地方标着星号,又或者拿去跟已知的蛋白序列做比对时,压根儿对不上。这时候,千万不要在氨基酸那串字母上动手脚去改顺序,一定要退回到DNA序列那一层,从头再判断。

 

  1、查一查是不是正反链的方向搞反了

 

  如果已经把正链上的三个阅读框全看了一遍,却怎么都找不到一个看起来合理的ORF,那就先把这条DNA序列整个做反向互补,再去看负链上的那三个阅读框。双链DNA这两条链,都是有可能被读取并翻译的,连方向都不先定下来就硬翻,很容易一开始就选错了模板。

 

  2、检查一下起始读取的位置对不对

 

  阅读框这个东西,到底是从第几个碱基开始分组、三个三个地读密码子,差别可大了。比方说,从第一个、第二个还是第三个碱基开始读,最后读出的一连串密码子就完全不一样。像CLC这样的工具,在它文档里也特别提过,在翻译一整条序列的时候,是必须明确指出阅读框的,碰到了终止密码子,它就会在蛋白的对应位置上标一个星号出来。

  3、看看序列里是不是藏着插入或缺失

 

  去翻一下原始的测序峰图,要是看到某一个位置插进去一个碱基,或者缺了一个碱基,而插进去或丢掉的数量又不是3的倍数,那么十有八九已经引起了移码。移码一旦出现,突变点往后所有的氨基酸都跟着变了,而且很可能很快就碰到一个提前跑出来的终止密码子。碰到这种情况,就需要回到峰图或者最原始的测序文件里,去确认到底是不是那个碱基本身就被读错了。

 

  4、找一份参考序列来帮忙核对

 

  可以拿DNA序列,或者暂时翻出来的蛋白序列,跟那些已知的参考基因、质粒图谱,还有公共数据库里的序列,放在一起对一对。如果仅仅是整段序列的最前面多出来一小截载体,或者当初用来扩增的引物尾巴,那么把这段非编码区剪掉,再重新翻译一次,出来的蛋白通常就对了。

 

  三、DNAMAN翻译结果出来了该怎么复核

 

  拿到一串氨基酸字母之后,可不是看一眼生成了蛋白就算完事了,还得看它是不是符合当初实验设计的样子,以及从生物学常识上看讲不讲得通。

 

  1、检查一下起始密码子和终止密码子的位置

 

  一条完整的蛋白质编码区,一般都应该有一个明明白白的起始密码子和一个终止密码子。如果发现起始密码子的前边还拖着一截载体序列,或者终止密码子之后还带着一段长长的非编码尾巴,那多半是因为翻译的时候顺手把区间圈得太大,需要回去重新缩一缩范围。

 

  2、留意一下星号都出现在哪里

 

  蛋白序列里的星号,本身就是终止密码子的标记。如果一条蛋白的中间部分,隔三差五地出现了好些个星号,那基本上可以断定,要么是阅读框选错了,要么是测序质量太差,再不然就是真的发生了移码突变。只有星号恰恰落在整个序列的最末端,才更符合一个完整编码区正常翻译该有的样子。

 

  3、跟已知的蛋白蛋白序列做个比对

 

  把刚刚翻译得来的蛋白序列,和已经发表过的同源蛋白放在一起,重点去看它们的长度是不是差不多,保守的那些结构域在不在,还有几个关键的氨基酸位点是不是对得上。要是发现只有少数几个氨基酸不一样,那可以进一步判断到底是不是真实的点突变;可要是整条序列从头到尾都跟已知蛋白贴不到一块去,那就得赶紧回头,重新去审视阅读框是不是挑错了。

 

  4、把每一次修正的记录都留下来

 

  不管是去调整阅读框,还是把序列两端剪掉一些,又或者把测序峰图上明显可疑的某个碱基给改正过来,每一次修改,最好都把位置改了什么、为什么要改,顺手写下来。后面到了整理实验报告,或者往数据库里提交序列的时候,就能凭这些记录讲得清,最终的这条蛋白序列,是沿着怎样一条路径才走到今天的。

  总结

 

  在DNAMAN里把DNA序列翻译成蛋白,一般是从导入序列、确认方向开始,接着去查找开放阅读框,看准以后选对框让软件翻出氨基酸序列;如果发现阅读框选得不对,重点就是去核对正反向、检查起始位置、再瞧瞧有没有移码突变,最后靠一份参考序列把把关。至于翻译出来的结果靠不靠得住,就要看起止密码子完不完整、星号出在什么地方,以及跟已知蛋白比对的吻合度,这些都没问题了,才敢放心地拿去做后面的分析。

135 2431 0251