拿到一段DNA序列之后,假如我们想先看看它有没有编码蛋白质的可能,通常就要从开放阅读框查起。在DNAMAN里面怎么找到这些开放阅读框,以及怎么把那些有意义的长度给筛出来,核心的思路,就是去检查六个翻译框里,是不是存在着从起始密码子一路通到终止密码子、中间不被截断的连续编码区。开放阅读框这个概念,一般说的就是在某个阅读框中一段不被终止密码子打断的序列,那些比较长的ORF,常常就被当成候选编码区的重要依据。
一、DNAMAN怎么查看开放阅读框
在用DNAMAN查看开放阅读框之前,最好先确认序列的方向和类型,如果手上这份序列原本是测序得来的片段,那就应该先把两端质量不太好的碱基修剪掉,再去做ORF分析,要不然末端残留的错误碱基很可能会提前冒出来一个终止密码子,把好好的编码区给打断了。
1、导入DNA序列
打开DNAMAN,顺着点【File】→【Open】,把FASTA、seq、txt或者其他格式的序列文件给导进去,导入成功之后,先花一小点时间看看序列的长度是否正常、方向是不是和预期一致,还有文件名字有没有标错,必要的时候可以用反向互补的功能把方向调过来。
2、进到ORF分析功能里面
在序列窗口里,找到跟【ORF】或者【Open Reading Frame】相关的那个分析入口,不同版本里菜单的名字可能会有一点点出入,不过一般都会藏在序列分析、翻译或者基因查找这一类功能里头。
3、把六个阅读框都看一遍
等ORF分析跑出来之后,重点就是把正链上的三个阅读框和反链上的另外三个阅读框,都过一遍,每一条ORF通常都会把起始和结束的位置、方向、长度,还有它对应的那一串氨基酸序列,一块儿显示出来。如果咱们最终是奔着克隆表达去的,那就要优先去留意那些既有合理的起始密码子、又有对应的终止密码子、结构很完整的ORF。
4、把目标ORF导出来或者复制走
找到那条想要的ORF之后,可以把它的核酸序列,或者翻译好的蛋白序列复制下来,再拿去接着做BLAST比对、设计引物或者预测结构。要是后面还打算构建表达载体,那还得再对一遍,看看这个阅读框跟它要连接的标签、酶切位点还有启动子的方向是不是都能对得上。
二、DNAMAN开放阅读框长度怎么筛选
在做开放阅读框长度筛选的时候,不能一心只盯着最长的那个,因为在随机序列里面,偶尔也可能蹦出一段挺长的ORF,所以真正做判断的时候,还要把物种、是什么类型的基因、起始密码子、序列的保守程度,还有咱们最后想要达到的表达目的,都搁到一块儿来考虑。
1、把最小长度设好
在ORF分析的参数里,找到最小长度或者最少氨基酸数量的设置项,比较常见的一步,是先把那些特别短的ORF给滤掉,比方说只有几十个氨基酸以内的片段,可以暂时不把它们当作主要的候选对象。但是这个具体的阈值不能到处硬套,得按照自己研究对象的实际情况去调整一下。
2、把核酸长度和蛋白长度分清楚
有些界面上显示的是碱基的数量,有些显示的是氨基酸的数量,一个三百个碱基左右的ORF,大概就对应了一百个氨基酸上下,筛的时候要看清单位到底是什么,不要把三百个氨基酸误会成三百个碱基来算了。
3、把完整的ORF优先留下来
一段完整的ORF,应该包含着一个合理的起始密码子、一段连续的编码区,最后再跟上一个能把这段翻译关掉的终止密码子。如果拿到的序列只是一段PCR的产物,或者是某个转录本的一小部分,那它也许只覆盖了ORF的一个段落,这个时候不要看见它没头没尾就马上把它当成假阳性扔掉,还得把参考序列和当初测序的范围拿出来对照着一起看。
4、结合比对的结果再来筛
把候选的这段ORF翻译成蛋白质序列以后,拿着它去跟已知的蛋白或者同源的序列做一次比对,要是发现这段长ORF推导出来的蛋白,跟目标蛋白的序列高度一致,那它的可信程度就大大提上去了;反过来说,如果只是长度看着挺长,但是找不着同源序列的支持,那在解释它的时候就得格外留神。
三、DNAMAN开放阅读框结果怎么复核
等到ORF筛选做完以后,还得留一步回头检查阅读框本身、序列的方向,还有它上下游那一片区域,因为很多错误其实是从方向选反了、测序峰形不准,或者因为插入缺失导致移码这些根子里带来的。
1、检查起止位置对不对
把ORF在原始序列里的起点和终点都记下来,看看它是不是覆盖了我们预期中应该编码的那个区域,万一这段ORF比参照的基因短了好大一截,就得去查一查是不是在哪一个地方提前撞上了一个终止密码子。
2、仔细看看有没有移码
把这条序列拿去跟参考序列比一下,眼睛要盯紧那些发生插入或缺失的位置,哪怕只有一个碱基的插入或缺失,都可能把后面的整个阅读框给拧掉,让原本应该是完完整整的一段ORF,碎裂成几截没法读通的片断。
3、别漏掉反向链上的结果
要是正链的三个阅读框里都没找到合理的ORF,也别马上断定这段序列就没有编码的潜力,要记得把序列反向互补之后,再去查一下反链上的ORF,因为很多测序片段当初克隆时的方向,可能跟我们预想的正好反了。
4、把筛选的依据保存下来
在留正式记录的时候,最好把这次用的是哪个版本的序列、设了什么样的ORF长度阈值、选的是哪一条链、起止的坐标在哪里,还有翻译出来的蛋白序列是什么样的,都写清楚,这样后面再要设计引物、去构建表达载体的时候,就能直接追溯到当初是怎么判断的,不用再重新理一遍。
总结
DNAMAN查看开放阅读框以及筛选ORF长度的这套操作思路,大致可以这样来走:先把DNA序列导进软件里,再进到ORF分析的功能去查看六个阅读框当中的候选编码区;在动手筛选的时候,别只拿最长的那一条当唯一的标准,还得把最小长度的设定、起始和终止密码子、方向、比对的结果,还有存不存在移码这些因素都揉在一起去判断;等结果认准之后,再去导出核酸或者蛋白的序列,这样后面不管是拿去做克隆、做表达,还是做功能分析,都会稳当得多。
