生物
结构基因,由若干个
编码区和
非编码区互相间隔开但又连续镶嵌而成,去除非编码区再连接后,可翻译出由连续
氨基酸组成的完整
蛋白质,这些基因称为断裂基因。
在上世纪70年代以前,人们一直认为
遗传物质是
双链DNA,且DNA上排列的基因是连续的。Robert和Sharp彻底改变了这一观念,他们以DNA排列序列同包括人在内的
高等动物很接近的
腺病毒作为研究对象。结果发现它们的基因在DNA上的排列上是由一些不相关的片段隔开,是
不连续的。
他们的发现改变了科学家以往对于进化的认识,对于现代生物学的
基础研究以及生物
进化论具有重要的奠基作用,对于
肿瘤以及其他
遗传性疾病的医学导向研究亦具有特别重要的意义。
真核生物的
基因组十分复杂,
DNA的含量也比
原核生物的大得多。
噬菌体由于基因组很小,但又要编码一些必不可少的蛋白,
碱基显然不够用,这样不仅几乎所有的碱基都参加编码,而且在进化中还出现了“
重叠基因”,以有限的基因编码更多的
遗传信息。
真核基因组正好相反,DNA十分富余,这样不仅无需“重叠基因”,而且很多序列不编码,如重复序列、间隔序列(spacer)和间插序列(intervening sequence) 即
内含子(intron)等。但不编码并不等于没有功能。有的我们可能还不了解,如
重复序列。
间隔区和
间插序列这两个概念是不同的,间隔区是指基因间不编码的部分,有的转录称
转录间隔区(TS),有的不转录称为
非转录间隔区(NTS)。间插序列是指基因内部不编码的区域,也称内含子,在初始转录本中存在此序列,但在加工后将被切除掉,所以常
不作为翻译的信息。间隔区常常含有转录的
启动子和其它上游调节序列。有的内含子也可以编码,如
成熟酶和
内切酶等。
在遗传学上通常将能编码
蛋白质的基因称为
结构基因。
真核生物的结构基因是断裂的基因。一个断裂基因能够含有若干段
编码序列,这些可以编码的序列称为
外显子。在两个外显子之间被一段不编码的间隔序列隔开,这些间隔序列称为
内含子。每个断裂基因在第一个和最后一个外显子的外侧各有一段
非编码区,有人称其为
侧翼序列。在侧翼序列上有一系列
调控序列。
①在
5′端转录起始点上游约20~30个
核苷酸的地方,有
TATA框(TATA box)。 TATA框是一个短的
核苷酸序列,其
碱基顺序为TATAATAAT。TATA框是
启动子中的一个顺序,它是
RNA聚合酶的重要的接触点,它能够使酶准确地识别转录的起始点并开始转录。当TATA框中的
碱基顺序有所改变时,
mRNA的转录就会从不正常的位置开始。
②在5′端转录起始点上游约70~80个核苷酸的地方,有
CAAT框(CAAT box)。CAAT框是启动子中另一个短的核苷酸序列,其碱基顺序为GGCTCAATCT。CAAT框是
RNA聚合酶的另一个结合点,它的作用还不很肯定,但一般认为它控制着转录的起始频率,而不影响转录的起始点。当这段顺序被改变后,mRNA的形成量会明显减少。
③在5′端转录起始点上游约100个核苷酸以远的位置,有些顺序可以起到增强转录活性的作用,它能使转录活性增强上百倍,因此被称为
增强子。当这些顺序不存在时,可大大降低转录水平。研究表明,增强子通常有
组织特异性,这是因为不同
细胞核有不同的特异因子与增强子结合,从而对不同组织、器官的
基因表达有不同的调控作用。例如,人类
胰岛素基因5′末端上游约250个核苷酸处有一组织特异性增强子,在胰岛素
β细胞中有一种特异性蛋白因子,可以作用于这个区域以增强胰岛素基因的转录。在其他
组织细胞中没有这种蛋白因子,所以也就没有此作用。这就是为什么胰岛素基因只有在胰岛素β细胞中才能很好表达的重要原因。
④在
3′端终止密码的下游有一个
核苷酸顺序为AATAAA,这一顺序可能对mRNA的
加尾(mRNA尾部添加多聚A)有重要作用。这个顺序的下游是一个
反向重复顺序。这个顺序经转录后可形成一个
发卡结构(图3-4)。发卡结构阻碍了
RNA聚合酶的移动。发卡结构末尾的一串U与转录
模板DNA中的一串A之间,因形成的氢键
结合力较弱,使mRNA与
DNA杂交部分的结合不稳定,mRNA就会从模板上脱落下来,同时,RNA聚合酶也从DNA上解离下来,
转录终止。AATAAA顺序和它下游的反向重复顺序合称为
终止子,是转录终止的信号。
Phillip A. Sharp