病毒是最简单的生物,完整的病毒颗粒包括外壳蛋白和内部的
基因组DNA或
RNA(有些病毒的外壳蛋白外面有一层由
宿主细胞构成的
被膜(envelope)),被膜内含有
病毒基因编码的
糖蛋白。病毒不能独立地复制,必需进入宿主细胞中借助细胞内的一些酶类和
细胞器才能使病毒得以复制。外壳蛋白(或被膜)的功能是识别和侵袭特定的宿主细胞并保护病毒基因组不受
核酸酶的破坏。
结构功能
病毒基因组的结构特点
牛乳头瘤病毒基因组结构和功能
结构特点
1.
病毒基因组大小相差较大,与细菌或
真核细胞相比,病毒的基因组很小,但是不同的病毒之间其基因组相差亦甚大。如
乙肝病毒DNA只有3kb大小,所含
信息量也较小,只能编码4种
蛋白质,而
痘病毒的基因组有300kb之大,可以编码几百种蛋白质,不但为病毒复制所涉及的酶类编码,甚至为
核苷酸代谢的酶类编码,因此,痘病毒对宿主的
依赖性较乙肝病毒小得多。
2.病毒基因组可以由
DNA组成,也可以由RNA组成,每种病毒颗粒中只含有一种核酸,或为DNA或为RNA,两者一般不共存于同一病毒颗粒中。组成病毒基因组的DNA和RNA可以是单链的,也可以是
双链的,可以是闭环分子,也可以是
线性分子。如
乳头瘤病毒是一种闭环的
双链DNA病毒,而
腺病毒的基因组则是线性的
双链DNA,
脊髓灰质炎病毒是一种单链的
RNA病毒,而
呼肠孤病毒的基因组是双链的RNA分子。一般说来,大多数
DNA病毒的基因组双链DNA分子,而大多数RNA病毒的基因组是
单链RNA分子。
3.多数RNA病毒的基因组是由连续的
核糖核酸链组成,但也有些病毒的基因组RNA由
不连续的几条核酸链组成如
流感病毒的基因组RNA分子是节段性的,由八条RNA分子构成,每条RNA分子都含有编码蛋白质分子的信息;而
呼肠孤病毒的基因组由
双链的节段性的RNA分子构成,共有10个
双链RNA片段,同样每段RNA分子都编码一种蛋白质。还没有发现有节段性的
DNA分子构成的病毒基因组。
4.
基因重叠即同一段DNA片段能够编码两种甚至三种蛋白质分子,这种现象在其它的
生物细胞中仅见于
线粒体和质粒DNA,所以也可以认为是病毒基因组的结构特点。这种结构使较小的基因组能够携带较多的
遗传信息。
重叠基因是1977年Sanger在研究
ΦX174时发现的。ΦX174是一种
单链DNA病毒,
宿主为大肠杆菌,因此,又是噬菌体。它感染
大肠杆菌后
共合成11个蛋白质分子,总分子量为25万左右,相当于6078个
核苷酸所容纳的信息量。而该病毒DNA本身只有5375个核苷酸,最多能编码总分子量为20万的蛋白质分子,Sanger在弄清ΦX174的11个基因中有些是重叠的之前,这样一个矛盾长时间无法解决。
重叠基因有以下几种情况:
(1)一个基因完全在另一个基因里面。如基因A和B是两个不同基因,而B包含在基因A内。同样,基因E在基因D内。
(2)部分重叠。如基因K和基因A及C的一部分
基因重叠。
(3)两个基因只有一个
碱基重叠。如基因D的
终止密码子的最后一个碱基是
J基因起始密码子的第一个碱基(如TAATG)。这些重叠基因尽管它们的DNA大部分相同,但是由于将
mRNA翻译成蛋白质时的
读框不一样,产生的蛋白质分子往往并不相同。有些重叠基因读框相同,只是起始部位不同,如SV40DNA基因组中,编码三个外壳蛋白VP1、VP2、VP3基因之间有122个碱基的重叠,但
密码子的读框不一样。而小t抗原完全在大
T抗原基因里面,它们有共同的起始密码子。
5.病毒基因组的大部分是用来编码蛋白质的,只有非常小的一份不被翻译,这与
真核细胞DNA的冗余现象不同如在ΦX174中不翻译的部份只占217/5375,G4DNA中占282/5577,都不到5%。不翻译的DNA顺序通常是
基因表达的
控制序列。如ΦX174的H基因和A基因之间的序列(3906-3973),共67个
碱基,包括
RNA聚合酶结合位,转录的
终止信号及
核糖体结合位点等基因表达的
控制区。乳头瘤病毒是一类感染人和动物的病毒,基因组约8.0Kb,其中不翻译的部份约为1.0kb,该区同样也是其他基因表达的
调控区.
6.病毒基因组
DNA序列中功能上相关的蛋白质的基因或
rRNA的基因往往丛集在基因组的一个或几个特定的部位,形成一个功能单位或
转录单元。它们可被一起转录成为含有多个mRNA的分子,称为
多顺反子mRNA(polycistroniemRNA),然后再加工成各种蛋白质的模板mRNA。如
腺病毒晚期基因编码病毒的12种外壳蛋白,在晚期
基因转录时是在一个
启动子的作用下生成多顺反子mRNA,然后再加工成各种mRNA,编码病毒的各种外壳蛋白,它们在功能上都是相关的;ΦX174基因组中的D-E-J-F-G-H基因也转录在同一mRNA中,然后再翻译成各种蛋白质,其中J、F、G及H都是编码外壳蛋白的,D蛋白与病毒的装配有关,E蛋白负责细菌的裂解,它们在功能上也是相关的。
7.除了
反转录病毒以外,一切病毒基因组都是
单倍体,每个基因在病毒颗粒中只出现一次。反转录病毒基因组有两个拷贝。
8.
噬菌体(细菌病毒)的基因是连续的;而
真核细胞病毒的基因是不连续的,具有
内含子,除了
正链RNA病毒之外,
真核细胞病毒的基因都是先转录成mRNA前体,再经加工才能切除内含子成为成熟的mRNA。更为有趣的是,有些真核病毒的内含子或其中的一部分,对某一个基因来说是内含子,而对另一个基因却是
外显子。如
SV40和
多瘤病毒(polyomavirus)的
早期基因就是这样。SV40的早期基因即大T和小t抗原的基因都是从5146开始反时针方向进行,大T抗原基因到2676位终止,而小t抗原到4624位即终止了,但是,从4900到4555之间一段346bp的片段是大T抗原基因的内含子,而该内含子中从4900-4624之间的DNA序列则是小t抗原的编码基因。同样,在多瘤病毒中,大T抗原基因中的内含子则是中T和t抗原的编码基因。
牛乳头瘤病毒基因组结构和功能
乳头瘤病毒(papillomavirus)是感染人和动物皮肤、粘膜并引起
乳头状瘤病变的一种DNA病毒,属于乳多空泡病毒(
papovavirus)科。根据
病毒感染的宿主不同可以分为牛乳头瘤病毒(BPV),
人乳头瘤病毒(HPV)等。已发现的乳头瘤病毒基因组都具有相似的结构。下面以BPV为例说明乳头瘤病毒的基因组结构及功能。BPVDNA全长7945bp,为闭环超
螺旋结构,在
宿主细胞中可以和
组蛋白结合形成
核小体。以BPVDNA中单一的HpaⅠ
酶切位点第一
碱基G为1号位,按5'→3'的方向给碱基编号定位。
DNA序列分析表明,所有的开放读框(
ORF)都存在于一条DNA链上,基因之间有相互重叠。整个BPV基因组分为
编码区和
非编码区(NCR),编码区又按其编码蛋白质的功能不同,分为早期转录功能区(E区)和晚期转录功能区(L区)。 1.非编码区(NCR)非编码区又称上游调控区(URR)或长控制区(LCR),位于
晚期基因L1
终止密码子与
早期基因E6第一个
起始密码子之间,长度在不同的乳头瘤病毒中不一样,在BPV中长约1.0kb。在NCR转录的
启动子序列,可以启动早期基因的转录和表达,另外,在该区还有
增强子序列,可以被早期
基因产物E2蛋白激活,进一步促进早期基因AAC的表达,已搞清了BPVNCR区增强子的序列,该序列为TTGGCGGNNG和ATCGGTGCACCGAT
回文结构。从NCR的结构特点上可以看出其主要功能是调节BPV基因的表达。
2.早期转录功能区(或称早期基因区,E区)BPV的E区含有八个开放读框(ORF),分别为E6、E7、E8、E1、E2、E3、E4、E5,其中E6、E7、E1基因有部份重叠,E8完全在E1中,E3、E4全部包含在E2中,E5与E2部份重叠。E2ORF编码的蛋白产物可以与NCR的
增强子结合,而提高或降低早期基因的表达水平。另外,E2ORF与E1ORF协同可以维持乳头瘤病毒DNA的
游离状态而
不整合到宿主细胞染色体上去。E6和E7ORFs编码的蛋白质可能是致癌蛋白。E6和E7蛋白可以引起宿主向恶性转化成为
肿瘤细胞。关于E6、E7蛋白引起
细胞转化的机制,现阶段尚不清楚,但有两种解释。[1]在E6、E7蛋白的
氨基酸序列中发现有Cys-x-x-Cys
重复序列,认为该结构是细胞内
核酸结合蛋白所具备的
特异性结构,因而认为E6、E7蛋白是
DNA结合蛋白,可以
调节基因的活性,进一步影响宿主细胞的增殖和分化,使该过程失去控制而形成肿瘤;[2]最近,在
正常细胞中发现有两种蛋白质分子量分别为53KD和106KD分别称为
p53和p106蛋白质。这两种蛋白质缺失或
失活往往引起细胞的恶性化。研究发现,乳头瘤病毒的E7和E6蛋白分别可以和p53和p106蛋白质结合而使其失活,这也可能是E6和E7蛋白质导致细胞恶性化的一种机制。
3.晚期转录功能区(晚期基因区、L区):L区ORFs有两个,即L1和L2ORF,编码乳头瘤病毒的外壳蛋白,其中L1蛋白是主要外壳蛋白,L2蛋白是次要外壳蛋白。
RNA噬菌体的基因组结构和功能
研究最清楚的大肠杆菌RNA噬菌体是MS2,R17,f2和Qβ。它们的基因组小,只有3600到4200个
核苷酸,包含四个基因。MS2.R17和f2具有几乎一样的基因组结构。在四个基因中有两个基因编码噬菌体的
结构蛋白:一个是A蛋白的基因,长1178个核苷酸。A蛋白(称为成熟蛋白)的功能是使噬菌体能识别宿主,并使其
RNA基因组能进入宿主菌,每个噬菌体一般只存在分子的A蛋白。另一个结构蛋白基因长399个核苷酸,编码外壳蛋白以构成病毒颗粒,每个噬菌体有180个分子。基因组的其他部分编码RNA
复制酶和一个溶解蛋白,编码溶解蛋白的基因与外壳蛋白和复制酶的基因有部分重叠,但读框与外壳蛋白的读框不一样。在MS2、R17、f2基因组内有许多
二级结构,RNA分子内碱基的自我配对,可能对防止
RNase降解有一定作用。另外,在编码基因的5'和3'端各有一段
非翻译序列,该序列对稳定RNA分子也有一定作用。
另一种RNA噬菌体Qβ的基因组略大,与上述RNA噬菌体的基因组有以下不同;[1]没有独立的溶解蛋白基因,但结构蛋白A2(或称成熟蛋白,MaturaitonProtein)即具有溶解蛋白的功能,[2]还编码另一种外壳蛋白A1。
乙肝病毒基因组的结构特点和功能
乙肝病毒(HBV)的基因组
DNA结构很奇特,是一
环状的部分双螺旋结构,长约3.2kb。其中的2/3为
双螺旋结构,1/3为单链,这就是说,DNA中的两条链不等长。
长链的5'端与3'端无
共价连接,而是与一种蛋白质共价相连。长链的5'端以250-300对
碱基互补结合。长链为
负链,
短链为
正链。短链的长度视病毒而异,一般长约1.6-2.8kb,约为长链的2/3。短链之间的空隙可由病毒颗粒中的
DNA聚合酶充填。乙肝病毒是已知的感染人类最小的双链DNA病毒。为了能在细胞内独立复制,病毒在很小的基因组中尽量容纳大量的
遗传信息。因而HBV的基因组结构显得特别精密浓缩,充分利用其
遗传物质。
重叠的基因序列比较多,HBV基因组中已确定的开放读框有4个,分别编码病毒的
核壳(C)和包膜(S)蛋白,病毒
复制酶(
聚合酶)及一种似乎与病毒
基因表达有关的蛋白质X。在
S基因前面的两个小ORFs与S基因ORF属于同一个读框,可以将ORFS通读下去,编码两种
S蛋白相关的抗原,这两种抗原也存在于病毒颗粒的表面,这两个抗原分别称为前-S1(pre-S1)和前-S2(pre-S2)。同样,在ORFC前面也有一短的ORF,称为前-C(pre-C),编码一较大的C蛋白相关抗原。所有这些ORF都在
负链DNA(长链)上,其中S基因完全重叠于聚合酶基因中,X基因与聚合酶基因、
C基因重叠,C基因与聚合酶也有重叠。最近,Miller等人在HBV基因组中又发现两个ORF,即ORF-5和ORF-6,这两个ORFs与X
基因重叠,其中ORF6不是由负链DNA编码的,而是由
正链DNA编码。这两个ORF的功能尚不清楚。
调节序列位于基因内部,这也是HBV节约使用遗传物质的一种方式。与HBV基团组复制有关的序列有:短链顺向复制序列(DR1和DR2)和U5样序列(因与
反转录病毒末端的U5序列类似面得名)。DR1和U5位于前-CORF中,是合成DNA长链的起始部位,DR2位于聚合酶基因与X基因重叠处,是DNA短链合成的起始部位。
与HBV基因表达有关的
信号序列有4种:[1]启动子,[2]
增强子,[3]polyA附加信号,[4]
糖皮质激素敏感因子(GRE)。由于HBV基因组中的基因分别转录于3种HBVmRNA
转录本上,因此,相应地在病毒基因组中每一转录本近5'端也至少应有3种
RNA聚合酶Ⅱ启动子,虽然这些启动子的基因序列尚不知,但这些启动子显然存在于编码蛋白质序列内。增强子(ENH)位于聚合酶基因中;polyA附加信号位于CORF中;而GRE位于SORF和聚合酶基因中。GRE是与
激素受体结构的DNA片段,结合后能使某一已知
基因转录水平增加。
GRE有许多增强子的特征:[1]是起
顺式作用的因子,[2]在转录的两个方向均有作用,[3]在距其调节的基因不同距离处均可起作用。
从以上可以看出HBV基因组结构严密,组织高效,在已知的病毒中是罕见的。HBVDNA不但在结构上有其独特的地方,而且其
DNA复制过程也非常特别。当HBVDNA进入
宿主细胞后,首先成为完整的闭环双螺旋DNA,以
负链为
模板合成全长的“+”链RNA(称为
前基因组RNA)。该“+”链RNA被包装在未成熟的核心样颗粒中,同时还有
DNA聚合酶和一种蛋白质也被包装在颗粒中。在该颗粒中“+”链RNA作为模板由
反转录酶催化合成“-”链DNA,具体机制尚不清楚,可能与
腺病毒DNA的复制相似,因为在“-”链DNA的5'端也有共价结合的蛋白质。“+”链DNA的合成便以该负链DNA为模板和一段RNA为
引物而聚合延伸,核心样病毒颗粒在这过程中也成为成熟的病毒颗粒。这时,
正链DNA仍没有合成完毕,因而造成病毒基因组两条DNA链长度不一样。