1998年由中国内陆以及台湾地区与
日本、美国、
法国、韩国、
印度等发起,多国共同完成的对水稻基因研究的国际科研工程。1997年9月,水稻
基因组测序国际联盟在新加坡举行的植物
分子学大会期间成立。1998年2月,中、日、美、英、韩五国代表制定了“国际水稻基因组测序计划”,2002年12月12日,中国科学院、国家科技部、国家发展计划委员会和
国家自然基金会联合举行新闻发布会,宣布中国水稻基因组“精细图”已经完成。水稻
基因组计划研究包括水稻基因组测序和水稻基因组信息,是继“
人类基因组计划”后的又一重大国际合作的基因组研究项目。
计划介绍
水稻(Oryza sativa L.)是最重要
粮食作物之一,也是世界1/2以上人口的主食,与其相关的遗传学和分子生物学研究一直倍受研究者的重视。水稻
基因组(430 Mb)是禾谷类作物中最小的,且易于
遗传操作并与其他禾谷类作物存在
共线性,目前已成为遗传学和基因组研究的模式植物。至2002年,籼、粳稻两个亚种全
基因组工作框架图的测定和粳稻基因组全长序列的测定相继完成。这不仅有利于探明水稻基因功能,而且还有利于阐明更大和更复杂的禾谷类
基因组研究。水稻
基因组测序的研究成功将有助于为全人类的食物安全提供保障。
研发历程
水稻是最重要的粮食作物之一,直接关系到世界一半人口的生活质量。而决定水稻品质与产量的,则是水稻的基因。
1993年,基因中心以中国主要栽培品种
籼稻广陆4号为水稻
基因组研究品系。1996年,中国在国际上率先完成了水稻(
籼稻)
基因组物理图的构建。更为有价值的是,韩斌研究组在
测序4号
染色体的同时,还对另一个亚种
籼稻广陆矮4号染色体序列进行了测定,通过对两个品种连续长度达230万个DNA
碱基对相应序列的同源比较,首次报道了水稻两个主要栽培稻(籼稻、粳稻)间的
基因组成、顺序及DNA基因水平上的一些异同,从而揭示了栽培稻间的一些亲缘关系和进化关系。这是中国科学家在水稻基因研究领域的独到贡献。
《自然》审稿人认为:这些数据为将来整个基因水平上的比较提供了一个良好的示范。
随后,中国科学家发现,国际上同时进行的水稻基因研究不是以
籼稻为主,而是以粳稻为主。所以,中国科学家在国际学术交流中一度遇到冷落。因为国际上的一些科学家估计,
籼稻的
基因组将比粳稻多出10%,研究成本会更大。
1998年,国际水稻基因组测序计划正式启动,中国以及台湾地区与
日本、美国、
法国、韩国、
印度等一道,成为这一国际组织的成员。每个国家根据自身的经济实力,除
日本承担6条
染色体的测序外,其它国家与地区大都只承担一条染色体的测序。根据国际水稻
基因组织的协议,其成员必须将测序的所得数据提供给公共基因库,同时,也可以分享他人的数据,和有关这一领域的先进技术与成果。这就意味着,中国水稻基因的测序研究,奉献了10%的工作量,却拥有了分享另外90%成果的资格基因中心已向公共数据库递交了超过5000万
碱基的水稻
基因组DNA序列数据。
日本在水稻基因研究领域处于领先地位,而中国的第4号
染色体与日本的第1号染色体工作同时刊出论文,这本身就是国际合作的结果。
在测序过程中,需要大量的探针,中国暂不具备成熟的产品。而
日本从1992年就开始研究,探针的技术与产品已相当完备和成熟。根据协议,国家基因研究中心因此获得了最好的探针,提高了测序的准确性。
2002年12月18日,国际水稻
基因组测序工程结束纪念仪式在东京举行,200多位来自10个国家和地区的科学家和
日本各界代表出席了会议。宣布国际水稻基因组测序结束。
重大发现
水稻(
籼稻)基因工作框架图是继人类基因组之后完成测定的最大的基因组,也是迄今测定的最大植物基因组。该框架图已基本覆盖了水稻的整个
基因组、92%以上的水稻基因,人类第一次对水稻有了全基因组层次的了解。
《科学》杂志说,中国科学家采用“全
基因组散弹枪测序法”,测出了
籼稻亚种的基因组序列,该品种是中国和亚太地区其他国家的一个主要品种。
据专家介绍,中国“水稻(
籼稻)工作框架
序列图”与人类、
拟南芥等已经测定的
基因组序列相比,主要有八大发现:
1 估计水稻基因组中基因总数在46022至55615之间,其基因总数几乎是人类基因组基因总数的两倍;
2 水稻基因主要通过基因加倍而使“
基因家族”的成员数目增加,但每一“成员”的功能比较单一;
3 基因头尾差别大,大部分水稻基因的头部与尾部组成不一样,增加了基因发现的难度;
4 水稻、
拟南芥与人类基因组都有很多不
编码蛋白质的“垃圾”序列。水稻的这些“垃圾”序列多位于基因之外,而人类的却在基因之内。正因为如此,水稻基因的平均长度只有4500个
碱基,而人类基因的平均长度为72000个
碱基;
5
拟南芥已发现有2.5万个基因,80%左右的基因在水稻的
基因组中都可找到。而水稻
基因组中只有一半不到的基因在
拟南芥基因组中找到;
7 水稻序列的相互之间差异近1%,而人类序列的相互差异为1‰左右;
8 籼稻与杂交水稻母本的序列给杂交水稻的机制提供了新的启示:“杂交优势”很可能与基因组大小、
基因表达等都有关系。
意义价值
任何一个生物的全
基因组序列都蕴藏着这一生物的起源、进化、发育、生理等重要信息。水稻是全球半数以上人口赖以生存的
粮食作物,对于人类生活、粮食安全具有至关重要的意义。研究表明,水稻共有12条
染色体,它们记录着与水稻的高产优质、美味香色以及与生长期、抗病抗虫、耐旱耐涝、抗倒伏等所有性状相关的
遗传信息。因此,解析水稻
基因组序列,是改进水稻品质、提高水稻产量的前提和基础。
国际水稻基因组计划破译了水稻
遗传的“密码本”,科学家可以根据
测序得到的精确序列,对水稻中影响产量、口感、香味、抗病虫害等重要农业性状的基因进行鉴定,并采取措施提高水稻的产量和质量。这些将给水稻育种带来革命性的影响。
国际水稻基因组计划的完成,在农业生产上的意义可以与人类基因组计划对人类健康的意义相媲美。 获得水稻基因4号
染色体的序列分析结果,将有助于了解
小麦、
玉米等其它禾本科农作物的
基因组,为培育具有高产、优质、抗病虫害、抗逆等优良性状的水稻新品种打下良好基础。
基因研究对水稻研究的影响是多方面的。比如以前人们水稻选种只能依靠目测,而通过基因研究,人们可以利用遗传途径改良水稻品种,水稻的选种时间也可以大大缩短。
水稻基因数目再次表明,生命的复杂性远远超乎人类的任何预先设计和想象,而任何一次科学进步,都将使人类更加接近真理,接近事物的真相。正如人类基因数曾经出现过的波折那样:最开始人们认为大概有3万到10万个,直到2000年
人类基因组工作框架图被绘制并“解读”后,人们才发现人类的基因只有3万到4万个,远远低于最开始的推测。
基因组测序
基因组测序涉及DNA的大规模测序,由于目前只能采取分而治之的测序基本策略,即将基因组DNA分割成一定大小的片段,然后分别对这些片段进行测序。而
遗传图和物理图可作为整个基因组测序的路标,为小片段
DNA测序和
重叠群构建提供了基础。
(一)遗传图谱
自1988年McCouch等利用IR34583(籼)×BuluDalam(爪哇)的F2群体构建了第一张水稻分子连锁图谱(含135RFLP标记)以来,高密度的图谱相继产生。1991年,Tanksley等利用IRAT177(粳)/Apura(籼)DH群体构建了第二个RFLP分子连锁图谱;Saito等也构建了一张包含347个遗传标记的分子连锁图谱。1994年Causse等构建了另一张726个RFLP标记分子连锁图谱。Kurata等构建了一张包含1384个DNA标记的分子连锁图谱。中国的研究组也先后构建了一些遗传群体。近年来,随着
分子遗传学的迅速发展,国际水稻基因组测序计划(InternationalRiceGenomeSequencingProject,IRGSP)成员国以Nipponbare、Kasalath、IR64和Azucena等水稻品种为材料,构建了10个饱和的
遗传图谱并与表型的标记进行了整合,以创造新的
遗传资源。1998年,Harushima等构建了一张高密度水稻遗传连锁图,包含了2275个遗传标记,覆盖水稻
基因组1521.6cM。2001年,RiceGenomeProgram(RGP)公布了包含3267个RFLP
分子标记的水稻分子连锁图。还利用次级三体和终级三体(telotrisomics)将经典
遗传图和分子遗传图中的着丝粒位置确定,修正了分子图谱的方向,把RFLP标记定位到特定的
染色体臂上;Wu等构建了水稻第11和第12染色体短臂
末端重复基因组区域的图谱,重复基因组区域大小是2.5Mb,表明水稻也存在
大染色体片段的重复区域。上述
遗传图谱在
基因定位、
物理图谱的构建和基因
测序中发挥了或即将发挥巨大作用。
(二)物理图谱
已获得高密度水稻遗传连锁图,为何不能直接指导
基因组计划的测序,还要绘制物理图?其主要原因是遗传图的精确性较低、分辨率有限,而物理图是对遗传图的进一步深化,并能直接应用于图位
克隆技术分离
目的基因。1998年,Umehara等构建了水稻第一张物理图谱,共筛选到5701个
YAC,其中2117个单一YAC分配到12条
染色体上,跨度216Mb,覆盖水稻
基因组的50%。接着
日本水稻基因组计划(RGP)开始将
YAC重叠群(contig)分解成粘粒(cosmid)DNA
克隆,构建更精细的物理图谱。2001年,
RGP还构建了一个覆盖270Mb(全
基因组的63%)的
YAC文库的物理图,由6934个YAC组成,
插入片段平均长度为350kb。
由于
YAC克隆不太稳定、插入DNA难以分离、转化效率低等原因,美国Clemson大学
基因组研究所(ClemsonUniversityGenomicsInstitute,CUGI)又建成了两个BAC库,一个是由37000个HindⅢ酶切的BAC文库,
插入片段平均长度为128.5kb;另一个是有56000个克隆的EcoRⅠBAC库,插入片段平均大小为120kb,两者覆盖水稻基因组的26倍。1997年,中国科学院国家基因研究中心(NationalCenterforGeneResearch,NCGR)发表了由
指纹?锚标法策略建成的含565个
分子标记且覆盖率较高的水稻广陆矮4号
基因组BAC库
物理图。
2001年,RGP为了克服
YAC克隆的局限性,又以PAC为载体构建了水稻Nipponbare
基因组文库,此文库由72000个Sau3AⅠ酶切克隆组成,平均
插入片段长120kb,覆盖水稻基因组的16倍。RGP也对75000个PAC
克隆进行了排列,所有已定位的可用标记用于鉴定和锚定PAC克隆。这些
克隆分成3个池,以EST衍生的特异
引物进行PCR排序,一个EST共有的几个PAC
克隆被认为是重叠的,它们归为一个克隆群,这个方法可以解除由于
杂交探针属于
多基因家族而带来的困难。
(三)基因组测序
国际水稻基因组测序计划(IRGSP)由1997年在新加坡举行的植物分子生物学会议发起;1998年,中国、日本、美国和韩国的代表共同草拟了资源共享等组织议程;2000年在美国的C1emson召开了协调会,对12条
染色体测序任务进行了分工(表1)。测序工作分为测序、填补缺口和最后完成三个阶段。对于最后测序结果的标准,IRGSP规定为误差率低于1/10000(精度99.99%)。第二阶段是测序工作的瓶颈,测序阶段留下的缺口需要补平,水稻特殊序列组成(易于形成
二级结构和GC富集区)和
重复序列造成的低质量测序结果需要改进。通过各研究机构和私营公司的共同努力,IRGSP已于2002年12月宣布,利用
克隆连克隆(逐步克隆)测定法(clonebyclonesequencing),提前3年完成了水稻12条
染色体的
碱基测序工作。
日本在其中发挥着主导作用,并最先以99.99%的精度完成了最长的第1条
染色体的测序工作。此前,孟山都公司同意将已构建的水稻
基因组序列草图(包括已构建
物理图的3416个BAC和125619个STC序列)转让给IRGSP。RGP对原有的
物理图进行延伸及弥补物理图上的空缺,大大加速了水稻基因组测序工作进程。中国科学家完成了第4
染色体全长序列的精确测定。第1、4
染色体的序列和结构已同时发表在2002年11月
《Nature》第420期第312~320页。由美国Clemson大学负责的第10
染色体的全长序列也已发表在2003年9月的《Science》上。其余各条
染色体的测序结果也将陆续发表。另外,中国科学院
基因组信息中心暨北京华大基因研究中心(简称基因信息中心)等12家单位,于1998年至2001年利用全
基因组霰弹法(wholegenomeshotgunsequencing,WGS),构建了
籼稻93-11基因组工作框架图和低覆盖率的
培矮64S草图,并最先向全世界公布了水稻93-11全基因组框架图。随后,美国先正达(Syngenta)公司也完成了
日本晴基因组工作框架图的测序。两个框架图同时发表在2002年4月的
《Science》第296期第79~99页,它们都是对IRGSP的补充。
基因组信息
基因组(genome)包含了生物的进化、遗传和生命的奥秘,是
细胞遗传物质的总和,其大小通常以其全部DNA
碱基对总数来表示。水稻
基因组有12条
染色体,第1染色体最长,第10染色体最短;核基因组序列总长约430Mb,是
拟南芥基因组的3.7倍或
人类基因组的1/6.7,预测基因总数达32000~56000个,可能多于人类基因总数。
籼稻是亚洲和世界其他一些地方广为种植的主要水稻亚种,同时也是中国杂交水稻的主要
遗传背景之一,为解决中国人民的粮食问题作出了巨大贡献。籼稻93-11
基因组框架图,共完成462万个成功反应,得到了127550个
重叠群,覆盖深度为4.2×,预测基因组长466Mb,实测的全长非冗余序列为409.76Mb,大约覆盖了水稻全基因组的95.29%,
碱基准确率大于99%;估计基因的大小为4500bp,预测基因数为4.6~5.6万个,拷贝基因占基因总数的74%,
转位因子占全基因组的24.9%,
简单重复序列数为全基因组的2.1%;基因内GC含量的梯度明显;
外显子变异少、内含子变化大;水稻与
玉米、
小麦和大麦之间有广泛的
共线性,但水稻与
拟南芥的共线性是有限的。这些序列还贮存在
日本、
欧洲和美国的DNA公共数据库中(DDBI/EMBL/GenBank),项目记录的代码为AAAA00000000,版本号AAAA01000000。
粳稻是适宜于温带地区种植的另一类栽培稻亚种,
籼稻和粳稻两个亚种大约于200~300万年前在进化中产生分离,两者不同的
基因组比例达22%以上。日本晴(Nipponbare)
基因组框架图,共完成550万个成功反应,得到了42109个重叠群,覆盖深度大于6×;覆盖率为93%;非冗余序列为389809244bp,
碱基准确率大于99.99%,GC含量达44%;预测基因数为3.2~5.0万个,拷贝基因占基因总数的77%;
转位因子4220个,简单重复序列数为46666个;参照
拟南芥的功能分类法,从抗病性、花时和花发育特性、
新陈代谢、磷的转运子和
转录因子等方面进行了基因功能分类。这套粳稻
基因组框架图被简称为Syd(Syngentadraftsequence)。
第1
染色体的预测长度达51.4Mb,约占水稻图1水稻基因功能分类
碱基总数的1/10。其中短臂序列长493729bp,约6756个基因,约30%基因(2073个基因)已被功能分类。基因大小的均值是6.4kb。第1染色体是富G+C含量的染色体,特别是在
编码区,具有几个分散或
串联重复序列基因簇分布的特征。第4
染色体的预测长度达36.8Mb。已经以99.99%的精度完成了大约34.6Mb的测序工作。
着丝点是序列的植物中最长的,达1.16Mb。共预测到4658个基因和70个tRNA
编码基因,其中,1681个基因与EST相匹配。35%的基因功能已被分类。G C含量达44.16%。转座子明显偏向
常染色质域。水稻第4
染色体序列与
拟南芥基因组几乎没有
共线性等特征。
第10
染色体的预测长度达23.7Mb。已经以99.99%的精度完成了大约22422563bp的测序工作,短臂和长臂分别为7.6Mb和14.8Mb。共预测到3471个基因和67个tRNA编码基因,其中,8.3%基因与EST相匹配。51.4%基因的功能已被分类。G C含量达43.5%。这些序列贮存在美国的DNA公共数据库中(GenBank),记录代码为AE016959。
水稻
基因组的成功
测序是继完成人类
基因组测序后的又一巨大成功。它必将成为禾谷类作物
基因组研究的里程碑。
研究延伸
水稻基因组测序的完成及2002年9月中国水稻
功能基因组计划(ChinaRiceFunctionalGenomicsProgram,CRFGP)的启动,这一切都具有划时代的意义。然而,这还只是初步完成了整个基因组学的第一步——
结构基因组学,水稻全基因组的完成图和第二步的
功能基因组学的路更长,且更具现实意义。
完成图
水稻
基因组框架图和全长序列的精确测定虽已基本完成,但片段之间或
重叠群之间仍存在一些缺口或空隙(gap),如籼、粳两个亚种的基因组工作框架图分别覆盖了水稻全基因组的95.29%和93%,
碱基准确率约99%;第1
染色体和第4
染色体的全长序列之间也分别还有8个和7个缺口。由于无数
重复序列,第1染色体390个PAC/BAC
克隆中有4个克隆仍缺乏一致性,还属于
测序的第1阶段;16个克隆属于第2阶段,370个克隆属于第3阶段。框架图仍需增加更大片段读序,构建更大跨度的
重叠群(支架),填充这些顺序间隙(sequencegap)和物理间隙(physicalgap),结合现有的
物理图,改善框架图。全长序列还可用荧光标记终止法、
引物步查法和少
核苷酸的PCR反应等方法填补缺口或纠正组装错误。最终,为世界上所有从事水稻以及其他禾谷类作物研究的生物学家和
遗传学家提供一个高度准确并进行精细注释的水稻
基因组完成图。
功能基因组
大量
微生物和
模式生物的
基因组全序列
测序完成,如线虫(Caenorhabditiselegans)、
酿酒酵母(Saccharomycescerevisiae)、
拟南芥(Arabidopsisthaliana)、果蝇(Drosophilamelanogaster)和水稻(Oryzasativa)等。完成
基因组测序仅仅是基因组计划的第一步,更大的挑战在于弄清:⑴基因组顺序中所包含的全部
遗传信息是什么。⑵
基因组作为一个整体如何行使其功能。也即“
后基因组计划”,又称为
功能基因组学。水稻的基因总数有可能在5万~6万个左右,至今已报道的功能基因只有20%。随着被
克隆基因的日益增多,对基因功能的研究显得日益迫切。一系列研究基因功能的方法涌现,如基因转导技术、
基因敲除技术、基因嵌入技术及突变体库筛选和全
基因组表达分析。可以不同规模地鉴定出各类参与
细胞新陈代谢、转录、信号转导、运输和植物防御等功能基因。数以十万计的基因及其
编码的
蛋白质可供基因工程和蛋白质工程的操作,从而大大扩展生物技术的产业范围。
蛋白质组研究
蛋白质的结构是其功能的基础,
翻译后修饰是蛋白质调节功能的重要方式,蛋白质与DNA或蛋白质的相互作用及其调节是
细胞中信号传导及所有代谢活动的基础。
蛋白质组学的主要技术包括
二维聚丙烯酰胺凝胶电泳、质谱分析、
蛋白芯片、
酵母双杂交系统和
噬菌体展示技术。已有一系列有关水稻不同组织和器官中
蛋白质组研究的报道,从根、茎、叶片、种子芽、糠和
愈伤组织中分离蛋白质,经二维聚丙烯酰胺凝胶电泳,总共分辨出4892个蛋白斑点,其中约3%的氨基端序列已被测定;从根的蛋白中检测到292个斑点,其中76种蛋白的氨基端及内部序列已经测定,根据氨基酸系列,在水稻
cDNA文库中经
同源性搜索找到
编码42种蛋白的cDNA
克隆,如果文库足够大,那么编码蛋白的所有cDNA均应较容易地通过计算机搜索鉴定出来。
比较研究
禾谷类之间的广泛
共线性,加之相应的
遗传图和
物理图,可以将某作物的共线性区域的标记作为相关作物进行精细定位和鉴定
候选基因。水稻的小
基因组为其他禾谷类基因组研究提供了基础,包括鉴定高效直系基因、调控区域、基因功能和便利其他禾谷类基因组的测序,往往作为模式作物。Goff等报道几乎每个禾谷类
蛋白质与水稻都有一个相关基因,80%~90%禾谷类基因与水稻有同源性。禾谷类作物中大部分基因是保守的,它们的表型差异是由于少数不同基因或相似基因的功能差异引起的。通过
基因组列线比较,有利于鉴定其他禾谷类定位的性状与水稻相关的基因。约2000个禾谷类QTL被定位和列线在
基因组图谱上。例如,许多
玉米QTL与水稻第1
染色体的顶端相关。
玉米染色体1、2和7与这些区域同一列线。如在
玉米的第1
染色体上影响产量的一个QTL,与水稻第3染色体具有共线区域,该区域含220个预测基因和120多个水稻
SSRs。利用这些基因,通过同源性鉴定了
玉米的约100个未定位的cDNA,因此,它们是影响产量的候选基因。水稻
基因组中鉴别到生物
合成酶、信号转导
蛋白质、发育调控子和特殊转运子,已列线到水稻
物理图和
遗传图,也被锚到异源的禾谷类图谱上。绘制整个禾谷类
列线图能够获得大部分已定位的禾谷类QTL和取舍相关性状的候选基因。水稻基因组的成功测序为禾谷类作物基因组研究提供了一个基础。
生物信息学
生物信息学的主要研究内容是生物数据库及生物信息分析,随着各种
模式生物基因组计划的实施,生物数据库数量持续增长,数据库结构更复杂,大量新的分析方法被提出和改进,大量重要基因被发现;大量来自
基因组水平上的分析比较结果被公布,这些结果正在日益改变人类已有的一些观念。各种数据库中具有生物联系的内容能连接到一起,实现生物信息资源共享。
DNA数据库是公共生物数据库中最大的一类数据库,包含大量已知功能和未知功能的DNA系列。中国水稻
功能基因组项目也构建了一个综合的水稻
基因信息数据库,包含了国内外相关的水稻插入突变体、TAC末端序列和ESTs序列,可为进一步研究新基因的功能提供更多有价值的信息。生物信息学已广泛用于基因组和
蛋白质组的研究,但是,随着大多数基因和蛋白质功能的阐明,将会出现一个新的发展前景,这就是在计算机上模拟
细胞内部和机体内部的生化代谢过程,甚至模拟进化 的历程,这将使生物学真正进入
理论生物学的新时期。
研究成果
传统水稻育种的成功主要依赖于一系列优异基因(如矮秆基因、抗病和
细胞质雄性不育基因)的发掘和利用,
功能基因组发现的新基因也将大大促进水稻新品种的选育。通过水稻
基因组序列比较分析和多态性鉴定,发现了品种之间的序列差异,而这些差异与表型差异一致。重要的是,利用这些差异将为
分子标记辅助育种提供一个前所未有的机会。5万~6万个左右水稻基因的功能注释完成以后,对植物界有普遍意义。已利用
遗传工程将单个或多个目的基因导入
水稻栽培品种,改良作物某些性状。科学家们可以利用“
分子设计育种”,只要在屏幕上触摸任何
发育阶段的水稻
细胞就能看到所有表达的
蛋白质以及它们之间的相互作用,在电脑上制定出“保护水稻整个生命周期一切活动所需的最佳基因”研究方案。