基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。
基因组数据库是
分子生物信息数据库的重要组成部分。基因组数据库内容丰富、名目繁多、格式不一,分布在世界各地的信息中心、测序中心、以及和医学、
生物学、农业等有关的研究机构和大学。基因组数据库的主体是模式生物基因组数据库,其中最主要的是由世界各国的人类基因组研究中心、测序中心构建的各种人类基因组数据库。小鼠、河豚鱼、
拟南芥、水稻、线虫、果蝇、酵母、大肠杆菌等各种模式生物基因组数据库或基因组信息资源都可以在网上找到。随着资源基因组计划的普遍实施,几十种动物、植物基因组数据库也纷纷上网,如英国Roslin研究所的ArkDB包括了猪、牛、绵羊、山羊、马等家畜以及鹿、狗、鸡等基因组数据库,美国、英国、日本等国的基因组中心的斑马鱼、罗非鱼(Tilapia)、青鳉鱼(Medaka)、鲑鱼(Salmon)等鱼类基因组数据库。英国谷物网络组织(CropNet)建有玉米、大麦、高粱、菜豆农作物以及苜蓿(Alfalfa)、牧草(Forage)、玫瑰等基因组数据库。除了模式生物基因组数据库外,基因组信息资源还包括染色体、基因突变、遗传疾病、分类学、比较基因组、基因调控和表达、放射杂交、基因图谱等各种数据库。
GDB数据库用表格方式给出基因组结构数据,包括基因单位、PCR位点、细胞遗传标记、EST、叠连群(Contig)、重复片段等;并可显示基因组图谱,其中包括细胞遗传图、连锁图、放射杂交图、叠连群图、转录图等;并给出等位基因等基因多态性数据库。此外,GDB数据库还包括了与核酸序列数据库GenBank和EMBL、遗传疾病数据库OMIM、文献摘要数据库MedLine等其它网络信息资源的
超文本链接。
GDB数据库是用大型商业软件
Sybase数据库管理系统开发的,并用Java语言编写基因图谱显示程序,为用户提供了很好的界面,缺点是传输速度受到一定限制。
GDB数据库是国际合作的成果,其宗旨是为从事基因组研究的生物学家和医护人员提供人类基因组信息资源。其数据来自于世界各国基因组研究的成果,经过注册的用户可以直接向GDB数据库中添加和编辑数据。
AceDB是线虫(Caenorhabditis elegans)基因组数据库。需要说明的是,AceDB既是一个数据库,又是一个数据库管理系统。AceDB基于面向对象的程序设计技术,是一个相当灵活和通用的数据库系统,可用于其它基因组计划的数据分析。AceDB最初是基于Unix操作系统的X窗口系统,适用于本地计算机系统。AceDB提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。新开发的WebAce和AceBrowser则是基于网络浏览器。Sanger中心已经将其用于线虫和人类基因组数据库的浏览和搜索。库内的资源包括限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献等等。
酵母基因组数据库SGD(Cherry et al.,1998)是已经完成基因组全序列测定的啤酒酵母基因组数据库资源,包括
啤酒酵母的分子生物学及遗传学等大量信息。通过因特网可以访问该数据库的全基因组信息资源,包括基因及其产物,一些突变体的表型,以及各种有关的注释信息。酵母基因组是于1998年完成基因组全序列测定的第一个真核生物基因组,其重要性不言而喻。SGD将各种功能集成在一起,生物学家可通过该数据库进行序列的同源性搜索,对基因序列进行分析,注册酵母基因名称,查看基因组的各类图谱,显示蛋白质分子的三维结构,设计能够有效克隆酵母基因的引物序列等。该数据库通过方便实用、形象生动的图形界面为用户提供酵母基因组的物理图谱、遗传图谱和序列特性图谱等信息。
美国基因组研究所TIGR的TDB数据库包括DNA及蛋白质序列、
基因表达、细胞功能以及蛋白质家族信息等,并收录有人、植物、微生物等的分类信息,是一套大型综合数据库。此外,该数据库还包括一个模式生物基因组信息库,收录了TIGR世界各地微生物基因组信息,包括致Lyme病螺旋体(B. Burgdorferi)、流感嗜血菌(H. Influenzae)、幽门螺杆菌(H. Pylori)和生殖道支原体(M. genitalium)等,以及寄生虫数据库(T. brucei P. falciparum),人、鼠、水稻、拟南芥(A. Thaliana)等基因组信息资源,其中有些数据可以由TIGR的FTP站点下载。
GenBank核酸序列数据库涵盖了从完整基因组到单个基因等序列数据及部分注释信息,称一次数据库。此外,还有些更有针对性的基因组资源,或称专用数据库。这些专用数据库既包括了上述一次数据库的部分数据,也包括从其它数据库资源获得的信息或交叉链接。这种专门数据库主要分为两大类,一类是模式生物基因组数据库,另一类则与特殊的测序技术有关。这类数据库尽管也包含序列数据,但它们的特色主要是为某一特定的模式生物提供一个完整的数据资源,如酵母(Saccharomyces cerevisiae)、线虫(Caenorhabditis elegans)、果蝇(Drosophila melanogaster)、拟南芥(Arabidopsis thaliana)、
幽门螺杆菌(Helicobacter pylori)等。这些数据库从各个不同层次上搜集整理有关信息,以便对某个模式生物全基因组有一个更加完整的了解。