DNA数据库
化学物理研究术语
集合所有已知核酸的核苷酸序列单核苷酸多态性、结构、性质以及相关描述,包括它们的科学命名、来源物种分类名称、参考文献等信息的资料库。基因和基因组的资料也包含在DNA数据库中。国际上比较重要的核酸(含蛋白质)一级数据库有美国的GenBank、欧洲的EMBL和日本的DDBJ。三个数据库信息共享,每日交换,故资料是一样的,唯格式有所不同。
EMBL
欧洲生物信息学研究所(European Bioinformatics Institute, EBI)创建的一个核酸序列数据库。EMBL的数据来源主要有两部分,一部分由科研人员或某些基因组测序机构通过计算机网络直接提交,另一部分则来自科技文献或专利(Stoesser等, 1998)。EMBL与DDBJ、GenBank建有合作关系,他们分别在全世界范围内收集核酸序列信息,每天都将新发现或更新过的数据相互交换。
DNA数据库的规模正在以指数方式增长,平均不到9个月就增加一倍。1998年1月,EMBL中收录的序列数已超过一百万,包括15,500个物种,其中模式生物的序列占50%以上,它们包括人类(Homo sapiens), 线虫(Caenorhabditis elegans),啤酒酵母(Saccharomyces cerevisiae),小鼠(Mus musculus)和拟南芥(Arabidopsis thalania)。
可以利用序列查询系统 SRS(Sequence Retrieval System)从EMBL数据库中提取有关信息(Etzold等,1996年)。SRS序列查询系统通过超文本链接将DNA序列数据库和蛋白质序列、功能位点、结构、基因图谱以及文献摘要MEDLINE等各种数据库联系在一起。利用EBI网站提供的BLAST或FastA程序,可以对EMBL数据库进行未知序列同源性搜索。
DDBJ
是DNA Data Bank of Japan的简称,始建于1986年,由国立遗传学研究院负责数据库的建设,维护及数据的传播,并与EMBL和GenBank合作;可以从世界各地通过网络把序列直接提交该数据库。DDBJ网页上也提供了包括FastA和BLAST在内的数据库查询工具。
GenBank
简介
GenBank是美国国家生物技术信息中心(National Center for Biotechnology Information ,NCBI)建立的DNA序列数据库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测序计划( Benson等, 1998)。为保证数据尽可能的完全,GenBank与EMBL、DDBJ建立了相互交换数据的合作关系。
大型数据库介绍
大型数据库分成若干子库,有许多好处。首先,可以把数据库查询限定在某一特定部分,以便加快查询速度。其次,基因组计划快速测序得到的大量序列尚未加以注释,将它们单独分类,有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列(High Throughput Genomic Sequences,HTG)、表达序列标记(Expressed Sequence Tags,EST)、序列标记位点(Sequence Tagged Sites,STS)和基因组概览序列(Genome Survey Sequences,GSS)单独分类。尽管这些数据尚未加以注释,它们依然是GenBank的重要组成部分。
可通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱蛋白质结构数据库整合在一起。此外,通过该系统的文献摘要数据库MEDLINE,可获取有关序列的进一步信息。在万维网上,进入NCBI的主页,可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索(详见第六章)。
完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发,价格比较便宜。随着数据库容量的增长,一套最新版的GenBank需要12张光盘存放,不仅生产成本很高,也不便于使用。光盘分发的方式已经停止,可以通过网络下载GenBank数据库。
GenBank中最常用的是序列文件。序列文件的基本单位是序列条目,包括核甘酸碱基排列顺序和注释两部分。许多生物信息资源中心通过计算机网络提供该数据库文件。下面,我们介绍序列文件的结构。
序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。
序列条目的关键字包括代码(LOCUS),说明(DEFINITION), 编号(ACCESSION),核酸标识符(NID),关键词(KEYWORDS),数据来源(SOURCE),文献(REFERENCE),特性表(FEATURES),碱基组成(BASE COUNT)及碱基排列顺序(ORIGIN)。
代码LOCUS是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。例如,图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容,如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述,如本例为人环氧化酶-2的mRNA全序列。
序列代码具有永久性,如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列,在文献中引用这个序列时,应该以此代码为准。核酸标识符NID对序列信息的当前版本提供?
关键词字段由该序列的提交者提供,包括该序列的基因产物以及其它相关信息,如本例中还氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。 数据来源字段说明该序列是从什么生物体、什么组织得到的,如本例中人脐带血管(umbilical vein)。次关键字种属(ORGANISM)指出该生物体的分类学地位,如本例人、真核生物等等。文献字段说明该序列中的相关文献,包括作者(AUTHORS),题目(TITLE)及杂志名(JOURNAL)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。
FEATURES是具有自己的一套结构,用来详细描述序列特性的一个表格。在这个表格内,带有‘/db-xref/’标志的字符可以连接到其它数据库内(本例,您看到的是一个分类数据库(taxon 9606),以及一个蛋白质数据库(PID:g181254));序列中各部分的位置都加以标明,5’非编码区(1-97),编码区(98-1912),3非编码区(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面,但已经足以说明特性表给出信息的详细程度。
接下来是BASE COUNT记录,计算出不同碱基在整个序列中出现的次数(1010A,712个C,633个G,1032个T)。ORIGIN那一行,指出了序列第一个碱基在基因组中可能的位置。最后,核酸的序列全部列出,并以//作为结尾。
dbEST
EST数据存储在dbEST数据库内,该数据库有自己的格式和识别代码系统。序列信息以及dbEST的注释摘要,也按DNA的分类分成了若干子数据库。1998年5月8日版的dbEST共包括1.6Ⅹ106条EST。其中有1百万条属于人类(Homo sapiens),30万条属于++(Mus musculus),和++(Mus domesticus)。
GSDB
这个基因组序列数据库由位于新墨西哥州Santa Fe的国家基因组资源中心创建。GSDB收集、管理并且发送完整的DNA序列及其相关信息,以满足主要基因组测序机构的需要。这一资源是以在线服务器-客户式关系数据库的形式进行工作的,为远端的大规模测序机构向其提交数据提供了方便。以这种方式获取的数据,在被发送之前会先对数据进行检查以确保数据的质量。
GSDB中条目的格式与GenBank中的基本一致。这两种条目的主要区别是GSDB中有名为GSDBID的一项。
这个数据库可以通过万维网,或使用服务器-客户式关系数据库来使用;无论用哪种方法,熟悉数据库语言,SQL(结构化查询语言),会有所帮助。
特定基因组资源
除了涵盖从完整基因组到单个基因各个方面的综合DNA序列数据库,还有些更有针对性的基因组资源,或称专用数据库。在一定程度上,可以认为这些数据库既连接了一些基本的DNA数据库,把它们的数据抽调出来填充到自己的数据库中;又连接了一些经常调用这些数据库的查询结果的其他数据库。这种独特数据资源存在的意义在于强调(a)特定物种的基因组,(b)特殊的测序技术。每包含的序列信息对这类数据库也许并不重要,一般情况下,它们主要的目的是为某一特定的物种提供一个更为完整的数据库资源,如模式生酵母(Saccharomyces cerevisiae)、 线虫(Caenorhabditis elegans)、果蝇(Drosophila melanogaster)、拟南芥(Arabidopsis thaliana)、幽门螺杆菌(Helicobacter pylori)等。因为某一系统中的序列数据只能提供该物种一定层次的信息,如果把更高层次的信息加以综合,就能对基因组的组织结构有一个完整的理解。
因特网为科学家们在交流基因科学方面的研究成果上带来的影响,怎么夸张都不过分。下面选择了能见到的几个数据库为例作些说明,其中既有网站,也包括可下载的数据文件。
SGD
酵母基因组数据库SGD(Cherry et al.,1998),是以方式工作的一种在线资源,包括了啤酒酵母的分子生物学及遗传学信息。通过因特网可以访问该数据库的全部基因组,包括基因及其产物,一些突变的表形还有各种数据的相关文字信息。酵母基因组的重要性在于,1998年它成为第一个完整测序的真核生物基因组。SGD通过若干功能的集成,为研究人员提供同源性查询,使用网络上的基因序列分析资源,注册酵母基因名称,查看基因组的各类图谱及三维结构信息,设计能够有效克隆酵母基因的引物序列等等。数据库通过一系列友好,生动的图形界面为用户展示各种物理、遗传、和序列特性图谱。
UniGene
人类基因组计划的主要任务是对人类基因组进行全测序,(整个基因组估计有30亿对碱基),然而这里面只有大约3%可以编码蛋白质,其余部分的生物学功能还不清楚。转录图谱可以把基因组中实际表达的部分集中起来,因此是一种重要资源。
UniGene希望通过从GeneBank中调出一些不包括多余部分、面向基因的序列串组成一个转录图谱。这个库涵盖了多种生物的基因,每个序列串与一个基因及其相关信息建立联系。如基因在什么生物组织中表达,图谱中的位置等。
除了研究的已经很清楚的基因序列外,大量新发现的EST也包括在内。这就意味着,大部分序列只是片段序列,相应基因并没有搞清楚。因此,这个数据库的另一个价值就是发现新基因。在描绘基因图谱及大规模基因表达分析等项目中,UniGene也可以帮助实验设计者选择试剂。
进入NCBI的主页,可以访问这个数据库。
TDB
TIGR
TIGR数据库(TDB)包括DNA及蛋白质序列,基因表达,细胞功能以及蛋白质家族信息,并且还收录有人、植物、微生物等的分类信息,是一套大型综合数据库。特别之处在于,这套数据库包括一个微生物信息库,收录了TIGR自己以及世界范围内的其它基因组测序计划的成果,如、致Lyme病螺旋体(B. Burgdorferi)、流感嗜血菌(H. Influenzae)、幽门螺杆菌(H. Pylori)、和生殖道支原体(M. genitalium)等,寄生虫数据库(T. brucei P. falciparum),人、鼠、水稻等基因索引计划;拟南芥(A. Thaliana)数据库;以及人类基因组数据库等。其中有些数据可以由FTP站点下载,或是由TIGR的主页访问。
ACeDB
AceDB数据库,是线虫(C. Elegans)基因组计划的一个成果。库内的资源包括限制性图谱基因结构信息,柯斯质粒图谱,序列数据,参考文献等等。通过软件ACEDB来管理并浏览这个数据库,ACEDB提供一个图形界面,使用户能够从大到整个基因组小到物理序列的各个层次考察基因组数据。ACeDB及ACEDB既可以指数据库又可以指浏览工具,这可能会引起混淆,用户应注意区分。
国内发展情况
中国国内的,在侦破案件上使用DNA技术,是很早就有的,但是真正的DNA系统是最近10年间才发展起来的。中国国内的DNA数据库系统,有数据量大,增长量快,比对复杂等特点。
主流公安机关使用的DNA系统 ,是由北京海鑫高科技有限公司和辽宁省公安厅刑事科学研究所共同研究的项目。该项目也列入了国家”十五“科技课题和公安厅的”金盾计划“。
针对拐卖儿童案件逐年上升的趋势,公安部又组织开发建立了全国公安机关“打拐”DNA数据库,使许多被拐卖的孩子和家里亲人得以团聚。
参考资料
最新修订时间:2023-12-21 22:58
目录
概述
EMBL
参考资料