基因组注释(Genome annotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前
功能基因组学研究的一个热点。
概念
基因组注释的研究内容包括
基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。从基因组序列预测新基因,现阶段主要是3 种方法的结合: (1) 分析
mRNA 和
EST数据以直接得到结果; (2) 通过
相似性比对从已知基因和蛋白质序列得到
间接证据[1] ; (3) 基于各种
统计模型和算法
从头预测。对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释: (1)
序列数据库相似性搜索; (2) 序列模体(Motif) 搜索; (3)
直系同源序列
聚类分析(Cluster of orthologousgroup ,COG) [2] 。随着微生物全基因组
序列测定速率的加快,开发有Web 接口的高效、综合基因组注释系统十分必要。近年来,国际上已有一些这样的工具,如基于
Java 的微生物基因组
数据库接口。尽管JMGD 提供了一个很好的图形化接口程序,却并不具有基因组自动注释功能。德国国家环境和健康研究中心开发的蛋白质摘录、描述和分析工具(Protein extrac2tion , description , and analysis tool ,PEDANT) 是大型
基因组分析系统,整合了大量基因组功能信息和结构信息。PEDANT 注释功能强大[3] ,适用范围广,但没有便于操作的
图形界面,而且需要较强的硬件系统支持。微生物基因组全序列测定通常由中小实验室独立完成,有必要开发和集成基于PCPLinux 系统并以免费数据库管理系统、免费软件和
公共数据库资源为主的基因组信息注释系统。
系统方法
本系统基于PC 微机,操作系统为
Linux。测试系统为PIII 550
双CPU 微机,内存1GB ,运行RedHat 710 Linux 系统。
数据库管理系统使用
MySQL ,Web 服务器程序使用
Apache ,
应用程序接口用Perl
脚本语言编写。本系统也可在单CPU 微机上运行,内存不小于512MB。所有系统软件和应用软件均可以从Internet 网上免费获得。
本系统用
蓝细菌( Synechococcus sp. ) PCC7002 基因组初步拼接所得最大
重叠连续群(Contig) 作测试数据,共3 03247bp 。
113 MGAP 的基因组注释系统
基因组注释系统是MGAP 的核心,整合了许多常用的
基因识别和
蛋白质功能预测软件,包括GeneMarks、IPRsearch、BLASTPGP 和FASTA3 等,以及多个数据库,如非冗余蛋白质
序列数据库(Non redundant , NR) 、已知三维
空间结构的
蛋白质序列数据库(PDBSeq) 、国际蛋白质资源信息系统( InterPro) [6] 和
直系同源蛋白质家族数据库(Cluster of orthologousgroups ,COG) 等,编写了相应的模块进行自动操作,并把每一步注释结果导入数据库中。MGAP 整合的一般模块,可以被其他任何一种微生物基因组直接使用。不同实验室可根据实际研究需要,增加相应模块或数据,如
蓝细菌Anabaena sp. strain PCC 7120 的蛋白质序列库等。
基因识别是MGAP 的第一步,本系统采用微生物基因组基因识别最为权威的Gene2Marks 软件进行基因预测,通过http :PPopal .biology.gatech.eduPGeneMarkPgenemarks. cgi 网站提交
重叠连续群测试序列(3 03247bp) ,使用GeneMarks 缺省参数,预测得到279 个基因。
然后用MGAP 的数据加载模块(Loaddata) 将预测结果导入ORF 表中。
用户接口用于展示注释结果,提供易于操作和分析平台。本系统用户接口基于Web设计开发,用户可通过浏览器访问基因组注释系统,包括
基因组环状图展示、基因和ORF在染色体上
分布图,并对注释信息进行检索。基因组环状基因分布图构建基于如下信息:预测所得基因的起始位置、长度,编码基因的正负链信息,以及预测的基因功能分类。
2 结果
MGAP 系统对PCC7002 基因组
重叠连续群测试序列注释结果。A 为基因展示图,B 为ORF 显示页面。A 中由外向内依次为: (1)
正链编码基因; (2)
负链编码基因; (3)
GC 含量统计; (4) GC 偏离量统计。该系统构建的环状基因组,可显示正负链上的编码基因,用相应颜色表示功能类别。本系统沿用经典蛋白质功能
分类方法[8] ,即把微生物基因组所有基因按功能分为16 大类,进而细分为113 个子类。此外,还增加了统计GC 含量和GC 偏离量(GC Bias) 功能。计算GC 含量时以200bp 为
滑动窗口,计算GC 偏离量时以13kb 为滑动窗口。GC 偏离量表示G和C 含量的差别,定义为: (G2C)P(G+ C) [9] 。点击A图中环状
基因组展示图,则可得到B
图基因组局部ORF 显示页面。点击图中某个ORF ,即可调出其所有注释信息,包括该ORF 在基因组中的位置、长度、正负链信息、
核酸和蛋白序列,以及对NR 蛋白库、COG数据库、InterPro 、PDBseq 数据库的搜索结果。所有结果都有相对应的连接可以直接连到原始数据库。
3 讨论
新基因组功能注释是基因组研究的重要方面,MGAP 把注释所用软件和
公共数据库进行有机集成,使注释过程自动进行并把结果存储到
数据库系统中,最终提供友好的界面,可为中小实验室提供方便实用的微生物基因组注释系统,减少人工参与,提高注释效率。该系统考虑到国内一般中小实验室的实际情况,基于廉价的PC 微机和免费
Linux、MySQL 、Apache 和Perl 等软件
系统开发。
必须指出,所有计算机注释信息,均不能保证完全准确。MGAP 在一定程度上依赖于现有数据库中的注释信息。由于各种原因,这些注释信息必然有一些错误。显然,这些
错误信息将不可避免地引入新的注释系统。为此,MGAP 综合了多种注释方法,并互为补充。例如,一个ORF 既有
BLASTP从NR 数据库搜索到的相似序列,又在InterPro
蛋白质模体库中找到相应功能位点,也可找到高分匹配的COGs ,那么该注释结果就比较可靠。此外,必要的人工注释,可以避免或纠正自动注释的错误。例如,由于测序错误产生的
读码框移位或是缺失,会导致一个基因被拆分成两段,这种错误只能由手工纠正。基因组注释是一个复杂、繁琐的过程,需要大量的生物学知识。详尽、准确的注释需要经过严格的生物学实验才能获得。本系统对测试序列的注释结果仍有许多未知
功能基因,需不断扩充
新数据而逐步更新。MGAP 的新版本将增加交互式用户注释模块,进一步扩充和增强该系统注释功能。