unigene是Universal Gene的英文缩写,意为广泛通用的
基因数据库,通过电脑对相同
基因座(
Locus)的收集整理集合形成一个非冗余的
基因数据库。
简介
unigene是Universal Gene的英文缩写,意为广泛通用的
基因数据库,通过电脑对相同
基因座(
Locus)的收集整理集合形成一个非冗余的基因数据库。
说明
人类基因组计划的首要任务是对人类基因组进行全
序列测定,整个
基因组估计有30亿个
碱基对,其中大约3%可以编码蛋白质,其余部分的生物学功能还不清楚。
转录图谱可以把基因组中能够编码蛋白质的部分集中起来,因此是一种重要的数据资源。UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一
基因的序列,包括
EST序列片段搜集到一起,以便研究基因的转录图谱。UniGene除了包括人的基因外,也包括小鼠、
大鼠等其它
模式生物的基因,而HGI数据库只包括人的基因。该数据库的标题行(TITLE)给出基因的名称和简单说明,表达部位行(EXPRESS)指出该基因在什么组织中表达以及在
基因图谱中的位置等。此外,列出该基因在核酸序列数据库
GenBank或EMBL和
蛋白质序列数据库SWISS-PROT中的编号的
超文本链接。UniGene中部分条目包括已知基因序列,而有些条目则仅有新测得的
EST序列片段。这就意味着,这些
EST序列所对应的基因尚未搞清,可以用来发现新基因。在描绘基因图谱及大规模
基因表达分析等研究中,UniGene也可以帮助实验设计者选择试剂。UniGene可以通过
NCBI或
SRS系统访问。
The UniGene System UniGene是从属于GeneBank的一部分,专门收集非冗余性的
基因来源的clusters数据。每一个UniGene Cluster包含代表单一基因的
序列和相关的信息,例如基因表达的组织类型和图谱定位信息。
除了这些具有特征的序列以外,成千上万的EST也被收录在内。因此,相应的,这些收集的资源可以作为基因发现的来源。现在,许多实验室研究人员已经利用UniGene进行大规模的
基因表达图谱分析,并且所有这些序列并没有被用来尝试产生Contigs或Consensus。这里存在一些原因解释为什么同属于某一基因的序列不用来产生一个单一的
Contig. 所有属于同一基因的剪切变异被放在同一
聚类中。 来从同一cDNA克隆的
EST序列,通常都有5’和3’端的序列,但这些序列并不都具有重叠部分。
当前,Unigene已收录了Human 、Rat、Mouse和Cow、Zebrafish的序列。选择这些物种是因为它们有大量的EST可用数据,其它物种的序列将在今后陆续被加入。
UniGene的数据可通过FTP下载 UniGene Build Procedure:
聚类是一个发现同属于一个大类中的小的亚序列的过程,可通过转换离散相似值为序列之间的
布尔数学体系联系。也就是说,如果序列间的相似性超过某一
阈值,则认为它们具有相关性。UniGene clustering 对于这种
相关性分析提供更多的
生物学意义上的考虑,聚类过程大致如下:
1.对序列中的载体、
寡核苷酸、重复片段以及
线粒体、
核糖体等污染序列进行过滤。去除污染序列之后的序列至少要含有100bp的带有信息的序列才可作为候选序列。
2.Gene links
从属于同一
基因的序列(包括 mRNA or genome sequences, 完整的 CDS)彼此之间要进行比较,足够相似的序列被放在一起,形成初始的clusters。
3.EST to Gene links and EST to EST
通过megablast,EST与属于同一基因的序列进行比较,足够相似的序列 被加入到这些clusters。如果某一个序列,表现为可同时放在2个不同clusters,但不能把2个clusters联成一个cluster,这样的序列必须被剔除。另外,如果在clusters有2个以上的带有 3’
末端标记EST或在
Cluster中没有带有poly(A)信号的序列,这样的Clusters必须被抛弃。
经过这些标准筛选得到的clusters,称为
锚定clusters 。因为这些clusters具有3’ 末端序列,并被假定为已知的。
4 根据克隆信息设定Cluster的边界。
这样可以确保如果同属于一个
Cluster的5’末端和3’末端ESTs即使中间没有重叠的片段将它们联系起来,也能认定它们属于同一个cluster。如果在一个Cluster中有两个3’末端ESTs,那么就可在相同的克隆中找到两个5’末端EST,并将其放到同一个Cluster中。并且可以提供Clusters之间合并的信息。
由于新的序列数据的加入和每星期的不断更新,因此在UniGene中的resulting Cluster每星期也随之重新整理,不断更新。Clusters之间会发生融合,因此使用Cluster的ID作为标识,是不明智之举,最好利用GB accession numbers比较安全。
目前,在UniGene中包括有48,000 Clusters,Clusters 大部分依据
EST序列形成,每一个Cluster代表一个human gene 的
转录子,当前估计人类
基因组约有80,000到100,000基因。利用UniGene Clusters的一个重要的目的是识别新的,非冗余的候选b表达图谱,为产生一个转录子图谱-识别
基因组所有的
编码序列。