UniProt 是 Universal Protein 的英文缩写,是信息最丰富、资源最广的
蛋白质数据库。它由整合
Swiss-Prot、 TrEMBL 和 PIR-PSD 三大数据库的数据而成。他的数据主要来自于
基因组测序项目完成后,后续获得的
蛋白质序列。它包含了大量来自
文献的蛋白质的生物功能的信息。
UniProtKB 全称 UniProt Knowledgebase(UniProt
知识库)它是经过专家校验的
数据集,主要由两部分组成:UniProtKB/
Swiss-Prot (包含检查过的、手工注释的条目) 和 UniProtKB/TrEMBL (包含未校验的、自动注释的条目),在 2010年8月是10日发布的版本中, UniProtKB/Swiss-Prot 包含 519,348 条注释条目, UniProtKB/TrEMBL 包含11,636,205 条注释条目。
该数据集包含高质量的计算分析结果,一般都在自动注释中富集,主要应对
基因组项目获得的大量
数据流以人工校验在时间上和人力上的不足。他能注释所有可用的蛋白序列。在三大
核酸数据库(
EMBL-Bank/
GenBank/DDBJ)中注释的
编码序列都被
自动翻译并加入该数据库中。它也有来自PDB数据库的序列,以及
Ensembl、Refeq和CCDS基因预测的序列。
UniParc全称是UniProt Archive,他是一个综合性的非冗余数据库,他包含了所有主要的、公开的数据库的
蛋白质序列。 由于蛋白质可能在不同的数据库中存在,并且可能在同一个数据库中有多个版本,为了去冗余,UniaraParc对每条唯一的序列只存一次。无论是否为同一物种的序列,只要序列相同就被合并为一条,每条序列提供稳定的、唯一的编号UPI。该数据库只含有蛋白质的序列信息,而没有注释数据。