1. 蛋白质序列数据库的数据库分类
PIR数据库按照数据的性质和注释层次分四个不同部分,分别为PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证,注释最为详尽;PIR2中包含尚未确定的冗余序列;PIR3中的序列尚未加以检验,也未加注释; 而PIR4中则包括了其它各种渠道获得的序列,既未验证,也无注释。除了PIR外,另一个重要的蛋白质序列数据库则是SwissProt。该数据库由瑞士日内瓦大学于1986年创建,目前由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,简称SIB)和欧洲生物信息学研究所 EBI共同维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(Expert Protein Analysis System,,简称ExPASy)的Web服务器除了开发和维护SwissProt数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。北京大学生物信息中心设有ExPASy的镜象。PIR和SwissProt是创建最早、使用最为广泛的两个蛋白质数据库。随着各种模式生物基因组计划的进展,DNA序列特别是EST序列大量进入核酸序列数据库。蛋白质序列数据库TrEMBL是从EMBL中的cDNA序列翻译得到的。TrEMBL数据库创建是于1996年[Bairoch, 2000],意为“Translation of EMBL”。该数据库采用SwissProt数据库格式,包含EMBL数据库中所有编码序列的翻译。TrEMBL数据库分两部分,SP-TrEMBL和 REM-TrEMBL。SP-TrEMBL中的条目最终将归并到SwissProt数据库中。而Rem-TrEMBL则包括其它剩余序列,包括免疫球蛋白、T细胞受体、少于8个氨基酸残基的小肽、合成序列、专利序列等。与TrEMBL类似,GenPept是由GenBank翻译得到的蛋白质序列。由于TrEMBL和GenPept均是由核酸序列通过计算机程序翻译生成,这两个数据库中的序列错误率较大,均有较大的冗余度。另一个常用的蛋白质序列数据库是已知三维结构蛋白质的一级结构序列数据库NRL-3D[Namboodiri, 1990]。该数据库的序列是从三维结构数据库PDB中提取出来。
2. 核酸序列、结构数据库有哪些
美国的核酸数据库GenBank
http://www.ncbi.nlm.nih.gov
欧洲核酸序列数据库EMBL
http://www.embl-heidelberg.de
日本核酸序列数据库DDBJ
http://www.ddbj.nig.ac.jp
这是目前世界三大核酸数据库.不本我们用的最多的还是NCBI,基本上是不用日本的!
3. 核酸序列数据库和基因组数据库的区别
核酸序列数据库(genbank)和基因组数据库(ensemble)的区别:
1、GenBank
是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
2、Ensemble数据库可为药物研发提供超过167,000种生物活性化合物包括化学结构在内的必要信息。本数据库利用用户容易掌握的界面将数据、文本和图象资料有机地结合起来,便于查询。Ensemble可从药品专利开始,再通过其临床前和临床研究资料,直至注册信息、市场概况及其他方面的相关资料来跟踪药物。数据库每月更新一次,每年增加约10,000
种新化合物。
4. 是哪位科学家首次在世界上建立了蛋白质数据库是哪位科学家首次在世界上建立了DNA序列数据库
EMBL是欧洲生物信息学研究所
(European
Bioinformatics
Institute,
EBI)创建的一个核酸序列数据库。EMBL的数据来源主要有两部分,一部分由科研人员或某些基因组测序机构通过计算机网络直接提交,另一部分则来自科技文献或专利(Stoesser等,
1998)。EMBL与DDBJ、GenBank建有合作关系,他们分别在全世界范围内收集核酸序列信息,每天都将新发现或更新过的数据相互交换。
DNA数据库的规模正在以指数方式增长,平均不到9个月就增加一倍。1998年1月,EMBL中收录的序列数已超过一百万,包括15,500个物种,其中模式生物的序列占50%以上,它们包括人类(Homo
sapiens),
线虫(Caenorhabditis
elegans),啤酒酵母(Saccharomyces
cerevisiae),小鼠(Mus
musculus)和拟南芥(Arabidopsis
thalania)。
可以利用序列查询系统
SRS(Sequence
Retrieval
System)从EMBL数据库中提取有关信息(Etzold等,1996年)。SRS序列查询系统通过超文本链接将DNA序列数据库和蛋白质序列、功能位点、结构、基因图谱以及文献摘要MEDLINE等各种数据库联系在一起。利用EBI网站提供的BLAST或FastA程序,可以对EMBL数据库进行未知序列同源性搜索。
5. 为什么说swiss-prot是重要的蛋白质序列数据库
SWISS-PROT是含有详细注释内容的蛋白质序列数据库,由欧洲生物信息学中心(EBI)维护,目前已合并入 UniProt数据库,旨在帮助基因组和蛋白质组以及相关的分子生物学研究人员提供有关蛋白质氨基酸序列的最新信息。
SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立
了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。SWISS-PROT数据库包含了EMBL核酸序列数据库中被经过仔细检查和准确注释了
的蛋白质序列,一般地,任何蛋白质序列数据的搜寻和比较都应从SWISS-PROT开始。
SWISS-PROT蛋白质序列数据由大量序列条目组成,每一个序列条目
有其自己的格式。为了标准化的目的,SWISS-PROT的格式与EMBL核酸序列数据库的格式尽可能类似。SWISS-PROT涉及已知蛋白质的序列、
引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关
系、序列变异体和冲突等信息。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序
获得的蛋白质序列,序列提交可以在其Web页面上完成。
6. 常用的查询蛋白质结构以及序列的数据库主要有哪些
1. PIR和PSD
PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库,可在这里下载。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。
PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
2. SWISS-PROT
SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。
利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。
3. PROSITE
PROSITE数据库收集了生物学有显着意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。
4. PDB
蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。
5. SCOP
蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全α、全β、α/β、α+β和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库,这个库通常被用来评估各种序列比对算法。此外,SCOP还提供一个PDB-ISL中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。
6. COG
蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序,可以把某个蛋白质与所有COGs中的蛋白质进行比对,并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询,基于Web的COGNITOR服务,系统进化模式的查询服务等。
7. 比较分析,genbank和embl格式有何异同
通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外,通过该系统的文献摘要数据库MEDLINE,可获取有关序列的进一步信息。在万维网上,进入NCBI的主页,可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索(详见第六章)。
完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发,价格比较便宜。随着数据库容量的增长,一套最新版的GenBank需要12张光盘存放,不仅生产成本很高,也不便于使用。现在,光盘分发的方式已经停止,可以通过网络下载GenBank数据库。
GenBank中最常用的是序列文件。序列文件的基本单位是序列条目,包括核甘酸碱基排列顺序和注释两部分。目前,许多生物信息资源中心通过计算机网络提供该数据库文件。下面,我们介绍序列文件的结构。
序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠"//"作结束标记。序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。
序列条目的关键字包括代码(LOCUS),说明(DEFINITION), 编号(ACCESSION),核酸标识符(NID),关键词(KEYWORDS),数据来源(SOURCE),文献(REFERENCE),特性表(FEATURES),碱基组成(BASE COUNT)及碱基排列顺序(ORIGIN)。
代码LOCUS是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。例如,图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容,如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述,如本例为人环氧化酶-2的mRNA全序列。
序列代码具有唯一性和永久性,如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列,在文献中引用这个序列时,应该以此代码为准。核酸标识符NID对序列信息的当前版本提供?
关键词字段由该序列的提交者提供,包括该序列的基因产物以及其它相关信息,如本例中还氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。 数据来源字段说明该序列是从什么生物体、什么组织得到的,如本例中人脐带血管(umbilical vein)。次关键字种属(ORGANISM)指出该生物体的分类学地位,如本例人、真核生物等等。文献字段说明该序列中的相关文献,包括作者(AUTHORS),题目(TITLE)及杂志名(JOURNAL)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。
FEATURES是具有自己的一套结构,用来详细描述序列特性的一个表格。在这个表格内,带有'/db-xref/'标志的字符可以连接到其它数据库内(本例,您看到的是一个分类数据库(taxon 9606),以及一个蛋白质数据库(PID:g181254));序列中各部分的位置都加以标明,5'非编码区(1-97),编码区(98-1912),3非编码区(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面,但已经足以说明特性表给出信息的详细程度。
接下来是BASE COUNT记录,计算出不同碱基在整个序列中出现的次数(1010A,712个C,633个G,1032个T)。ORIGIN那一行,指出了序列第一个碱基在基因组中可能的位置。最后,核酸的序列全部列出,并以//作为结尾。