当前位置:首页 » 数据仓库 » genbank数据库的基因产物
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

genbank数据库的基因产物

发布时间: 2022-09-12 06:42:42

A. 什么是Genbank,它的主要用途是什么

GenBank 概述

· 什么是GenBank? GenBank 是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。

· 纪录样本 - 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。

· 访问GenBank - 通过 Entrez Nucleotides 来查询。用 accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于 Entrez 更多的信息请看下文。用 BLAST 来在 GenBank 和其他数据库中进行序列相似搜索。用E-mail来访问Entrez 和 BLAST 可以通过 Query 和 BLAST 服务器。另外一种选择是可以用 FTP 下载整个的 GenBank 和更新数据。

· 增长统计 - 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank增长)小节。

· 公布通知,最新 - 最近和即将有的变化,GenBank 的分类,数据增长统计,GenBank 的引用。

· 公布通知,旧 - 同上相同,是过去公布的统计。

· 遗传密码 - 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。

向GenBank提交数据

· 关于提交序列数据,收到 accession number,和对纪录作更新的一般信息。

· BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。(请在提交前用 VecScreen 去除载体)

· Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以懒⑹褂茫�蛘哂没�赥CP/IP的"network aware"模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。(请在提交前用VecScreen去除载体)

· ESTs - 表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和 RACE 实验的 cDNA 序列。

· GSSs - 基因组调查序列,短的、单次(测序)阅读的cDNA序列,exon trap 获得的序列,cosmid/BAC/YAC 末端,及其他。

· HTGs - 来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)序列。(注意:完成的人类的HTG序列可以同时在 GenBank 和 Human Genome Sequencing 页面上访问。)

· STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列,用于产生作图位点。

· 注:SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。

国际核苷酸序列数据库合作组织

· GenBank,DDBJ,EMBL - 合作计划的概述,并链接到相应的主页。GenBank,DDBJ(DNA Data Bank of Japan),and EMBL (European Molecular Biology Laboratory)数据库共享的数据是每天都交换的,因此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是accession number,序列数据和注解都是一模一样的。即,你可以用accession number U12345在GenBank,DDBJ或EMBL中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。

· DDBJ/EMBJ/GenBank 特性表 - 特性表格式和标准被合作数据库用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨基酸的代号。

FTP GenBank 及每日更新

· GenBank普通文件格式 - 参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。

· ASN.1格式 - 摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。

· FASTA格式 - 定义行号后只跟随序列数据(示例),参见描述数据库的readme文件,包括nt.Z(每天更新的非冗余BLAST核酸数据库,包括GenBank+EMBL+DDBJ+PDB序列,但是不包括EST, STS, GSS, or HTGS序列),nr.Z(每日更新的非冗余蛋白质),est.Z, gss.Z, htg.Z, sts.Z,和其它文件。

http://www.bioon.com/biology/Print.asp?ArticleID=1256

B. DNA数据库的GenBank

大型数据库分成若干子库,有许多好处。首先,可以把数据库查询限定在某一特定部分,以便加快查询速度。其次,基因组计划快速测序得到的大量序列尚未加以注释,将它们单独分类,有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列(High Throughput Genomic Sequences,HTG)、表达序列标记(Expressed Sequence Tags,EST)、序列标记位点(Sequence Tagged Sites,STS)和基因组概览序列(Genome Survey Sequences,GSS)单独分类。尽管这些数据尚未加以注释,它们依然是GenBank的重要组成部分。
可通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外,通过该系统的文献摘要数据库MEDLINE,可获取有关序列的进一步信息。在万维网上,进入NCBI的主页,可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索(详见第六章)。
完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发,价格比较便宜。随着数据库容量的增长,一套最新版的GenBank需要12张光盘存放,不仅生产成本很高,也不便于使用。现在,光盘分发的方式已经停止,可以通过网络下载GenBank数据库。
GenBank中最常用的是序列文件。序列文件的基本单位是序列条目,包括核甘酸碱基排列顺序和注释两部分。目前,许多生物信息资源中心通过计算机网络提供该数据库文件。下面,我们介绍序列文件的结构。
序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。
序列条目的关键字包括代码(LOCUS),说明(DEFINITION), 编号(ACCESSION),核酸标识符(NID),关键词(KEYWORDS),数据来源(SOURCE),文献(REFERENCE),特性表(FEATURES),碱基组成(BASE COUNT)及碱基排列顺序(ORIGIN)。
代码LOCUS是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。例如,图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容,如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述,如本例为人环氧化酶-2的mRNA全序列。
序列代码具有唯一性和永久性,如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列,在文献中引用这个序列时,应该以此代码为准。核酸标识符NID对序列信息的当前版本提供?
关键词字段由该序列的提交者提供,包括该序列的基因产物以及其它相关信息,如本例中还氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。 数据来源字段说明该序列是从什么生物体、什么组织得到的,如本例中人脐带血管(umbilical vein)。次关键字种属(ORGANISM)指出该生物体的分类学地位,如本例人、真核生物等等。文献字段说明该序列中的相关文献,包括作者(AUTHORS),题目(TITLE)及杂志名(JOURNAL)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。
FEATURES是具有自己的一套结构,用来详细描述序列特性的一个表格。在这个表格内,带有‘/db-xref/’标志的字符可以连接到其它数据库内(本例,您看到的是一个分类数据库(taxon 9606),以及一个蛋白质数据库(PID:g181254));序列中各部分的位置都加以标明,5’非编码区(1-97),编码区(98-1912),3非编码区(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面,但已经足以说明特性表给出信息的详细程度。
接下来是BASE COUNT记录,计算出不同碱基在整个序列中出现的次数(1010A,712个C,633个G,1032个T)。ORIGIN那一行,指出了序列第一个碱基在基因组中可能的位置。最后,核酸的序列全部列出,并以//作为结尾。

C. 怎样在genbank基因库中找出我需要的基因序列啊

在GeneBank 中查找基因序列只要输入accession号就可以了 ,下面网址就是一个基因的全部序列信息的例子,http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html,在记录的末尾有各种记录的详细说明,如果你没有accession号,可以把你手头的编号用source等信息源转换成accession号,中文教程太古老了,如果你是初学者一定要养成看英文文献的习惯,要是特别想看中文翻译的话,书店里随便一本生物信息学书里都会介绍数据库的,不过有些翻译过来的东西真的很别扭。 2、关于在GeneBank中查找序列我有几点体会: 最直接、最简单的方法是手头有基因的accession号;
如果没有就需要明确两个重要的内容,即基因名称及物种信息(如果有最好是拉丁全名),基因名称尽可能详细,避免搜出一些不相关的信息;
搜索的时候建议先用NCBI的Gene数据库搜索,这样得到的accession号是属于NCBI工作人员重新整理过的Refseq的序列,这样会比较可靠;当然这个要看你的分析目的,如果你是要对该序列进行下游的分子生物学操作or分析,选这种序列我觉得会比较好,如果是要进行多序列的分析or其他目的需要全面分析该序列的,可能需要其他序列做补充,但是我觉得序列越多问题越说不清楚,因为毕竟不是自己的序列,如果Gene数据库里没有收录,那就只有在Nucleotide数据库里找了,但是还是建议采用Refseq的序列,Refseq序列特征如下:
Accession prefix Molecule type Comment
AC_ Genomic Complete genomic molecule, alternate assembly NC_ Genomic Complete genomic molecule, reference assembly NG_ Genomic Incomplete genomic region
NT_ Genomic Contig or scaffold, clone-based or WGSa NW_ Genomic Contig or scaffold, primarily WGSa NS_ Genomic Environmental sequence NZ_b Genomic Unfinished WGS NM_ mRNA NR_ RNA
XM_c mRNA Predicted model XR_c RNA Predicted model
AP_ Protein Annotated on AC_ alternate assembly NP_ Protein YP_c Protein
XP_c Protein Predicted model
ZP_c Protein Predicted model, annotated on NZ_ genomic records a Whole Genome Shotgun sequence data. b An ordered collection of WGS for a genome. c Computed.
其他值得考虑的是,对于真核生物最好找注释为全长的mRNA序列,原核生物最好有起始密码子和终止密码子

D. 16s rRNA的本质是RNA,为什么GENBANK里面的序列组成却是ATCG

摘要 在生物信息学数据库里,核酸,包括DNA和RNA,它们的序列都是用DNA序列的形式,也就是ATGC表示的,除了一些特别的稀有碱基。这样便于统一管理数据。而且,比如说16SrRNA,其DNA序列和RNA序列就是T和U的区别,只是一个转换问题,很简单。只需要在存储的序列注释里说明这个序列是mRNA还是

E. genbank中来自cathepsin l的序列记录约有多少

GENBANK序列数据库 GENBANK是美国国立卫生研究院(NIH)维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个纪录代表了一个单独的、连续的、带有注释的DNA或RNA片段。目前GENBANK中所有的纪录均来自于最初作者向DNA数据库的直接提交。 蛋白质数据库: 60年代初,DAYHOFF和他的同事们收集了所有当时已知的氨基酸序列,这就是《蛋白质序列与结构图册》。这一蛋白质数据库后来成为蛋白质信息资源PIR。 核苷酸数据库: 1982年在欧洲分子生物学实验室(EMBL)诞生,随即就开始了一个数据库爆炸的时代。后来NIH搞了GENBANK。日本的DNA数据库(DDBJ)加入了数据收集的合作。国际DNA序列数据库合作计划。规定了数据记录和更新的规则。 国际核苷酸序列数据库合作成员GENBANK--DDBJ--EMBL。GENBANK指的是DDBJ/EMBL/GENBANK 开发利用这些信息的工具(如NCBI的信息检索系统 ENTREZ a href=" http://www.NCBI.NLM.NIH.GOV/ENTREZ/ " http://www.NCBI.NLM.NIH.GOV/ENTREZ//a ) 编码序列(CDS): 大多数蛋白质序列都不是直接由实验确定的,而是通过DNA序列得到的。这种方法需要进行大量的实验、计算以及相似性比对工作。他也赋予一个产物名称,或者功能说明(通过主观的对相似性比对的分析)。 数据库的格式与内容: 数据库被用来存放原始数据和一系列附加的信息。不同的检索工具和程序利用了这些信息中的不同部分。 FASTA 格式:广泛应用于许多分子生物学软件包之中。作为最简单的情况,大于号(>)表示一个新文件的开始。通常60个字符一行。 >GB|AF150991|AF150991 TRICHOPLUSIA NI SINGLE CAPSID NUCLEAR POLYHEDROSIS VIRUS.ENSURES GREATER OCCLUSION BODY STABILITYPRODUCT--P10 / P10 PROTEIN >GB|AF275264|AF275264 HELICOVERPA ZEA NUCLEAR POLYHEDROSIS VIRUS.COMPLEMENTPRODUCT--E66-LIKE PROTEIN (PARTIAL DNA SEQUENCE) >GB|AF275264|AF275264 HELICOVERPA ZEA NUCLEAR POLYHEDROSIS VIRUS.COMPLEMENTPRODUCT--P13 >GB|AF275264|AF275264 HELICOVERPA ZEA NUCLEAR POLYHEDROSIS VIRUS.PRODUCT--ORF50-LIKE PROTEIN ASN.1 GENBANK FLATFILE: 头部: 始于LOCUS行---LOCUS名称,序列长度,生物分子的类型(SS或DS DNA,RNA,TRNA,RRNA, MRNA),GENBANK分类码,数据公开日期 DEFINITION行---总结纪录的生物意义。 检索号---是从数据库中检索一个记录的主要关键词。格式:1+5或2+6。所有的GENBANK记录都只有一个单独的ACCESSION行。 NID---行表示核苷酸序列的GI号码(GENINFO IDENTIFIER)。一个GI号码对应于一个核苷酸序列。当序列改变时,GI号也改变,但检索号不变。 KEYWORDS--- SOURCS--- ORGANISM--- REFERENCE--- AUTHORS--- TITLE--- JOURNAL---

F. Genbank序列包含什么

用户可以通过NCBI(National Center for Biotechnology Information美国国家生物技术信息中心信息中心,隶属于NLM-美国国家医学图书馆)的主页使用GenBank。GenBank的宗旨是鼓励科研团体对DNA序列的获取,从而促进数据库中DNA序列的丰富和更新,所以NCBI对GenBank的数据使用与发送没有任何限制。用户可从GenBank主页上下载Banklt(NCBI提供的WWW格式,用于便捷的提交DNA序列的数据)、sequin(NCBI的独立于操作系统的提交软件,可用于MAC、PC和UNIX平台,也可以通过FTP远程获取)以及VecScreen(带菌污染物的筛选工具)等便于提交和更新研究成果的应用软件。
其页面上的简单检索界面提供19种相关检索选项,分别是:PubMed、Protein(蛋白质)、Nucleotide(核苷)、Structure(结构)、Genome(基因组)、PMC、LocusLink、PopSet、OMIM、Taxonomy(分类学)、Books(图书)、ProbeSet、3D Domains(三维区域)、UniSTS、Domains、SNP、Journals(期刊)、UniGene、NCBI Web Site(NCBI站点)。GenBank可以与DNA Star软件结合使用,进行基因序列分析和比对。GenBank是一个开放获取的序列数据库,对所有公开可利用的核苷酸序列与其翻译的蛋白质进行收集并注释。 此数据库是国际协作核酸序列数据库(INSDC)的一部分,由美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)主管,NCBI为美国国立卫生研究院的下属机构。GenBank和它的合作者从全球各个实验室接收了超过百万种生物的数据。Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献着作和生物学注释。它的数据直接来源于测序工作者提交的序列、由测序中心提交的大量EST序列和其它测序数据、以及与其它数据机构协作交换数据而来。
Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。到1999年8月,Genbank中收集的序列数量达到460万条,34亿个碱基,而且数据增长的速度还在不断加快。Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库,或下载积累的新数据。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从NCBI的主页上找到这些服务。

G. 核酸序列数据库(genbank)和基因组数据库(ensemble)的区别

核酸序列数据库(genbank)和基因组数据库(ensemble)的区别:
1、GenBank
是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
2、Ensemble数据库可为药物研发提供超过167,000种生物活性化合物包括化学结构在内的必要信息。本数据库利用用户容易掌握的界面将数据、文本和图象资料有机地结合起来,便于查询。Ensemble可从药品专利开始,再通过其临床前和临床研究资料,直至注册信息、市场概况及其他方面的相关资料来跟踪药物。数据库每月更新一次,每年增加约10,000
种新化合物。

H. genbank文件怎么进行数据对比

GenBank是美国国家生物技术信息中心(National Center for Biotechnology Information ,NCBI)建立的DNA序列数据库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测序计划( Benson等, 1998)。为保证数据尽可能的完全,GenBank与EMBL、DDBJ建立了相互交换数据的合作关系。你可以到生物帮那里了解这方面的信息,生物帮,依托互联网,面向生物研究者、企业和研究机构,提供最新、领先、精准、高效、全面的生物产品和技术信息。我一般找资料都会去那里的。帮助蛮大的。 简介大型数据库分成若干子库,有许多好处。首先,可以把数据库查询限定在某一特定部分,以便加快查询速度。其次,基因组计划快速测序得到的大量序列尚未加以注释,将它们单独分类,有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列(HighThroughput Genomic Sequences,HTG)、表达序列标记(Expressed Sequence Tags,EST)、序列标记位点(Sequence TaggedSites,STS)和基因组概览序列(Genome Survey Sequences,GSS)单独分类。尽管这些数据尚未加以注释,它们依然是GenBank的重要组成部分。可通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外,通过该系统的文献摘要数据库MEDLINE,可获取有关序列的进一步信息。在万维网上,进入NCBI的主页,可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索(详见第六章)。完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发,价格比较便宜。随着数据库容量的增长,一套最新版的GenBank需要12张光盘存放,不仅生产成本很高,也不便于使用。现在,光盘分发的方式已经停止,可以通过网络下载GenBank数据库。可 参考:That can help you.Click /zt/focus/ncbi.htm, Sign in accountGenBank中最常用的是序列文件。序列文件的基本单位是序列条目,包括核甘酸碱基排列顺序和注释两部分。目前,许多生物信息资源中心通过计算机网络提供该数据库文件。下面,我们介绍序列文件的结构。序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。序列条目的关键字包括代码(LOCUS),说明(DEFINITION), 编号(ACCESSION),核酸标识符(NID),关键词(KEYWORDS),数据来源(SOURCE),文献(REFERENCE),特性表(FEATURES),碱基组成(BASE COUNT)及碱基排列顺序(ORIGIN)。代码LOCUS是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。例如,图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容,如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述,如本例为人环氧化酶-2的mRNA全序列。序列代码具有唯一性和永久性,如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列,在文献中引用这个序列时,应该以此代码为准。核酸标识符NID对序列信息的当前版本提供?关键词字段由该序列的提交者提供,包括该序列的基因产物以及其它相关信息,如本例中还氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。数据来源字段说明该序列是从什么生物体、什么组织得到的,如本例中人脐带血管(umbilical vein)。次关键字种属(ORGANISM)指出该生物体的分类学地位,如本例人、真核生物等等。文献字段说明该序列中的相关文献,包括作者(AUTHORS),题目(TITLE)及杂志名(JOURNAL)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。FEATURES是具有自己的一套结构,用来详细描述序列特性的一个表格。在这个表格内,带有‘/db-xref/’标志的字符可以连接到其它数据库内(本例,您看到的是一个分类数据库(taxon 9606),以及一个蛋白质数据库(PID:g181254));序列中各部分的位置都加以标明,5’非编码区(1-97),编码区(98-1912),3非编码区(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面,但已经足以说明特性表给出信息的详细程度。 接下来是BASE COUNT记录,计算出不同碱基在整个序列中出现的次数(1010A,712个C,633个G,1032个T)。ORIGIN那一行,指出了序列第一个碱基在基因组中可能的位置。最后,核酸的序列全部列出,并以//作为结尾。检索方式:如果在文献中看到过你感兴趣的基因,而且文中还提到了该基因在Genbank中的ID号,进入NCBI ,在Search后的下拉框中选择Nucleotide,把Genbank ID号输入GO前面的文本框中,点“GO”,即可以检索到所需序列。

I. GenBank EMBL优缺点

GenBank数据库结构
完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。
GenBank中最常用的是序列文件。序列文件的基本单位是序列条目,包括核苷酸碱基排列顺序和注释两部分。目前,许多生物信息资源中心通过计算机网络提供该数据库文件。下面,我们介绍序列文件的结构。
GenBank序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。
序列条目的关键字包括LOCUS (代码),DEFINITION (说明),ACCESSION (编号),NID符(核酸标识),KEYWORDS (关键词),SOURCE (数据来源),REFERENCE (文献),FEATURES (特性表),BASE COUNT (碱基组成)及ORIGIN (碱基排列顺序)。先版的核酸序列数据库将引入新的关键词SV (序列版本号),用“编号.版本号”表示,并取代关键词NID。
LOCUS (代码):是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。例如,图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容,如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述,如本例为人环氧化酶-2的mRNA全序列。
ACCESSION (编号):具有唯一性和永久性,如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列,在文献中引用这个序列时,应该以此编号为准。
KEYWORDS (关键词)字段:由该序列的提交者提供,包括该序列的基因产物以及其它相关信息,如本例中环氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。
SOURCE (数据来源)字段:说明该序列是从什么生物体、什么组织得到的,如本例中人脐带血(umbilical vein)。次关键字ORGANISM (种属)指出该生物体的分类学地位,如本例人、真核生物等等(详见图4.1)。
REFERENCE (文献)字段:说明该序列中的相关文献,包括AUTHORS (作者),TITLE (题目)及JOURNAL (杂志名)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。
FEATURES (特性表):具有特定的格式,用来详细描述序列特性。特性表中带有‘/db-xref/’标志的字符可以连接到其它数据库,如本例中的分类数据库(taxon 9606),以及蛋白质序列数据库(PID:g181254)。序列中各部分的位置都在表中标明,5’非编码区(1-97),编码区(98-1912),3’非编码区(1913-3387),多聚腺苷酸重复区域(3367-3374),等等。翻译所得信号肽以及最终蛋白质产物也都有所说明。当然,这个例子只是特性表的部分注释信息,但已经足以说明其详细程度。
接下来是碱基含量字段,给出序列中的碱组成,如本例中1010个A,712个C,633个G,1032个T。ORIGIN行是序列的引导行,接下来便是碱基序列,以双斜杠行“//”结束。
· EMBL数据库结构
EMBL数据库的基本单位也是序列条目,包括核甘酸碱基排列顺序和注释两部分。序列条目由字段组成,每个字段由标识字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次标识字或特性表说明符开始,最后以双斜杠“//”作本序列条目结束标记。
条目的关键字包括ID(序列名称),DE(序列简单说明),AC(序列编号),SV(序列版本号),KW(与序列相关的关键词),OS(序列来源的物种名),OC(序列来源的物种学名和分类学位置),RN(相关文献编号或递交序列的注册信息),RA(相关文献作者或递交序列的作者),RT(相关文献题目),RL(相关文献杂志名或递交序列的作者单位),RX(相关文献Mediline引文代码),RC(相关文献注释),RP(相关文献其他注释),CC(关于序列的注释信息),DR(相关数据库交叉引用号),FH(序列特征表起始),FT(序列特征表子项),SQ(碱基种类统计数)。
其它常用核酸序列数据库
· dbEST
dbEST数据库专门收集EST数据,该数据库有自己的格式,包括识别符、代码、序列数据以及dbEST的注释摘要,也按DNA的种类分成了若干子数据库。1998年5月8日版的dbEST共包括1.6ⅹ106条EST。其中有1百万条人的EST,30万条小鼠和大鼠的EST。
· GSDB
GSDB是基因组序列数据库(Genome Sequence Data Base),由美国新墨西哥州Santa Fe的国家基因组资源中心创建。GSDB收集、管理并且发布完整的DNA序列及其相关信息,以满足基因组测序中心需要。该数据库采用服务器-客户机关系数据库模式,大规模测序机构可以通过计算机网络向服务器提交数据,并在发送之前对数据进行检查,以确保数据的质量。
GSDB数据库中条目的格式与GenBank中的基本一致,主要区别是GSDB数据库中增加了GSDBID识别符。
GSDB数据库可以通过万维网查询,也可以使用服务器-客户机关系数据库方式查询。无论用哪种方法,熟悉数据库结构化查询语言SQL,对更好地使用GSDB数据库会有所帮助。
· UniGene
人类基因组计划的首要任务是对人类基因组进行全序列测定,整个基因组估计有30亿个碱基对,其中大约3%可以编码蛋白质,其余部分的生物学功能还不清楚。转录图谱可以把基因组中能够编码蛋白质的部分集中起来,因此是一种重要的数据资源。
UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因,而下一章将要介绍的HGI数据库只包括人的基因。该数据库的标题行(TITLE)给出基因的名称和简单说明,表达部位行(EXPRESS)指出该基因在什么组织中表达以及在基因图谱中的位置等。此外,列出该基因在核酸序列数据库GenBank或EMBL和蛋白质序列数据库SWISS-PROT中的编号的超文本链接。
UniGene中部分条目包括已知基因序列,而有些条目则仅有新测得的EST序列片段。这就意味着,这些EST序列所对应的基因尚未搞清,可以用来发现新基因。在描绘基因图谱及大规模基因表达分析等研究中,UniGene也可以帮助实验设计者选择试剂。
UniGene可以通过NCBI或SRS系统访问

J. 核酸序列数据库(genbank)和基因组数据库(ensemble)的区别

核酸序列数据库(genbank)和基因组数据库(ensemble)的区别:
1、GenBank 是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
2、Ensemble数据库可为药物研发提供超过167,000种生物活性化合物包括化学结构在内的必要信息。本数据库利用用户容易掌握的界面将数据、文本和图象资料有机地结合起来,便于查询。Ensemble可从药品专利开始,再通过其临床前和临床研究资料,直至注册信息、市场概况及其他方面的相关资料来跟踪药物。数据库每月更新一次,每年增加约10,000 种新化合物。