genbank数据库的基因产物_核酸序列数据库（genbank）和基因组数据库（ensemble）的区别

A. 什么是Genbank,它的主要用途是什么

GenBank 概述

· 什么是GenBank？ GenBank 是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。

· 纪录样本 - 关于GenBank的各个字段的详细描述，以及同Entrez搜索字段的交叉索引。

· 访问GenBank - 通过 Entrez Nucleotides 来查询。用 accession number，作者姓名，物种，基因/蛋白名字，还有许多其他的文本术语来查询。关于 Entrez 更多的信息请看下文。用 BLAST 来在 GenBank 和其他数据库中进行序列相似搜索。用E-mail来访问Entrez 和 BLAST 可以通过 Query 和 BLAST 服务器。另外一种选择是可以用 FTP 下载整个的 GenBank 和更新数据。

· 增长统计 - 参见公布通知的2.2.6（每个分类的统计），2.2.7（每个物种的统计），2.2.8（GenBank增长）小节。

· 公布通知，最新 - 最近和即将有的变化，GenBank 的分类，数据增长统计，GenBank 的引用。

· 公布通知，旧 - 同上相同，是过去公布的统计。

· 遗传密码 - 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。

向GenBank提交数据

· 关于提交序列数据，收到 accession number，和对纪录作更新的一般信息。

· BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。（请在提交前用 VecScreen 去除载体）

· Sequin - 提交软件程序，用于一条或者很多条的提交，长序列，完整基因组，alignments，人群/种系/突变研究的提交。可以懒⑹褂茫�蛘哂没�赥CP/IP的"network aware"模式，可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。（请在提交前用VecScreen去除载体）

· ESTs - 表达序列标签，短的、单次（测序）阅读的cDNA序列。也包括来自于差异显示和 RACE 实验的 cDNA 序列。

· GSSs - 基因组调查序列，短的、单次（测序）阅读的cDNA序列，exon trap 获得的序列，cosmid/BAC/YAC 末端，及其他。

· HTGs - 来自于大规模测序中心的高通量基因组序列，未完成的（阶段0，1，2）和完成的（阶段3）序列。（注意：完成的人类的HTG序列可以同时在 GenBank 和 Human Genome Sequencing 页面上访问。）

· STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列，用于产生作图位点。

· 注：SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中（dbSNP）。

国际核苷酸序列数据库合作组织

· GenBank，DDBJ，EMBL - 合作计划的概述，并链接到相应的主页。GenBank，DDBJ（DNA Data Bank of Japan），and EMBL （European Molecular Biology Laboratory）数据库共享的数据是每天都交换的，因此他们是相等的。数据纪录的格式和搜索方式可能会不一样，但是accession number，序列数据和注解都是一模一样的。即，你可以用accession number U12345在GenBank，DDBJ或EMBL中查找相应纪录，得到的结果是完全一样的序列数据，参考内容等等。

· DDBJ/EMBJ/GenBank 特性表 - 特性表格式和标准被合作数据库用在序列记录的注释上，使得数据共享成为可能，包括详细的描述生物特性和特性限定语的附录，以及IUPAC规定的核苷酸和氨基酸的代号。

FTP GenBank 及每日更新

· GenBank普通文件格式 - 参见GenBank记录样本和在GenBank公布通知中的详细描述，下载大多数最近的完全公告和日常积累或非积累更新数据。

· ASN.1格式 - 摘要句法记号1，国际标准组织（ISO）数据表示格式，下载大多数最近的完全公告和日常积累或非积累更新数据。

· FASTA格式 - 定义行号后只跟随序列数据（示例），参见描述数据库的readme文件，包括nt.Z（每天更新的非冗余BLAST核酸数据库，包括GenBank+EMBL+DDBJ+PDB序列，但是不包括EST, STS, GSS, or HTGS序列），nr.Z（每日更新的非冗余蛋白质），est.Z, gss.Z, htg.Z, sts.Z,和其它文件。

http://www.bioon.com/biology/Print.asp?ArticleID=1256

B. DNA数据库的GenBank

大型数据库分成若干子库，有许多好处。首先，可以把数据库查询限定在某一特定部分，以便加快查询速度。其次，基因组计划快速测序得到的大量序列尚未加以注释，将它们单独分类，有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列(High Throughput Genomic Sequences，HTG)、表达序列标记(Expressed Sequence Tags，EST)、序列标记位点(Sequence Tagged Sites，STS)和基因组概览序列(Genome Survey Sequences，GSS)单独分类。尽管这些数据尚未加以注释，它们依然是GenBank的重要组成部分。
可通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外，通过该系统的文献摘要数据库MEDLINE，可获取有关序列的进一步信息。在万维网上，进入NCBI的主页，可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索(详见第六章)。
完整的GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的，用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库，其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发，价格比较便宜。随着数据库容量的增长，一套最新版的GenBank需要12张光盘存放，不仅生产成本很高，也不便于使用。现在，光盘分发的方式已经停止，可以通过网络下载GenBank数据库。
GenBank中最常用的是序列文件。序列文件的基本单位是序列条目，包括核甘酸碱基排列顺序和注释两部分。目前，许多生物信息资源中心通过计算机网络提供该数据库文件。下面，我们介绍序列文件的结构。
序列文件由单个的序列条目组成。序列条目由字段组成，每个字段由关键字起始，后面为该字段的具体说明。有些字段又分若干次子字段，以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要，关键字从第一列开始，次关键字从第三列开始，特性表说明符从第五列开始。每个字段可以占一行，也可以占若干行。若一行中写不下时，继续行以空格开始。
序列条目的关键字包括代码(LOCUS)，说明(DEFINITION)，编号(ACCESSION)，核酸标识符(NID)，关键词(KEYWORDS)，数据来源(SOURCE)，文献(REFERENCE)，特性表(FEATURES)，碱基组成(BASE COUNT)及碱基排列顺序(ORIGIN)。
代码LOCUS是该序列条目的标记，或者说标识符，蕴涵这个序列的功能。例如，图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容，如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述，如本例为人环氧化酶-2的mRNA全序列。
序列代码具有唯一性和永久性，如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列，在文献中引用这个序列时，应该以此代码为准。核酸标识符NID对序列信息的当前版本提供？
关键词字段由该序列的提交者提供，包括该序列的基因产物以及其它相关信息，如本例中还氧化酶-2 (cyclooxygenase-2)，前列腺素合成酶(prostaglandin synthase)。数据来源字段说明该序列是从什么生物体、什么组织得到的，如本例中人脐带血管(umbilical vein)。次关键字种属(ORGANISM)指出该生物体的分类学地位，如本例人、真核生物等等。文献字段说明该序列中的相关文献，包括作者(AUTHORS)，题目(TITLE)及杂志名(JOURNAL)等，以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针，点击它可以直接调用上述文献摘要。一个序列可以有多篇文献，以不同序号表示，并给出该序列中的哪一部分与文献有关。
FEATURES是具有自己的一套结构，用来详细描述序列特性的一个表格。在这个表格内，带有‘/db-xref/’标志的字符可以连接到其它数据库内(本例，您看到的是一个分类数据库(taxon 9606)，以及一个蛋白质数据库(PID：g181254))；序列中各部分的位置都加以标明，5’非编码区(1-97)，编码区(98-1912)，3非编码区(1913-3387)，多聚腺苷酸序列(3367-3374)，等等；蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面，但已经足以说明特性表给出信息的详细程度。
接下来是BASE COUNT记录，计算出不同碱基在整个序列中出现的次数(1010A，712个C，633个G，1032个T)。ORIGIN那一行，指出了序列第一个碱基在基因组中可能的位置。最后，核酸的序列全部列出，并以//作为结尾。

C. 怎样在genbank基因库中找出我需要的基因序列啊

在GeneBank 中查找基因序列只要输入accession号就可以了，下面网址就是一个基因的全部序列信息的例子，http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html，在记录的末尾有各种记录的详细说明，如果你没有accession号，可以把你手头的编号用source等信息源转换成accession号，中文教程太古老了，如果你是初学者一定要养成看英文文献的习惯，要是特别想看中文翻译的话，书店里随便一本生物信息学书里都会介绍数据库的，不过有些翻译过来的东西真的很别扭。 2、关于在GeneBank中查找序列我有几点体会：最直接、最简单的方法是手头有基因的accession号；
如果没有就需要明确两个重要的内容，即基因名称及物种信息（如果有最好是拉丁全名），基因名称尽可能详细，避免搜出一些不相关的信息；
搜索的时候建议先用NCBI的Gene数据库搜索，这样得到的accession号是属于NCBI工作人员重新整理过的Refseq的序列，这样会比较可靠；当然这个要看你的分析目的，如果你是要对该序列进行下游的分子生物学操作or分析，选这种序列我觉得会比较好，如果是要进行多序列的分析or其他目的需要全面分析该序列的，可能需要其他序列做补充，但是我觉得序列越多问题越说不清楚，因为毕竟不是自己的序列，如果Gene数据库里没有收录，那就只有在Nucleotide数据库里找了，但是还是建议采用Refseq的序列，Refseq序列特征如下：
Accession prefix Molecule type Comment
AC_ Genomic Complete genomic molecule, alternate assembly NC_ Genomic Complete genomic molecule, reference assembly NG_ Genomic Incomplete genomic region
NT_ Genomic Contig or scaffold, clone-based or WGSa NW_ Genomic Contig or scaffold, primarily WGSa NS_ Genomic Environmental sequence NZ_b Genomic Unfinished WGS NM_ mRNA NR_ RNA
XM_c mRNA Predicted model XR_c RNA Predicted model
AP_ Protein Annotated on AC_ alternate assembly NP_ Protein YP_c Protein
XP_c Protein Predicted model
ZP_c Protein Predicted model, annotated on NZ_ genomic records a Whole Genome Shotgun sequence data. b An ordered collection of WGS for a genome. c Computed.
其他值得考虑的是，对于真核生物最好找注释为全长的mRNA序列，原核生物最好有起始密码子和终止密码子

D. 16s rRNA的本质是RNA,为什么GENBANK里面的序列组成却是ATCG

摘要在生物信息学数据库里，核酸，包括DNA和RNA，它们的序列都是用DNA序列的形式，也就是ATGC表示的，除了一些特别的稀有碱基。这样便于统一管理数据。而且，比如说16SrRNA，其DNA序列和RNA序列就是T和U的区别，只是一个转换问题，很简单。只需要在存储的序列注释里说明这个序列是mRNA还是

E. genbank中来自cathepsin l的序列记录约有多少

GENBANK序列数据库 GENBANK是美国国立卫生研究院(NIH)维护的基因序列数据库，汇集并注释了所有公开的核酸以及蛋白质序列。每个纪录代表了一个单独的、连续的、带有注释的DNA或RNA片段。目前GENBANK中所有的纪录均来自于最初作者向DNA数据库的直接提交。蛋白质数据库： 60年代初，DAYHOFF和他的同事们收集了所有当时已知的氨基酸序列，这就是《蛋白质序列与结构图册》。这一蛋白质数据库后来成为蛋白质信息资源PIR。核苷酸数据库： 1982年在欧洲分子生物学实验室(EMBL)诞生，随即就开始了一个数据库爆炸的时代。后来NIH搞了GENBANK。日本的DNA数据库(DDBJ)加入了数据收集的合作。国际DNA序列数据库合作计划。规定了数据记录和更新的规则。国际核苷酸序列数据库合作成员GENBANK--DDBJ--EMBL。GENBANK指的是DDBJ/EMBL/GENBANK 开发利用这些信息的工具（如NCBI的信息检索系统 ENTREZ a href=" http://www.NCBI.NLM.NIH.GOV/ENTREZ/ " http://www.NCBI.NLM.NIH.GOV/ENTREZ//a ）编码序列(CDS)：大多数蛋白质序列都不是直接由实验确定的，而是通过DNA序列得到的。这种方法需要进行大量的实验、计算以及相似性比对工作。他也赋予一个产物名称，或者功能说明(通过主观的对相似性比对的分析)。数据库的格式与内容：数据库被用来存放原始数据和一系列附加的信息。不同的检索工具和程序利用了这些信息中的不同部分。 FASTA 格式：广泛应用于许多分子生物学软件包之中。作为最简单的情况，大于号(>)表示一个新文件的开始。通常60个字符一行。 >GB|AF150991|AF150991 TRICHOPLUSIA NI SINGLE CAPSID NUCLEAR POLYHEDROSIS VIRUS.ENSURES GREATER OCCLUSION BODY STABILITYPRODUCT--P10 / P10 PROTEIN >GB|AF275264|AF275264 HELICOVERPA ZEA NUCLEAR POLYHEDROSIS VIRUS.COMPLEMENTPRODUCT--E66-LIKE PROTEIN (PARTIAL DNA SEQUENCE) >GB|AF275264|AF275264 HELICOVERPA ZEA NUCLEAR POLYHEDROSIS VIRUS.COMPLEMENTPRODUCT--P13 >GB|AF275264|AF275264 HELICOVERPA ZEA NUCLEAR POLYHEDROSIS VIRUS.PRODUCT--ORF50-LIKE PROTEIN ASN.1 GENBANK FLATFILE: 头部：始于LOCUS行---LOCUS名称，序列长度，生物分子的类型(SS或DS DNA,RNA,TRNA,RRNA, MRNA)，GENBANK分类码，数据公开日期 DEFINITION行---总结纪录的生物意义。检索号---是从数据库中检索一个记录的主要关键词。格式：1+5或2+6。所有的GENBANK记录都只有一个单独的ACCESSION行。 NID---行表示核苷酸序列的GI号码(GENINFO IDENTIFIER)。一个GI号码对应于一个核苷酸序列。当序列改变时，GI号也改变，但检索号不变。 KEYWORDS--- SOURCS--- ORGANISM--- REFERENCE--- AUTHORS--- TITLE--- JOURNAL---

F. Genbank序列包含什么

用户可以通过NCBI（National Center for Biotechnology Information美国国家生物技术信息中心信息中心，隶属于NLM－美国国家医学图书馆）的主页使用GenBank。GenBank的宗旨是鼓励科研团体对DNA序列的获取，从而促进数据库中DNA序列的丰富和更新，所以NCBI对GenBank的数据使用与发送没有任何限制。用户可从GenBank主页上下载Banklt（NCBI提供的WWW格式，用于便捷的提交DNA序列的数据）、sequin（NCBI的独立于操作系统的提交软件，可用于MAC、PC和UNIX平台，也可以通过FTP远程获取）以及VecScreen（带菌污染物的筛选工具）等便于提交和更新研究成果的应用软件。
其页面上的简单检索界面提供19种相关检索选项，分别是：PubMed、Protein（蛋白质）、Nucleotide（核苷）、Structure（结构）、Genome（基因组）、PMC、LocusLink、PopSet、OMIM、Taxonomy（分类学）、Books（图书）、ProbeSet、3D Domains（三维区域）、UniSTS、Domains、SNP、Journals（期刊）、UniGene、NCBI Web Site（NCBI站点）。GenBank可以与DNA Star软件结合使用，进行基因序列分析和比对。GenBank是一个开放获取的序列数据库，对所有公开可利用的核苷酸序列与其翻译的蛋白质进行收集并注释。此数据库是国际协作核酸序列数据库（INSDC）的一部分，由美国国家生物技术信息中心（National Center for Biotechnology Information，NCBI）主管，NCBI为美国国立卫生研究院的下属机构。GenBank和它的合作者从全球各个实验室接收了超过百万种生物的数据。Genbank库包含了所有已知的核酸序列和蛋白质序列，以及与它们相关的文献着作和生物学注释。它的数据直接来源于测序工作者提交的序列、由测序中心提交的大量EST序列和其它测序数据、以及与其它数据机构协作交换数据而来。
Genbank每天都会与欧洲分子生物学实验室（EMBL）的数据库，和日本的DNA数据库（DDBJ）交换数据，使这三个数据库的数据同步。到1999年8月，Genbank中收集的序列数量达到460万条，34亿个碱基，而且数据增长的速度还在不断加快。Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库，或下载积累的新数据。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务，用户可以从NCBI的主页上找到这些服务。

G. 核酸序列数据库（genbank）和基因组数据库（ensemble）的区别

核酸序列数据库（genbank）和基因组数据库（ensemble）的区别：
1、GenBank
是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。
2、Ensemble数据库可为药物研发提供超过167,000种生物活性化合物包括化学结构在内的必要信息。本数据库利用用户容易掌握的界面将数据、文本和图象资料有机地结合起来，便于查询。Ensemble可从药品专利开始，再通过其临床前和临床研究资料，直至注册信息、市场概况及其他方面的相关资料来跟踪药物。数据库每月更新一次，每年增加约10,000
种新化合物。

H. genbank文件怎么进行数据对比

GenBank是美国国家生物技术信息中心(National Center for Biotechnology Information ，NCBI)建立的DNA序列数据库，从公共资源中获取序列数据，主要是科研人员直接提供或来源于大规模基因组测序计划( Benson等， 1998)。为保证数据尽可能的完全，GenBank与EMBL、DDBJ建立了相互交换数据的合作关系。你可以到生物帮那里了解这方面的信息，生物帮，依托互联网，面向生物研究者、企业和研究机构，提供最新、领先、精准、高效、全面的生物产品和技术信息。我一般找资料都会去那里的。帮助蛮大的。简介大型数据库分成若干子库，有许多好处。首先，可以把数据库查询限定在某一特定部分，以便加快查询速度。其次，基因组计划快速测序得到的大量序列尚未加以注释，将它们单独分类，有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列(HighThroughput Genomic Sequences，HTG)、表达序列标记(Expressed Sequence Tags，EST)、序列标记位点(Sequence TaggedSites，STS)和基因组概览序列(Genome Survey Sequences，GSS)单独分类。尽管这些数据尚未加以注释，它们依然是GenBank的重要组成部分。可通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外，通过该系统的文献摘要数据库MEDLINE，可获取有关序列的进一步信息。在万维网上，进入NCBI的主页，可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索(详见第六章)。完整的GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的，用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库，其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发，价格比较便宜。随着数据库容量的增长，一套最新版的GenBank需要12张光盘存放，不仅生产成本很高，也不便于使用。现在，光盘分发的方式已经停止，可以通过网络下载GenBank数据库。可参考：That can help you.Click /zt/focus/ncbi.htm, Sign in accountGenBank中最常用的是序列文件。序列文件的基本单位是序列条目，包括核甘酸碱基排列顺序和注释两部分。目前，许多生物信息资源中心通过计算机网络提供该数据库文件。下面，我们介绍序列文件的结构。序列文件由单个的序列条目组成。序列条目由字段组成，每个字段由关键字起始，后面为该字段的具体说明。有些字段又分若干次子字段，以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要，关键字从第一列开始，次关键字从第三列开始，特性表说明符从第五列开始。每个字段可以占一行，也可以占若干行。若一行中写不下时，继续行以空格开始。序列条目的关键字包括代码(LOCUS)，说明(DEFINITION)，编号(ACCESSION)，核酸标识符(NID)，关键词(KEYWORDS)，数据来源(SOURCE)，文献(REFERENCE)，特性表(FEATURES)，碱基组成(BASE COUNT)及碱基排列顺序(ORIGIN)。代码LOCUS是该序列条目的标记，或者说标识符，蕴涵这个序列的功能。例如，图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容，如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述，如本例为人环氧化酶-2的mRNA全序列。序列代码具有唯一性和永久性，如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列，在文献中引用这个序列时，应该以此代码为准。核酸标识符NID对序列信息的当前版本提供?关键词字段由该序列的提交者提供，包括该序列的基因产物以及其它相关信息，如本例中还氧化酶-2 (cyclooxygenase-2)，前列腺素合成酶(prostaglandin synthase)。数据来源字段说明该序列是从什么生物体、什么组织得到的，如本例中人脐带血管(umbilical vein)。次关键字种属(ORGANISM)指出该生物体的分类学地位，如本例人、真核生物等等。文献字段说明该序列中的相关文献，包括作者(AUTHORS)，题目(TITLE)及杂志名(JOURNAL)等，以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针，点击它可以直接调用上述文献摘要。一个序列可以有多篇文献，以不同序号表示，并给出该序列中的哪一部分与文献有关。FEATURES是具有自己的一套结构，用来详细描述序列特性的一个表格。在这个表格内，带有‘/db-xref/’标志的字符可以连接到其它数据库内(本例，您看到的是一个分类数据库(taxon 9606)，以及一个蛋白质数据库(PID：g181254));序列中各部分的位置都加以标明，5’非编码区(1-97)，编码区(98-1912)，3非编码区(1913-3387)，多聚腺苷酸序列(3367-3374)，等等;蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面，但已经足以说明特性表给出信息的详细程度。接下来是BASE COUNT记录，计算出不同碱基在整个序列中出现的次数(1010A，712个C，633个G，1032个T)。ORIGIN那一行，指出了序列第一个碱基在基因组中可能的位置。最后，核酸的序列全部列出，并以//作为结尾。检索方式：如果在文献中看到过你感兴趣的基因，而且文中还提到了该基因在Genbank中的ID号，进入NCBI ，在Search后的下拉框中选择Nucleotide，把Genbank ID号输入GO前面的文本框中，点“GO”，即可以检索到所需序列。

I. GenBank EMBL优缺点

GenBank数据库结构
完整的GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等建立的，用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库，其数据格式为FastA。
GenBank中最常用的是序列文件。序列文件的基本单位是序列条目，包括核苷酸碱基排列顺序和注释两部分。目前，许多生物信息资源中心通过计算机网络提供该数据库文件。下面，我们介绍序列文件的结构。
GenBank序列文件由单个的序列条目组成。序列条目由字段组成，每个字段由关键字起始，后面为该字段的具体说明。有些字段又分若干次子字段，以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要，关键字从第一列开始，次关键字从第三列开始，特性表说明符从第五列开始。每个字段可以占一行，也可以占若干行。若一行中写不下时，继续行以空格开始。
序列条目的关键字包括LOCUS (代码)，DEFINITION (说明)，ACCESSION (编号)，NID符(核酸标识)，KEYWORDS (关键词)，SOURCE (数据来源)，REFERENCE (文献)，FEATURES (特性表)，BASE COUNT (碱基组成)及ORIGIN (碱基排列顺序)。先版的核酸序列数据库将引入新的关键词SV (序列版本号)，用“编号.版本号”表示，并取代关键词NID。
LOCUS (代码)：是该序列条目的标记，或者说标识符，蕴涵这个序列的功能。例如，图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容，如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述，如本例为人环氧化酶-2的mRNA全序列。
ACCESSION (编号)：具有唯一性和永久性，如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列，在文献中引用这个序列时，应该以此编号为准。
KEYWORDS (关键词)字段：由该序列的提交者提供，包括该序列的基因产物以及其它相关信息，如本例中环氧化酶-2 (cyclooxygenase-2)，前列腺素合成酶(prostaglandin synthase)。
SOURCE (数据来源)字段：说明该序列是从什么生物体、什么组织得到的，如本例中人脐带血(umbilical vein)。次关键字ORGANISM (种属)指出该生物体的分类学地位，如本例人、真核生物等等(详见图4.1)。
REFERENCE (文献)字段：说明该序列中的相关文献，包括AUTHORS (作者)，TITLE (题目)及JOURNAL (杂志名)等，以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个超文本链接，点击它可以直接调用上述文献摘要。一个序列可以有多篇文献，以不同序号表示，并给出该序列中的哪一部分与文献有关。
FEATURES (特性表)：具有特定的格式，用来详细描述序列特性。特性表中带有‘/db-xref/’标志的字符可以连接到其它数据库，如本例中的分类数据库（taxon 9606），以及蛋白质序列数据库（PID：g181254）。序列中各部分的位置都在表中标明，5’非编码区(1-97)，编码区(98-1912)，3’非编码区(1913-3387)，多聚腺苷酸重复区域(3367-3374)，等等。翻译所得信号肽以及最终蛋白质产物也都有所说明。当然，这个例子只是特性表的部分注释信息，但已经足以说明其详细程度。
接下来是碱基含量字段，给出序列中的碱组成，如本例中1010个A，712个C，633个G，1032个T。ORIGIN行是序列的引导行，接下来便是碱基序列，以双斜杠行“//”结束。
· EMBL数据库结构
EMBL数据库的基本单位也是序列条目，包括核甘酸碱基排列顺序和注释两部分。序列条目由字段组成，每个字段由标识字起始，后面为该字段的具体说明。有些字段又分若干次子字段，以次标识字或特性表说明符开始，最后以双斜杠“//”作本序列条目结束标记。
条目的关键字包括ID（序列名称），DE（序列简单说明），AC（序列编号），SV（序列版本号），KW（与序列相关的关键词），OS（序列来源的物种名），OC（序列来源的物种学名和分类学位置），RN（相关文献编号或递交序列的注册信息），RA（相关文献作者或递交序列的作者），RT（相关文献题目），RL（相关文献杂志名或递交序列的作者单位），RX（相关文献Mediline引文代码），RC（相关文献注释），RP（相关文献其他注释），CC（关于序列的注释信息），DR（相关数据库交叉引用号），FH（序列特征表起始），FT（序列特征表子项），SQ（碱基种类统计数）。
其它常用核酸序列数据库
· dbEST
dbEST数据库专门收集EST数据，该数据库有自己的格式，包括识别符、代码、序列数据以及dbEST的注释摘要，也按DNA的种类分成了若干子数据库。1998年5月8日版的dbEST共包括1.6ⅹ106条EST。其中有1百万条人的EST，30万条小鼠和大鼠的EST。
· GSDB
GSDB是基因组序列数据库（Genome Sequence Data Base），由美国新墨西哥州Santa Fe的国家基因组资源中心创建。GSDB收集、管理并且发布完整的DNA序列及其相关信息，以满足基因组测序中心需要。该数据库采用服务器-客户机关系数据库模式，大规模测序机构可以通过计算机网络向服务器提交数据，并在发送之前对数据进行检查，以确保数据的质量。
GSDB数据库中条目的格式与GenBank中的基本一致，主要区别是GSDB数据库中增加了GSDBID识别符。
GSDB数据库可以通过万维网查询，也可以使用服务器-客户机关系数据库方式查询。无论用哪种方法，熟悉数据库结构化查询语言SQL，对更好地使用GSDB数据库会有所帮助。
· UniGene
人类基因组计划的首要任务是对人类基因组进行全序列测定，整个基因组估计有30亿个碱基对，其中大约3%可以编码蛋白质，其余部分的生物学功能还不清楚。转录图谱可以把基因组中能够编码蛋白质的部分集中起来，因此是一种重要的数据资源。
UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理，剔除冗余部分，将同一基因的序列，包括EST序列片段搜集到一起，以便研究基因的转录图谱。UniGene除了包括人的基因外，也包括小鼠、大鼠等其它模式生物的基因，而下一章将要介绍的HGI数据库只包括人的基因。该数据库的标题行（TITLE）给出基因的名称和简单说明，表达部位行（EXPRESS）指出该基因在什么组织中表达以及在基因图谱中的位置等。此外，列出该基因在核酸序列数据库GenBank或EMBL和蛋白质序列数据库SWISS-PROT中的编号的超文本链接。
UniGene中部分条目包括已知基因序列，而有些条目则仅有新测得的EST序列片段。这就意味着，这些EST序列所对应的基因尚未搞清，可以用来发现新基因。在描绘基因图谱及大规模基因表达分析等研究中，UniGene也可以帮助实验设计者选择试剂。
UniGene可以通过NCBI或SRS系统访问

J. 核酸序列数据库（genbank）和基因组数据库（ensemble）的区别

核酸序列数据库（genbank）和基因组数据库（ensemble）的区别：
1、GenBank 是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。
2、Ensemble数据库可为药物研发提供超过167,000种生物活性化合物包括化学结构在内的必要信息。本数据库利用用户容易掌握的界面将数据、文本和图象资料有机地结合起来，便于查询。Ensemble可从药品专利开始，再通过其临床前和临床研究资料，直至注册信息、市场概况及其他方面的相关资料来跟踪药物。数据库每月更新一次，每年增加约10,000 种新化合物。

genbank数据库的基因产物

与genbank数据库的基因产物相关的内容