A. 什麼是Genbank,它的主要用途是什麼
GenBank 概述
· 什麼是GenBank? GenBank 是一個有來自於70,000多種生物的核苷酸序列的資料庫。每條紀錄都有編碼區(CDS)特徵的注釋,還包括氨基酸的翻譯。GenBank屬於一個序列資料庫的國際合作組織,包括EMBL和DDBJ。
· 紀錄樣本 - 關於GenBank的各個欄位的詳細描述,以及同Entrez搜索欄位的交叉索引。
· 訪問GenBank - 通過 Entrez Nucleotides 來查詢。用 accession number,作者姓名,物種,基因/蛋白名字,還有許多其他的文本術語來查詢。關於 Entrez 更多的信息請看下文。用 BLAST 來在 GenBank 和其他資料庫中進行序列相似搜索。用E-mail來訪問Entrez 和 BLAST 可以通過 Query 和 BLAST 伺服器。另外一種選擇是可以用 FTP 下載整個的 GenBank 和更新數據。
· 增長統計 - 參見公布通知的2.2.6(每個分類的統計),2.2.7(每個物種的統計),2.2.8(GenBank增長)小節。
· 公布通知,最新 - 最近和即將有的變化,GenBank 的分類,數據增長統計,GenBank 的引用。
· 公布通知,舊 - 同上相同,是過去公布的統計。
· 遺傳密碼 - 15個遺傳密碼的概要。用來確保GenBank中紀錄的編碼序列被正確的翻譯。
向GenBank提交數據
· 關於提交序列數據,收到 accession number,和對紀錄作更新的一般信息。
· BankIt - 用於一條或者少數條提交的基於WWW的提交工具軟體。(請在提交前用 VecScreen 去除載體)
· Sequin - 提交軟體程序,用於一條或者很多條的提交,長序列,完整基因組,alignments,人群/種系/突變研究的提交。可以懶⑹褂茫�蛘哂沒�赥CP/IP的"network aware"模式,可以鏈接到其他NCBI的資源和軟體比如Entrez和PowerBLAST。(請在提交前用VecScreen去除載體)
· ESTs - 表達序列標簽,短的、單次(測序)閱讀的cDNA序列。也包括來自於差異顯示和 RACE 實驗的 cDNA 序列。
· GSSs - 基因組調查序列,短的、單次(測序)閱讀的cDNA序列,exon trap 獲得的序列,cosmid/BAC/YAC 末端,及其他。
· HTGs - 來自於大規模測序中心的高通量基因組序列,未完成的(階段0,1,2)和完成的(階段3)序列。(注意:完成的人類的HTG序列可以同時在 GenBank 和 Human Genome Sequencing 頁面上訪問。)
· STSs - 序列標簽位點。短的在基因組上可以被唯一操作的序列,用於產生作圖位點。
· 註:SNPs - 人類的和其他物種的遺傳變異數據可以提交到NCBI資料庫的單核苷酸多態性庫中(dbSNP)。
國際核苷酸序列資料庫合作組織
· GenBank,DDBJ,EMBL - 合作計劃的概述,並鏈接到相應的主頁。GenBank,DDBJ(DNA Data Bank of Japan),and EMBL (European Molecular Biology Laboratory)資料庫共享的數據是每天都交換的,因此他們是相等的。數據紀錄的格式和搜索方式可能會不一樣,但是accession number,序列數據和註解都是一模一樣的。即,你可以用accession number U12345在GenBank,DDBJ或EMBL中查找相應紀錄,得到的結果是完全一樣的序列數據,參考內容等等。
· DDBJ/EMBJ/GenBank 特性表 - 特性表格式和標准被合作資料庫用在序列記錄的注釋上,使得數據共享成為可能,包括詳細的描述生物特性和特性限定語的附錄,以及IUPAC規定的核苷酸和氨基酸的代號。
FTP GenBank 及每日更新
· GenBank普通文件格式 - 參見GenBank記錄樣本和在GenBank公布通知中的詳細描述,下載大多數最近的完全公告和日常積累或非積累更新數據。
· ASN.1格式 - 摘要句法記號1,國際標准組織(ISO)數據表示格式,下載大多數最近的完全公告和日常積累或非積累更新數據。
· FASTA格式 - 定義行號後只跟隨序列數據(示例),參見描述資料庫的readme文件,包括nt.Z(每天更新的非冗餘BLAST核酸資料庫,包括GenBank+EMBL+DDBJ+PDB序列,但是不包括EST, STS, GSS, or HTGS序列),nr.Z(每日更新的非冗餘蛋白質),est.Z, gss.Z, htg.Z, sts.Z,和其它文件。
http://www.bioon.com/biology/Print.asp?ArticleID=1256
B. DNA資料庫的GenBank
大型資料庫分成若乾子庫,有許多好處。首先,可以把資料庫查詢限定在某一特定部分,以便加快查詢速度。其次,基因組計劃快速測序得到的大量序列尚未加以注釋,將它們單獨分類,有利於資料庫查詢和搜索時「有的放矢」。GenBank將這些數據按高通量基因組序列(High Throughput Genomic Sequences,HTG)、表達序列標記(Expressed Sequence Tags,EST)、序列標記位點(Sequence Tagged Sites,STS)和基因組概覽序列(Genome Survey Sequences,GSS)單獨分類。盡管這些數據尚未加以注釋,它們依然是GenBank的重要組成部分。
可通過Entrez資料庫查詢系統對GenBank進行查詢。這個系統將核酸、蛋白質序列和基因圖譜、蛋白質結構資料庫整合在一起。此外,通過該系統的文獻摘要資料庫MEDLINE,可獲取有關序列的進一步信息。在萬維網上,進入NCBI的主頁,可以用BLAST程序對GenBank資料庫進行未知序列的同源性搜索(詳見第六章)。
完整的GenBank資料庫包括序列文件,索引文件以及其它有關文件。索引文件是根據資料庫中作者、參考文獻等子段建立的,用於資料庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列資料庫,其數據格式為FastA。GenBank曾以CD-ROM光碟的形式分發,價格比較便宜。隨著資料庫容量的增長,一套最新版的GenBank需要12張光碟存放,不僅生產成本很高,也不便於使用。現在,光碟分發的方式已經停止,可以通過網路下載GenBank資料庫。
GenBank中最常用的是序列文件。序列文件的基本單位是序列條目,包括核甘酸鹼基排列順序和注釋兩部分。目前,許多生物信息資源中心通過計算機網路提供該資料庫文件。下面,我們介紹序列文件的結構。
序列文件由單個的序列條目組成。序列條目由欄位組成,每個欄位由關鍵字起始,後面為該欄位的具體說明。有些欄位又分若干次子欄位,以次關鍵字或特性表說明符開始。每個序列條目以雙斜杠「//」作結束標記。序列條目的格式非常重要,關鍵字從第一列開始,次關鍵字從第三列開始,特性表說明符從第五列開始。每個欄位可以佔一行,也可以占若干行。若一行中寫不下時,繼續行以空格開始。
序列條目的關鍵字包括代碼(LOCUS),說明(DEFINITION), 編號(ACCESSION),核酸標識符(NID),關鍵詞(KEYWORDS),數據來源(SOURCE),文獻(REFERENCE),特性表(FEATURES),鹼基組成(BASE COUNT)及鹼基排列順序(ORIGIN)。
代碼LOCUS是該序列條目的標記,或者說標識符,蘊涵這個序列的功能。例如,圖4.1中所示的HUMCYCLOX表示人的環氧化酶cyclooxygenase。該欄位還包括其它相關內容,如序列長度、類型、種屬來源以及錄入日期等。說明欄位是有關這一序列的簡單描述,如本例為人環氧化酶-2的mRNA全序列。
序列代碼具有唯一性和永久性,如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列,在文獻中引用這個序列時,應該以此代碼為准。核酸標識符NID對序列信息的當前版本提供?
關鍵詞欄位由該序列的提交者提供,包括該序列的基因產物以及其它相關信息,如本例中還氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。 數據來源欄位說明該序列是從什麼生物體、什麼組織得到的,如本例中人臍帶血管(umbilical vein)。次關鍵字種屬(ORGANISM)指出該生物體的分類學地位,如本例人、真核生物等等。文獻欄位說明該序列中的相關文獻,包括作者(AUTHORS),題目(TITLE)及雜志名(JOURNAL)等,以次關鍵詞列出。該欄位中還列出醫學文獻摘要資料庫MEDLINE的代碼。該代碼實際上是個網路鏈接指針,點擊它可以直接調用上述文獻摘要。一個序列可以有多篇文獻,以不同序號表示,並給出該序列中的哪一部分與文獻有關。
FEATURES是具有自己的一套結構,用來詳細描述序列特性的一個表格。在這個表格內,帶有『/db-xref/』標志的字元可以連接到其它資料庫內(本例,您看到的是一個分類資料庫(taxon 9606),以及一個蛋白質資料庫(PID:g181254));序列中各部分的位置都加以標明,5』非編碼區(1-97),編碼區(98-1912),3非編碼區(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白質翻譯的信號肽及最終的多肽也都有所說明。這個例子不能說很全面,但已經足以說明特性表給出信息的詳細程度。
接下來是BASE COUNT記錄,計算出不同鹼基在整個序列中出現的次數(1010A,712個C,633個G,1032個T)。ORIGIN那一行,指出了序列第一個鹼基在基因組中可能的位置。最後,核酸的序列全部列出,並以//作為結尾。
C. 怎樣在genbank基因庫中找出我需要的基因序列啊
在GeneBank 中查找基因序列只要輸入accession號就可以了 ,下面網址就是一個基因的全部序列信息的例子,http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html,在記錄的末尾有各種記錄的詳細說明,如果你沒有accession號,可以把你手頭的編號用source等信息源轉換成accession號,中文教程太古老了,如果你是初學者一定要養成看英文文獻的習慣,要是特別想看中文翻譯的話,書店裡隨便一本生物信息學書里都會介紹資料庫的,不過有些翻譯過來的東西真的很別扭。 2、關於在GeneBank中查找序列我有幾點體會: 最直接、最簡單的方法是手頭有基因的accession號;
如果沒有就需要明確兩個重要的內容,即基因名稱及物種信息(如果有最好是拉丁全名),基因名稱盡可能詳細,避免搜出一些不相關的信息;
搜索的時候建議先用NCBI的Gene資料庫搜索,這樣得到的accession號是屬於NCBI工作人員重新整理過的Refseq的序列,這樣會比較可靠;當然這個要看你的分析目的,如果你是要對該序列進行下游的分子生物學操作or分析,選這種序列我覺得會比較好,如果是要進行多序列的分析or其他目的需要全面分析該序列的,可能需要其他序列做補充,但是我覺得序列越多問題越說不清楚,因為畢竟不是自己的序列,如果Gene資料庫里沒有收錄,那就只有在Nucleotide資料庫里找了,但是還是建議採用Refseq的序列,Refseq序列特徵如下:
Accession prefix Molecule type Comment
AC_ Genomic Complete genomic molecule, alternate assembly NC_ Genomic Complete genomic molecule, reference assembly NG_ Genomic Incomplete genomic region
NT_ Genomic Contig or scaffold, clone-based or WGSa NW_ Genomic Contig or scaffold, primarily WGSa NS_ Genomic Environmental sequence NZ_b Genomic Unfinished WGS NM_ mRNA NR_ RNA
XM_c mRNA Predicted model XR_c RNA Predicted model
AP_ Protein Annotated on AC_ alternate assembly NP_ Protein YP_c Protein
XP_c Protein Predicted model
ZP_c Protein Predicted model, annotated on NZ_ genomic records a Whole Genome Shotgun sequence data. b An ordered collection of WGS for a genome. c Computed.
其他值得考慮的是,對於真核生物最好找注釋為全長的mRNA序列,原核生物最好有起始密碼子和終止密碼子
D. 16s rRNA的本質是RNA,為什麼GENBANK裡面的序列組成卻是ATCG
摘要 在生物信息學資料庫里,核酸,包括DNA和RNA,它們的序列都是用DNA序列的形式,也就是ATGC表示的,除了一些特別的稀有鹼基。這樣便於統一管理數據。而且,比如說16SrRNA,其DNA序列和RNA序列就是T和U的區別,只是一個轉換問題,很簡單。只需要在存儲的序列注釋里說明這個序列是mRNA還是
E. genbank中來自cathepsin l的序列記錄約有多少
GENBANK序列資料庫 GENBANK是美國國立衛生研究院(NIH)維護的基因序列資料庫,匯集並注釋了所有公開的核酸以及蛋白質序列。每個紀錄代表了一個單獨的、連續的、帶有注釋的DNA或RNA片段。目前GENBANK中所有的紀錄均來自於最初作者向DNA資料庫的直接提交。 蛋白質資料庫: 60年代初,DAYHOFF和他的同事們收集了所有當時已知的氨基酸序列,這就是《蛋白質序列與結構圖冊》。這一蛋白質資料庫後來成為蛋白質信息資源PIR。 核苷酸資料庫: 1982年在歐洲分子生物學實驗室(EMBL)誕生,隨即就開始了一個資料庫爆炸的時代。後來NIH搞了GENBANK。日本的DNA資料庫(DDBJ)加入了數據收集的合作。國際DNA序列資料庫合作計劃。規定了數據記錄和更新的規則。 國際核苷酸序列資料庫合作成員GENBANK--DDBJ--EMBL。GENBANK指的是DDBJ/EMBL/GENBANK 開發利用這些信息的工具(如NCBI的信息檢索系統 ENTREZ a href=" http://www.NCBI.NLM.NIH.GOV/ENTREZ/ " http://www.NCBI.NLM.NIH.GOV/ENTREZ//a ) 編碼序列(CDS): 大多數蛋白質序列都不是直接由實驗確定的,而是通過DNA序列得到的。這種方法需要進行大量的實驗、計算以及相似性比對工作。他也賦予一個產物名稱,或者功能說明(通過主觀的對相似性比對的分析)。 資料庫的格式與內容: 資料庫被用來存放原始數據和一系列附加的信息。不同的檢索工具和程序利用了這些信息中的不同部分。 FASTA 格式:廣泛應用於許多分子生物學軟體包之中。作為最簡單的情況,大於號(>)表示一個新文件的開始。通常60個字元一行。 >GB|AF150991|AF150991 TRICHOPLUSIA NI SINGLE CAPSID NUCLEAR POLYHEDROSIS VIRUS.ENSURES GREATER OCCLUSION BODY STABILITYPRODUCT--P10 / P10 PROTEIN >GB|AF275264|AF275264 HELICOVERPA ZEA NUCLEAR POLYHEDROSIS VIRUS.COMPLEMENTPRODUCT--E66-LIKE PROTEIN (PARTIAL DNA SEQUENCE) >GB|AF275264|AF275264 HELICOVERPA ZEA NUCLEAR POLYHEDROSIS VIRUS.COMPLEMENTPRODUCT--P13 >GB|AF275264|AF275264 HELICOVERPA ZEA NUCLEAR POLYHEDROSIS VIRUS.PRODUCT--ORF50-LIKE PROTEIN ASN.1 GENBANK FLATFILE: 頭部: 始於LOCUS行---LOCUS名稱,序列長度,生物分子的類型(SS或DS DNA,RNA,TRNA,RRNA, MRNA),GENBANK分類碼,數據公開日期 DEFINITION行---總結紀錄的生物意義。 檢索號---是從資料庫中檢索一個記錄的主要關鍵詞。格式:1+5或2+6。所有的GENBANK記錄都只有一個單獨的ACCESSION行。 NID---行表示核苷酸序列的GI號碼(GENINFO IDENTIFIER)。一個GI號碼對應於一個核苷酸序列。當序列改變時,GI號也改變,但檢索號不變。 KEYWORDS--- SOURCS--- ORGANISM--- REFERENCE--- AUTHORS--- TITLE--- JOURNAL---
F. Genbank序列包含什麼
用戶可以通過NCBI(National Center for Biotechnology Information美國國家生物技術信息中心信息中心,隸屬於NLM-美國國家醫學圖書館)的主頁使用GenBank。GenBank的宗旨是鼓勵科研團體對DNA序列的獲取,從而促進資料庫中DNA序列的豐富和更新,所以NCBI對GenBank的數據使用與發送沒有任何限制。用戶可從GenBank主頁上下載Banklt(NCBI提供的WWW格式,用於便捷的提交DNA序列的數據)、sequin(NCBI的獨立於操作系統的提交軟體,可用於MAC、PC和UNIX平台,也可以通過FTP遠程獲取)以及VecScreen(帶菌污染物的篩選工具)等便於提交和更新研究成果的應用軟體。
其頁面上的簡單檢索界面提供19種相關檢索選項,分別是:PubMed、Protein(蛋白質)、Nucleotide(核苷)、Structure(結構)、Genome(基因組)、PMC、LocusLink、PopSet、OMIM、Taxonomy(分類學)、Books(圖書)、ProbeSet、3D Domains(三維區域)、UniSTS、Domains、SNP、Journals(期刊)、UniGene、NCBI Web Site(NCBI站點)。GenBank可以與DNA Star軟體結合使用,進行基因序列分析和比對。GenBank是一個開放獲取的序列資料庫,對所有公開可利用的核苷酸序列與其翻譯的蛋白質進行收集並注釋。 此資料庫是國際協作核酸序列資料庫(INSDC)的一部分,由美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)主管,NCBI為美國國立衛生研究院的下屬機構。GenBank和它的合作者從全球各個實驗室接收了超過百萬種生物的數據。Genbank庫包含了所有已知的核酸序列和蛋白質序列,以及與它們相關的文獻著作和生物學注釋。它的數據直接來源於測序工作者提交的序列、由測序中心提交的大量EST序列和其它測序數據、以及與其它數據機構協作交換數據而來。
Genbank每天都會與歐洲分子生物學實驗室(EMBL)的資料庫,和日本的DNA資料庫(DDBJ)交換數據,使這三個資料庫的數據同步。到1999年8月,Genbank中收集的序列數量達到460萬條,34億個鹼基,而且數據增長的速度還在不斷加快。Genbank的數據可以從NCBI的FTP伺服器上免費下載完整的庫,或下載積累的新數據。NCBI還提供廣泛的數據查詢、序列相似性搜索以及其它分析服務,用戶可以從NCBI的主頁上找到這些服務。
G. 核酸序列資料庫(genbank)和基因組資料庫(ensemble)的區別
核酸序列資料庫(genbank)和基因組資料庫(ensemble)的區別:
1、GenBank
是一個有來自於70,000多種生物的核苷酸序列的資料庫。每條紀錄都有編碼區(CDS)特徵的注釋,還包括氨基酸的翻譯。GenBank屬於一個序列資料庫的國際合作組織,包括EMBL和DDBJ。
2、Ensemble資料庫可為葯物研發提供超過167,000種生物活性化合物包括化學結構在內的必要信息。本資料庫利用用戶容易掌握的界面將數據、文本和圖象資料有機地結合起來,便於查詢。Ensemble可從葯品專利開始,再通過其臨床前和臨床研究資料,直至注冊信息、市場概況及其他方面的相關資料來跟蹤葯物。資料庫每月更新一次,每年增加約10,000
種新化合物。
H. genbank文件怎麼進行數據對比
GenBank是美國國家生物技術信息中心(National Center for Biotechnology Information ,NCBI)建立的DNA序列資料庫,從公共資源中獲取序列數據,主要是科研人員直接提供或來源於大規模基因組測序計劃( Benson等, 1998)。為保證數據盡可能的完全,GenBank與EMBL、DDBJ建立了相互交換數據的合作關系。你可以到生物幫那裡了解這方面的信息,生物幫,依託互聯網,面向生物研究者、企業和研究機構,提供最新、領先、精準、高效、全面的生物產品和技術信息。我一般找資料都會去那裡的。幫助蠻大的。 簡介大型資料庫分成若乾子庫,有許多好處。首先,可以把資料庫查詢限定在某一特定部分,以便加快查詢速度。其次,基因組計劃快速測序得到的大量序列尚未加以注釋,將它們單獨分類,有利於資料庫查詢和搜索時「有的放矢」。GenBank將這些數據按高通量基因組序列(HighThroughput Genomic Sequences,HTG)、表達序列標記(Expressed Sequence Tags,EST)、序列標記位點(Sequence TaggedSites,STS)和基因組概覽序列(Genome Survey Sequences,GSS)單獨分類。盡管這些數據尚未加以注釋,它們依然是GenBank的重要組成部分。可通過Entrez資料庫查詢系統對GenBank進行查詢。這個系統將核酸、蛋白質序列和基因圖譜、蛋白質結構資料庫整合在一起。此外,通過該系統的文獻摘要資料庫MEDLINE,可獲取有關序列的進一步信息。在萬維網上,進入NCBI的主頁,可以用BLAST程序對GenBank資料庫進行未知序列的同源性搜索(詳見第六章)。完整的GenBank資料庫包括序列文件,索引文件以及其它有關文件。索引文件是根據資料庫中作者、參考文獻等子段建立的,用於資料庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列資料庫,其數據格式為FastA。GenBank曾以CD-ROM光碟的形式分發,價格比較便宜。隨著資料庫容量的增長,一套最新版的GenBank需要12張光碟存放,不僅生產成本很高,也不便於使用。現在,光碟分發的方式已經停止,可以通過網路下載GenBank資料庫。可 參考:That can help you.Click /zt/focus/ncbi.htm, Sign in accountGenBank中最常用的是序列文件。序列文件的基本單位是序列條目,包括核甘酸鹼基排列順序和注釋兩部分。目前,許多生物信息資源中心通過計算機網路提供該資料庫文件。下面,我們介紹序列文件的結構。序列文件由單個的序列條目組成。序列條目由欄位組成,每個欄位由關鍵字起始,後面為該欄位的具體說明。有些欄位又分若干次子欄位,以次關鍵字或特性表說明符開始。每個序列條目以雙斜杠「//」作結束標記。序列條目的格式非常重要,關鍵字從第一列開始,次關鍵字從第三列開始,特性表說明符從第五列開始。每個欄位可以佔一行,也可以占若干行。若一行中寫不下時,繼續行以空格開始。序列條目的關鍵字包括代碼(LOCUS),說明(DEFINITION), 編號(ACCESSION),核酸標識符(NID),關鍵詞(KEYWORDS),數據來源(SOURCE),文獻(REFERENCE),特性表(FEATURES),鹼基組成(BASE COUNT)及鹼基排列順序(ORIGIN)。代碼LOCUS是該序列條目的標記,或者說標識符,蘊涵這個序列的功能。例如,圖4.1中所示的HUMCYCLOX表示人的環氧化酶cyclooxygenase。該欄位還包括其它相關內容,如序列長度、類型、種屬來源以及錄入日期等。說明欄位是有關這一序列的簡單描述,如本例為人環氧化酶-2的mRNA全序列。序列代碼具有唯一性和永久性,如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列,在文獻中引用這個序列時,應該以此代碼為准。核酸標識符NID對序列信息的當前版本提供?關鍵詞欄位由該序列的提交者提供,包括該序列的基因產物以及其它相關信息,如本例中還氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。數據來源欄位說明該序列是從什麼生物體、什麼組織得到的,如本例中人臍帶血管(umbilical vein)。次關鍵字種屬(ORGANISM)指出該生物體的分類學地位,如本例人、真核生物等等。文獻欄位說明該序列中的相關文獻,包括作者(AUTHORS),題目(TITLE)及雜志名(JOURNAL)等,以次關鍵詞列出。該欄位中還列出醫學文獻摘要資料庫MEDLINE的代碼。該代碼實際上是個網路鏈接指針,點擊它可以直接調用上述文獻摘要。一個序列可以有多篇文獻,以不同序號表示,並給出該序列中的哪一部分與文獻有關。FEATURES是具有自己的一套結構,用來詳細描述序列特性的一個表格。在這個表格內,帶有『/db-xref/』標志的字元可以連接到其它資料庫內(本例,您看到的是一個分類資料庫(taxon 9606),以及一個蛋白質資料庫(PID:g181254));序列中各部分的位置都加以標明,5』非編碼區(1-97),編碼區(98-1912),3非編碼區(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白質翻譯的信號肽及最終的多肽也都有所說明。這個例子不能說很全面,但已經足以說明特性表給出信息的詳細程度。 接下來是BASE COUNT記錄,計算出不同鹼基在整個序列中出現的次數(1010A,712個C,633個G,1032個T)。ORIGIN那一行,指出了序列第一個鹼基在基因組中可能的位置。最後,核酸的序列全部列出,並以//作為結尾。檢索方式:如果在文獻中看到過你感興趣的基因,而且文中還提到了該基因在Genbank中的ID號,進入NCBI ,在Search後的下拉框中選擇Nucleotide,把Genbank ID號輸入GO前面的文本框中,點「GO」,即可以檢索到所需序列。
I. GenBank EMBL優缺點
GenBank資料庫結構
完整的GenBank資料庫包括序列文件,索引文件以及其它有關文件。索引文件是根據資料庫中作者、參考文獻等建立的,用於資料庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列資料庫,其數據格式為FastA。
GenBank中最常用的是序列文件。序列文件的基本單位是序列條目,包括核苷酸鹼基排列順序和注釋兩部分。目前,許多生物信息資源中心通過計算機網路提供該資料庫文件。下面,我們介紹序列文件的結構。
GenBank序列文件由單個的序列條目組成。序列條目由欄位組成,每個欄位由關鍵字起始,後面為該欄位的具體說明。有些欄位又分若干次子欄位,以次關鍵字或特性表說明符開始。每個序列條目以雙斜杠「//」作結束標記。序列條目的格式非常重要,關鍵字從第一列開始,次關鍵字從第三列開始,特性表說明符從第五列開始。每個欄位可以佔一行,也可以占若干行。若一行中寫不下時,繼續行以空格開始。
序列條目的關鍵字包括LOCUS (代碼),DEFINITION (說明),ACCESSION (編號),NID符(核酸標識),KEYWORDS (關鍵詞),SOURCE (數據來源),REFERENCE (文獻),FEATURES (特性表),BASE COUNT (鹼基組成)及ORIGIN (鹼基排列順序)。先版的核酸序列資料庫將引入新的關鍵詞SV (序列版本號),用「編號.版本號」表示,並取代關鍵詞NID。
LOCUS (代碼):是該序列條目的標記,或者說標識符,蘊涵這個序列的功能。例如,圖4.1中所示的HUMCYCLOX表示人的環氧化酶cyclooxygenase。該欄位還包括其它相關內容,如序列長度、類型、種屬來源以及錄入日期等。說明欄位是有關這一序列的簡單描述,如本例為人環氧化酶-2的mRNA全序列。
ACCESSION (編號):具有唯一性和永久性,如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列,在文獻中引用這個序列時,應該以此編號為准。
KEYWORDS (關鍵詞)欄位:由該序列的提交者提供,包括該序列的基因產物以及其它相關信息,如本例中環氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。
SOURCE (數據來源)欄位:說明該序列是從什麼生物體、什麼組織得到的,如本例中人臍帶血(umbilical vein)。次關鍵字ORGANISM (種屬)指出該生物體的分類學地位,如本例人、真核生物等等(詳見圖4.1)。
REFERENCE (文獻)欄位:說明該序列中的相關文獻,包括AUTHORS (作者),TITLE (題目)及JOURNAL (雜志名)等,以次關鍵詞列出。該欄位中還列出醫學文獻摘要資料庫MEDLINE的代碼。該代碼實際上是個超文本鏈接,點擊它可以直接調用上述文獻摘要。一個序列可以有多篇文獻,以不同序號表示,並給出該序列中的哪一部分與文獻有關。
FEATURES (特性表):具有特定的格式,用來詳細描述序列特性。特性表中帶有『/db-xref/』標志的字元可以連接到其它資料庫,如本例中的分類資料庫(taxon 9606),以及蛋白質序列資料庫(PID:g181254)。序列中各部分的位置都在表中標明,5』非編碼區(1-97),編碼區(98-1912),3』非編碼區(1913-3387),多聚腺苷酸重復區域(3367-3374),等等。翻譯所得信號肽以及最終蛋白質產物也都有所說明。當然,這個例子只是特性表的部分注釋信息,但已經足以說明其詳細程度。
接下來是鹼基含量欄位,給出序列中的鹼組成,如本例中1010個A,712個C,633個G,1032個T。ORIGIN行是序列的引導行,接下來便是鹼基序列,以雙斜杠行「//」結束。
· EMBL資料庫結構
EMBL資料庫的基本單位也是序列條目,包括核甘酸鹼基排列順序和注釋兩部分。序列條目由欄位組成,每個欄位由標識字起始,後面為該欄位的具體說明。有些欄位又分若干次子欄位,以次標識字或特性表說明符開始,最後以雙斜杠「//」作本序列條目結束標記。
條目的關鍵字包括ID(序列名稱),DE(序列簡單說明),AC(序列編號),SV(序列版本號),KW(與序列相關的關鍵詞),OS(序列來源的物種名),OC(序列來源的物種學名和分類學位置),RN(相關文獻編號或遞交序列的注冊信息),RA(相關文獻作者或遞交序列的作者),RT(相關文獻題目),RL(相關文獻雜志名或遞交序列的作者單位),RX(相關文獻Mediline引文代碼),RC(相關文獻注釋),RP(相關文獻其他注釋),CC(關於序列的注釋信息),DR(相關資料庫交叉引用號),FH(序列特徵表起始),FT(序列特徵表子項),SQ(鹼基種類統計數)。
其它常用核酸序列資料庫
· dbEST
dbEST資料庫專門收集EST數據,該資料庫有自己的格式,包括識別符、代碼、序列數據以及dbEST的注釋摘要,也按DNA的種類分成了若乾子資料庫。1998年5月8日版的dbEST共包括1.6ⅹ106條EST。其中有1百萬條人的EST,30萬條小鼠和大鼠的EST。
· GSDB
GSDB是基因組序列資料庫(Genome Sequence Data Base),由美國新墨西哥州Santa Fe的國家基因組資源中心創建。GSDB收集、管理並且發布完整的DNA序列及其相關信息,以滿足基因組測序中心需要。該資料庫採用伺服器-客戶機關系資料庫模式,大規模測序機構可以通過計算機網路向伺服器提交數據,並在發送之前對數據進行檢查,以確保數據的質量。
GSDB資料庫中條目的格式與GenBank中的基本一致,主要區別是GSDB資料庫中增加了GSDBID識別符。
GSDB資料庫可以通過萬維網查詢,也可以使用伺服器-客戶機關系資料庫方式查詢。無論用哪種方法,熟悉資料庫結構化查詢語言SQL,對更好地使用GSDB資料庫會有所幫助。
· UniGene
人類基因組計劃的首要任務是對人類基因組進行全序列測定,整個基因組估計有30億個鹼基對,其中大約3%可以編碼蛋白質,其餘部分的生物學功能還不清楚。轉錄圖譜可以把基因組中能夠編碼蛋白質的部分集中起來,因此是一種重要的數據資源。
UniGene試圖通過計算機程序對GeneBank中的序列數據進行適當處理,剔除冗餘部分,將同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的轉錄圖譜。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因,而下一章將要介紹的HGI資料庫只包括人的基因。該資料庫的標題行(TITLE)給出基因的名稱和簡單說明,表達部位行(EXPRESS)指出該基因在什麼組織中表達以及在基因圖譜中的位置等。此外,列出該基因在核酸序列資料庫GenBank或EMBL和蛋白質序列資料庫SWISS-PROT中的編號的超文本鏈接。
UniGene中部分條目包括已知基因序列,而有些條目則僅有新測得的EST序列片段。這就意味著,這些EST序列所對應的基因尚未搞清,可以用來發現新基因。在描繪基因圖譜及大規模基因表達分析等研究中,UniGene也可以幫助實驗設計者選擇試劑。
UniGene可以通過NCBI或SRS系統訪問
J. 核酸序列資料庫(genbank)和基因組資料庫(ensemble)的區別
核酸序列資料庫(genbank)和基因組資料庫(ensemble)的區別:
1、GenBank 是一個有來自於70,000多種生物的核苷酸序列的資料庫。每條紀錄都有編碼區(CDS)特徵的注釋,還包括氨基酸的翻譯。GenBank屬於一個序列資料庫的國際合作組織,包括EMBL和DDBJ。
2、Ensemble資料庫可為葯物研發提供超過167,000種生物活性化合物包括化學結構在內的必要信息。本資料庫利用用戶容易掌握的界面將數據、文本和圖象資料有機地結合起來,便於查詢。Ensemble可從葯品專利開始,再通過其臨床前和臨床研究資料,直至注冊信息、市場概況及其他方面的相關資料來跟蹤葯物。資料庫每月更新一次,每年增加約10,000 種新化合物。