1. 蛋白質序列資料庫的資料庫分類
PIR資料庫按照數據的性質和注釋層次分四個不同部分,分別為PIR1、PIR2、PIR3和PIR4。PIR1中的序列已經驗證,注釋最為詳盡;PIR2中包含尚未確定的冗餘序列;PIR3中的序列尚未加以檢驗,也未加註釋; 而PIR4中則包括了其它各種渠道獲得的序列,既未驗證,也無注釋。除了PIR外,另一個重要的蛋白質序列資料庫則是SwissProt。該資料庫由瑞士日內瓦大學於1986年創建,目前由瑞士生物信息學研究所(Swiss Institute of Bioinformatics,簡稱SIB)和歐洲生物信息學研究所 EBI共同維護和管理。瑞士生物信息研究所下屬的蛋白質分析專家系統(Expert Protein Analysis System,,簡稱ExPASy)的Web伺服器除了開發和維護SwissProt資料庫外,也是國際上蛋白質組和蛋白質分子模型研究的中心,為用戶提供大量蛋白質信息資源。北京大學生物信息中心設有ExPASy的鏡象。PIR和SwissProt是創建最早、使用最為廣泛的兩個蛋白質資料庫。隨著各種模式生物基因組計劃的進展,DNA序列特別是EST序列大量進入核酸序列資料庫。蛋白質序列資料庫TrEMBL是從EMBL中的cDNA序列翻譯得到的。TrEMBL資料庫創建是於1996年[Bairoch, 2000],意為「Translation of EMBL」。該資料庫採用SwissProt資料庫格式,包含EMBL資料庫中所有編碼序列的翻譯。TrEMBL資料庫分兩部分,SP-TrEMBL和 REM-TrEMBL。SP-TrEMBL中的條目最終將歸並到SwissProt資料庫中。而Rem-TrEMBL則包括其它剩餘序列,包括免疫球蛋白、T細胞受體、少於8個氨基酸殘基的小肽、合成序列、專利序列等。與TrEMBL類似,GenPept是由GenBank翻譯得到的蛋白質序列。由於TrEMBL和GenPept均是由核酸序列通過計算機程序翻譯生成,這兩個資料庫中的序列錯誤率較大,均有較大的冗餘度。另一個常用的蛋白質序列資料庫是已知三維結構蛋白質的一級結構序列資料庫NRL-3D[Namboodiri, 1990]。該資料庫的序列是從三維結構資料庫PDB中提取出來。
2. 核酸序列、結構資料庫有哪些
美國的核酸資料庫GenBank
http://www.ncbi.nlm.nih.gov
歐洲核酸序列資料庫EMBL
http://www.embl-heidelberg.de
日本核酸序列資料庫DDBJ
http://www.ddbj.nig.ac.jp
這是目前世界三大核酸資料庫.不本我們用的最多的還是NCBI,基本上是不用日本的!
3. 核酸序列資料庫和基因組資料庫的區別
核酸序列資料庫(genbank)和基因組資料庫(ensemble)的區別:
1、GenBank
是一個有來自於70,000多種生物的核苷酸序列的資料庫。每條紀錄都有編碼區(CDS)特徵的注釋,還包括氨基酸的翻譯。GenBank屬於一個序列資料庫的國際合作組織,包括EMBL和DDBJ。
2、Ensemble資料庫可為葯物研發提供超過167,000種生物活性化合物包括化學結構在內的必要信息。本資料庫利用用戶容易掌握的界面將數據、文本和圖象資料有機地結合起來,便於查詢。Ensemble可從葯品專利開始,再通過其臨床前和臨床研究資料,直至注冊信息、市場概況及其他方面的相關資料來跟蹤葯物。資料庫每月更新一次,每年增加約10,000
種新化合物。
4. 是哪位科學家首次在世界上建立了蛋白質資料庫是哪位科學家首次在世界上建立了DNA序列資料庫
EMBL是歐洲生物信息學研究所
(European
Bioinformatics
Institute,
EBI)創建的一個核酸序列資料庫。EMBL的數據來源主要有兩部分,一部分由科研人員或某些基因組測序機構通過計算機網路直接提交,另一部分則來自科技文獻或專利(Stoesser等,
1998)。EMBL與DDBJ、GenBank建有合作關系,他們分別在全世界范圍內收集核酸序列信息,每天都將新發現或更新過的數據相互交換。
DNA資料庫的規模正在以指數方式增長,平均不到9個月就增加一倍。1998年1月,EMBL中收錄的序列數已超過一百萬,包括15,500個物種,其中模式生物的序列佔50%以上,它們包括人類(Homo
sapiens),
線蟲(Caenorhabditis
elegans),啤酒酵母(Saccharomyces
cerevisiae),小鼠(Mus
musculus)和擬南芥(Arabidopsis
thalania)。
可以利用序列查詢系統
SRS(Sequence
Retrieval
System)從EMBL資料庫中提取有關信息(Etzold等,1996年)。SRS序列查詢系統通過超文本鏈接將DNA序列資料庫和蛋白質序列、功能位點、結構、基因圖譜以及文獻摘要MEDLINE等各種資料庫聯系在一起。利用EBI網站提供的BLAST或FastA程序,可以對EMBL資料庫進行未知序列同源性搜索。
5. 為什麼說swiss-prot是重要的蛋白質序列資料庫
SWISS-PROT是含有詳細注釋內容的蛋白質序列資料庫,由歐洲生物信息學中心(EBI)維護,目前已合並入 UniProt資料庫,旨在幫助基因組和蛋白質組以及相關的分子生物學研究人員提供有關蛋白質氨基酸序列的最新信息。
SWISS-PROT中盡可能減少了冗餘序列,並與其它30多個數據建立
了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。SWISS-PROT資料庫包含了EMBL核酸序列資料庫中被經過仔細檢查和准確注釋了
的蛋白質序列,一般地,任何蛋白質序列數據的搜尋和比較都應從SWISS-PROT開始。
SWISS-PROT蛋白質序列數據由大量序列條目組成,每一個序列條目
有其自己的格式。為了標准化的目的,SWISS-PROT的格式與EMBL核酸序列資料庫的格式盡可能類似。SWISS-PROT涉及已知蛋白質的序列、
引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關
系、序列變異體和沖突等信息。利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。SWISS-PROT只接受直接測序
獲得的蛋白質序列,序列提交可以在其Web頁面上完成。
6. 常用的查詢蛋白質結構以及序列的資料庫主要有哪些
1. PIR和PSD
PIR國際蛋白質序列資料庫(PSD)是由蛋白質信息資源(PIR)、慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列資料庫(JIPID)共同維護的國際上最大的公共蛋白質序列資料庫,可在這里下載。這是一個全面的、經過注釋的、非冗餘的蛋白質序列資料庫,其中包括來自幾十個完整基因組的蛋白質序列。所有序列數據都經過整理,超過99%的序列已按蛋白質家族分類,一半以上還按蛋白質超家族進行了分類。PSD的注釋中還包括對許多序列、結構、基因組和文獻資料庫的交叉索引,以及資料庫內部條目之間的索引,這些內部索引幫助用戶在包括復合物、酶-底物相互作用、活化和調控級聯和具有共同特徵的條目之間方便的檢索。每季度都發行一次完整的資料庫,每周可以得到更新部分。
PSD資料庫有幾個輔助資料庫,如基於超家族的非冗餘庫等。PIR提供三類序列搜索服務:基於文本的互動式檢索;標準的序列相似性搜索,包括BLAST、FASTA等;結合序列相似性、注釋信息和蛋白質家族信息的高級搜索,包括按注釋分類的相似性搜索、結構域搜索GeneFIND等。
2. SWISS-PROT
SWISS-PROT是經過注釋的蛋白質序列資料庫,由歐洲生物信息學研究所(EBI)維護。資料庫由蛋白質序列條目構成,每個條目包含蛋白質序列、引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗餘序列,並與其它30多個數據建立了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。
利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。SWISS-PROT只接受直接測序獲得的蛋白質序列,序列提交可以在其Web頁面上完成。
3. PROSITE
PROSITE資料庫收集了生物學有顯著意義的蛋白質位點和序列模式,並能根據這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質序列應該屬於哪一個蛋白質家族。有的情況下,某個蛋白質與已知功能蛋白質的整體序列相似性很低,但由於功能的需要保留了與功能密切相關的序列模式,這樣就可能通過PROSITE的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點、配體結合位點、與金屬離子結合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質結合的區域等;除了序列模式之外,PROSITE還包括由多序列比對構建的profile,能更敏感地發現序列與profile的相似性。PROSITE的主頁上提供各種相關檢索服務。
4. PDB
蛋白質數據倉庫(PDB)是國際上唯一的生物大分子結構數據檔案庫,由美國Brookhaven國家實驗室建立。PDB收集的數據來源於X光晶體衍射和核磁共振(NMR)的數據,經過整理和確認後存檔而成。目前PDB資料庫的維護由結構生物信息學研究合作組織(RCSB)負責。RCSB的主伺服器和世界各地的鏡像伺服器提供資料庫的檢索和下載服務,以及關於PDB數據文件格式和其它文檔的說明,PDB數據還可以從發行的光碟獲得。使用Rasmol等軟體可以在計算機上按PDB文件顯示生物大分子的三維結構。
5. SCOP
蛋白質結構分類(SCOP)資料庫詳細描述了已知的蛋白質結構之間的關系。分類基於若干層次:家族,描述相近的進化關系;超家族,描述遠源的進化關系;折疊子(fold),描述空間幾何結構的關系;折疊類,所有折疊子被歸於全α、全β、α/β、α+β和多結構域等幾個大類。SCOP還提供一個非冗餘的ASTRAIL序列庫,這個庫通常被用來評估各種序列比對演算法。此外,SCOP還提供一個PDB-ISL中介序列庫,通過與這個庫中序列的兩兩比對,可以找到與未知結構序列遠緣的已知結構序列。
6. COG
蛋白質直系同源簇(COGs)資料庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據系統進化關系分類構建而成。COG庫對於預測單個蛋白質的功能和整個新基因組中蛋白質的功能都很有用。利用COGNITOR程序,可以把某個蛋白質與所有COGs中的蛋白質進行比對,並把它歸入適當的COG簇。COG庫提供了對COG分類數據的檢索和查詢,基於Web的COGNITOR服務,系統進化模式的查詢服務等。
7. 比較分析,genbank和embl格式有何異同
通過Entrez資料庫查詢系統對GenBank進行查詢。這個系統將核酸、蛋白質序列和基因圖譜、蛋白質結構資料庫整合在一起。此外,通過該系統的文獻摘要資料庫MEDLINE,可獲取有關序列的進一步信息。在萬維網上,進入NCBI的主頁,可以用BLAST程序對GenBank資料庫進行未知序列的同源性搜索(詳見第六章)。
完整的GenBank資料庫包括序列文件,索引文件以及其它有關文件。索引文件是根據資料庫中作者、參考文獻等子段建立的,用於資料庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列資料庫,其數據格式為FastA。GenBank曾以CD-ROM光碟的形式分發,價格比較便宜。隨著資料庫容量的增長,一套最新版的GenBank需要12張光碟存放,不僅生產成本很高,也不便於使用。現在,光碟分發的方式已經停止,可以通過網路下載GenBank資料庫。
GenBank中最常用的是序列文件。序列文件的基本單位是序列條目,包括核甘酸鹼基排列順序和注釋兩部分。目前,許多生物信息資源中心通過計算機網路提供該資料庫文件。下面,我們介紹序列文件的結構。
序列文件由單個的序列條目組成。序列條目由欄位組成,每個欄位由關鍵字起始,後面為該欄位的具體說明。有些欄位又分若干次子欄位,以次關鍵字或特性表說明符開始。每個序列條目以雙斜杠"//"作結束標記。序列條目的格式非常重要,關鍵字從第一列開始,次關鍵字從第三列開始,特性表說明符從第五列開始。每個欄位可以佔一行,也可以占若干行。若一行中寫不下時,繼續行以空格開始。
序列條目的關鍵字包括代碼(LOCUS),說明(DEFINITION), 編號(ACCESSION),核酸標識符(NID),關鍵詞(KEYWORDS),數據來源(SOURCE),文獻(REFERENCE),特性表(FEATURES),鹼基組成(BASE COUNT)及鹼基排列順序(ORIGIN)。
代碼LOCUS是該序列條目的標記,或者說標識符,蘊涵這個序列的功能。例如,圖4.1中所示的HUMCYCLOX表示人的環氧化酶cyclooxygenase。該欄位還包括其它相關內容,如序列長度、類型、種屬來源以及錄入日期等。說明欄位是有關這一序列的簡單描述,如本例為人環氧化酶-2的mRNA全序列。
序列代碼具有唯一性和永久性,如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列,在文獻中引用這個序列時,應該以此代碼為准。核酸標識符NID對序列信息的當前版本提供?
關鍵詞欄位由該序列的提交者提供,包括該序列的基因產物以及其它相關信息,如本例中還氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。 數據來源欄位說明該序列是從什麼生物體、什麼組織得到的,如本例中人臍帶血管(umbilical vein)。次關鍵字種屬(ORGANISM)指出該生物體的分類學地位,如本例人、真核生物等等。文獻欄位說明該序列中的相關文獻,包括作者(AUTHORS),題目(TITLE)及雜志名(JOURNAL)等,以次關鍵詞列出。該欄位中還列出醫學文獻摘要資料庫MEDLINE的代碼。該代碼實際上是個網路鏈接指針,點擊它可以直接調用上述文獻摘要。一個序列可以有多篇文獻,以不同序號表示,並給出該序列中的哪一部分與文獻有關。
FEATURES是具有自己的一套結構,用來詳細描述序列特性的一個表格。在這個表格內,帶有'/db-xref/'標志的字元可以連接到其它資料庫內(本例,您看到的是一個分類資料庫(taxon 9606),以及一個蛋白質資料庫(PID:g181254));序列中各部分的位置都加以標明,5'非編碼區(1-97),編碼區(98-1912),3非編碼區(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白質翻譯的信號肽及最終的多肽也都有所說明。這個例子不能說很全面,但已經足以說明特性表給出信息的詳細程度。
接下來是BASE COUNT記錄,計算出不同鹼基在整個序列中出現的次數(1010A,712個C,633個G,1032個T)。ORIGIN那一行,指出了序列第一個鹼基在基因組中可能的位置。最後,核酸的序列全部列出,並以//作為結尾。