當前位置:首頁 » 服務存儲 » 存儲蛋白序列的二級資料庫是哪些
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

存儲蛋白序列的二級資料庫是哪些

發布時間: 2022-06-12 14:34:11

1. 常用的查詢蛋白質結構以及序列的資料庫主要有哪些

1. PIR和PSD
PIR國際蛋白質序列資料庫(PSD)是由蛋白質信息資源(PIR)、慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列資料庫(JIPID)共同維護的國際上最大的公共蛋白質序列資料庫,可在這里下載。這是一個全面的、經過注釋的、非冗餘的蛋白質序列資料庫,其中包括來自幾十個完整基因組的蛋白質序列。所有序列數據都經過整理,超過99%的序列已按蛋白質家族分類,一半以上還按蛋白質超家族進行了分類。PSD的注釋中還包括對許多序列、結構、基因組和文獻資料庫的交叉索引,以及資料庫內部條目之間的索引,這些內部索引幫助用戶在包括復合物、酶-底物相互作用、活化和調控級聯和具有共同特徵的條目之間方便的檢索。每季度都發行一次完整的資料庫,每周可以得到更新部分。
PSD資料庫有幾個輔助資料庫,如基於超家族的非冗餘庫等。PIR提供三類序列搜索服務:基於文本的互動式檢索;標準的序列相似性搜索,包括BLAST、FASTA等;結合序列相似性、注釋信息和蛋白質家族信息的高級搜索,包括按注釋分類的相似性搜索、結構域搜索GeneFIND等。
2. SWISS-PROT
SWISS-PROT是經過注釋的蛋白質序列資料庫,由歐洲生物信息學研究所(EBI)維護。資料庫由蛋白質序列條目構成,每個條目包含蛋白質序列、引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗餘序列,並與其它30多個數據建立了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。
利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。SWISS-PROT只接受直接測序獲得的蛋白質序列,序列提交可以在其Web頁面上完成。
3. PROSITE
PROSITE資料庫收集了生物學有顯著意義的蛋白質位點和序列模式,並能根據這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質序列應該屬於哪一個蛋白質家族。有的情況下,某個蛋白質與已知功能蛋白質的整體序列相似性很低,但由於功能的需要保留了與功能密切相關的序列模式,這樣就可能通過PROSITE的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點、配體結合位點、與金屬離子結合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質結合的區域等;除了序列模式之外,PROSITE還包括由多序列比對構建的profile,能更敏感地發現序列與profile的相似性。PROSITE的主頁上提供各種相關檢索服務。
4. PDB
蛋白質數據倉庫(PDB)是國際上唯一的生物大分子結構數據檔案庫,由美國Brookhaven國家實驗室建立。PDB收集的數據來源於X光晶體衍射和核磁共振(NMR)的數據,經過整理和確認後存檔而成。目前PDB資料庫的維護由結構生物信息學研究合作組織(RCSB)負責。RCSB的主伺服器和世界各地的鏡像伺服器提供資料庫的檢索和下載服務,以及關於PDB數據文件格式和其它文檔的說明,PDB數據還可以從發行的光碟獲得。使用Rasmol等軟體可以在計算機上按PDB文件顯示生物大分子的三維結構。
5. SCOP
蛋白質結構分類(SCOP)資料庫詳細描述了已知的蛋白質結構之間的關系。分類基於若干層次:家族,描述相近的進化關系;超家族,描述遠源的進化關系;折疊子(fold),描述空間幾何結構的關系;折疊類,所有折疊子被歸於全α、全β、α/β、α+β和多結構域等幾個大類。SCOP還提供一個非冗餘的ASTRAIL序列庫,這個庫通常被用來評估各種序列比對演算法。此外,SCOP還提供一個PDB-ISL中介序列庫,通過與這個庫中序列的兩兩比對,可以找到與未知結構序列遠緣的已知結構序列。
6. COG
蛋白質直系同源簇(COGs)資料庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據系統進化關系分類構建而成。COG庫對於預測單個蛋白質的功能和整個新基因組中蛋白質的功能都很有用。利用COGNITOR程序,可以把某個蛋白質與所有COGs中的蛋白質進行比對,並把它歸入適當的COG簇。COG庫提供了對COG分類數據的檢索和查詢,基於Web的COGNITOR服務,系統進化模式的查詢服務等。

2. 整合在NCBI的PubMed、protein和nucleotide等二級資料庫存儲的對象分別為

文獻
蛋白質序列
核苷酸序列

3. 在NCBI中,如何獲取一個物種的所有蛋白質序列和二級結構

我可以告訴你,那是不可以能的。一個物種所包含的蛋白質有多少種?NCBI中儲存的數據是按照單個蛋白質序列貯存的,而且都只是序列,NCBI不是二級結構資料庫,要找二級結構去PDB找,在說了,就算你找到了所有的某個物種的所有蛋白質序列,您也基本上不可能找到所有對應的二級結構,因為PDB中已經測定的二級結構於NCBI已經測序的序列,那簡直就相差太多了。二級結構目前已經准確則需的大概1.3W中蛋白質,而NCBI中的序列數據的一個月增長速度也許都要比這個高。所以LZ所說的基本上是不可能的,主要是二級結構

4. 為什麼說swiss-prot是重要的蛋白質序列資料庫

SWISS-PROT是含有詳細注釋內容的蛋白質序列資料庫,由歐洲生物信息學中心(EBI)維護,目前已合並入 UniProt資料庫,旨在幫助基因組和蛋白質組以及相關的分子生物學研究人員提供有關蛋白質氨基酸序列的最新信息。
SWISS-PROT中盡可能減少了冗餘序列,並與其它30多個數據建立
了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。SWISS-PROT資料庫包含了EMBL核酸序列資料庫中被經過仔細檢查和准確注釋了
的蛋白質序列,一般地,任何蛋白質序列數據的搜尋和比較都應從SWISS-PROT開始。

SWISS-PROT蛋白質序列數據由大量序列條目組成,每一個序列條目
有其自己的格式。為了標准化的目的,SWISS-PROT的格式與EMBL核酸序列資料庫的格式盡可能類似。SWISS-PROT涉及已知蛋白質的序列、
引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關
系、序列變異體和沖突等信息。利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。SWISS-PROT只接受直接測序
獲得的蛋白質序列,序列提交可以在其Web頁面上完成。

5. uniprot蛋白質序列資料庫由哪幾部分組成各有什麼特點

將PIR、SWISS-PROT和TrEMBL3個蛋白質資料庫統一-起來組建而成,包含3個部分:
(1) UniProt Knowledgebase (UniProtKB) ,這是蛋白質序列、功能、分類、交叉引用等蛋白質知識庫,記錄經過人工篩選和注釋;
■ (2) UniRef ( UniProt Non-rendant Reference )
資料庫,將密切相關的蛋白質序列組合到一條記錄中,以便提高搜索速度;目前,根據序列相似程度形成3個子庫,即UniRef100、UniRef90和UniRef50;
■ (3) UniParc (UniProt Archive),是UniProt存檔庫 ,
收錄所有蛋白質序列。用戶可以通過文本查詢資料庫,可以利用BLAST程序搜索資料庫,也可以直接通過FTP下載數據。

6. 蛋白質序列資料庫的資料庫分類

PIR資料庫按照數據的性質和注釋層次分四個不同部分,分別為PIR1、PIR2、PIR3和PIR4。PIR1中的序列已經驗證,注釋最為詳盡;PIR2中包含尚未確定的冗餘序列;PIR3中的序列尚未加以檢驗,也未加註釋; 而PIR4中則包括了其它各種渠道獲得的序列,既未驗證,也無注釋。除了PIR外,另一個重要的蛋白質序列資料庫則是SwissProt。該資料庫由瑞士日內瓦大學於1986年創建,目前由瑞士生物信息學研究所(Swiss Institute of Bioinformatics,簡稱SIB)和歐洲生物信息學研究所 EBI共同維護和管理。瑞士生物信息研究所下屬的蛋白質分析專家系統(Expert Protein Analysis System,,簡稱ExPASy)的Web伺服器除了開發和維護SwissProt資料庫外,也是國際上蛋白質組和蛋白質分子模型研究的中心,為用戶提供大量蛋白質信息資源。北京大學生物信息中心設有ExPASy的鏡象。PIR和SwissProt是創建最早、使用最為廣泛的兩個蛋白質資料庫。隨著各種模式生物基因組計劃的進展,DNA序列特別是EST序列大量進入核酸序列資料庫。蛋白質序列資料庫TrEMBL是從EMBL中的cDNA序列翻譯得到的。TrEMBL資料庫創建是於1996年[Bairoch, 2000],意為「Translation of EMBL」。該資料庫採用SwissProt資料庫格式,包含EMBL資料庫中所有編碼序列的翻譯。TrEMBL資料庫分兩部分,SP-TrEMBL和 REM-TrEMBL。SP-TrEMBL中的條目最終將歸並到SwissProt資料庫中。而Rem-TrEMBL則包括其它剩餘序列,包括免疫球蛋白、T細胞受體、少於8個氨基酸殘基的小肽、合成序列、專利序列等。與TrEMBL類似,GenPept是由GenBank翻譯得到的蛋白質序列。由於TrEMBL和GenPept均是由核酸序列通過計算機程序翻譯生成,這兩個資料庫中的序列錯誤率較大,均有較大的冗餘度。另一個常用的蛋白質序列資料庫是已知三維結構蛋白質的一級結構序列資料庫NRL-3D[Namboodiri, 1990]。該資料庫的序列是從三維結構資料庫PDB中提取出來。

7. 分子生物信息資料庫的二次資料庫

二次資料庫種類繁多,以核酸資料庫為基礎構建的二次資料庫有基因調控轉錄因子資料庫TransFac,真核生物啟動子資料庫EPD,克隆載體資料庫Vector,密碼子使用表資料庫CUTG等。以蛋白質序列資料庫為基礎構建的二次資料庫有蛋白質功能位點資料庫Prosite,蛋白質功能位點序列片段資料庫Prints,同源蛋白家族資料庫Pfam,同源蛋白結構域資料庫Blocks。以具有特殊功能的蛋白為基礎構建的二次資料庫有免疫球蛋白資料庫Kabat,蛋白激酶資料庫PKinase等。以三維結構原子坐標為基礎構建的資料庫為結構分子生物學研究提供了有效的工具,如蛋白質二級結構構象參數資料庫DSSP,已知空間結構的蛋白質家族資料庫FSSP,已知空間結構的蛋白質及其同源蛋白資料庫HSSP等。蛋白質回環分類資料庫則是用於蛋白質結構、功能和分子設計研究的專門資料庫。此外,酶、限制性內切酶、輻射雜交、氨基酸特性表、序列分析文獻等,也屬於二次資料庫或專門資料庫。 法國生物信息研究中心Infobiogen生物信息資料庫目錄DBCat搜集了主要400多個資料庫的名稱、內容、數據格式、聯系地址、網址等詳細信息,使用戶對目前生物信息資料庫有一個詳盡的了解。

8. 蛋白序列資料庫的相關詳細信息。主要用於生物模擬顯示軟體都有什麼格式的文件,怎麼獲得謝謝!

NCBI NCBI下有很多資料庫,以下是蛋白質序列
PopSet包含研究一個人群、一個種系發生或描述人群變化的一組組聯合序列。PopSet既包含核酸序列數據又包含蛋白質序列數據。

Entrez 功能強大,在於它的大多數記錄可相互鏈接,既可在同一資料庫內鏈接,也可在資料庫之間進行鏈接。當運用BLAST軟體比較某氨基酸或DNA序列與庫中其他氨基酸或DNA序列差異即進行相似性檢索時,則會涉及到蛋白質庫或核苷酸庫的庫內鏈接。庫間鏈接發生在核苷酸資料庫內的記錄與PubMed庫中已發表序列的引文間的鏈接,或蛋白質序列記錄與核苷酸序列庫中編碼它的核苷酸序列間的鏈接。
BLAST(Basic Local Alignment Search Tool)是用於序列相似性檢索的一個重要資料庫,是區分基因和基因特徵的工具。該軟體能在15秒內完成整個DNA資料庫的序列檢索。BLAST記錄的相關度有明確的統計學解釋,以便更容易地將相關記錄與隨機的資料庫記錄相區分。在NCBI主頁的左工具條中,點擊BLAST圖標,即進入BLAST主頁。

BLAST 主頁提供了幾種BLAST檢索軟體。其中BLAST2.0是一種新的BLAST檢索工具,它在原有基礎上作了改進,運行速度更快,靈敏度更高,同時具有Gapped BLAST 和PSI-BLAST兩種軟體的新功能。Gapped BLAST 允許在對準的序列中引入空位(鹼基缺失或插入),引入空位(Gaps)意味著在比較兩個相關序列時不會出現中斷(Break)現象。這些空位對準的記分系統更能反映相關序列的類似程度。PSI-BLAST的全稱是Position-Specific Iterated BALST,即特殊位置重復BLAST,它提供了自動、易用的概貌(Profile)檢索,是查找序列同源的有效工具。
Dnastar 可以用於解決你踢完的後半個問題

9. 什麼是生物信息學中的二級資料庫

一、生物信息學資料庫的種類

分子生物信息資料庫種類繁多。歸納起來,大體可以分為4個大類:

基因組資料庫

核酸和蛋白質一級結構資料庫

生物大分子(主要是蛋白質)三維空間結構資料庫

由上述3類資料庫和文獻資料為基礎構建的二級資料庫

一級資料庫(一次資料庫) :基因組資料庫來自基因組作圖,序列資料庫來自序列測定,結構資料庫來自X射線衍射和核磁共振等結構測定。這些資料庫是分子生物學的基本數據資源,通常稱為基本資料庫、初始資料庫,也稱一次資料庫。

二級資料庫(二次資料庫) :是在一級資料庫、實驗數據、理論分析的基礎上,衍生整理而得。它是根據生命科學不同研究領域的實際需要,對基因組圖譜、核酸和蛋白質序列、蛋白質結構以及文獻等數據進行分析、整理、歸納、注釋,構建具有特殊生物學意義和專門用途的資料庫。
一般說來,一級資料庫的數據量大,更新速度快,用戶面廣,通常需要高性能的計算機伺服器、大容量的磁碟空間和專門的資料庫管理系統支撐。

二級資料庫的容量則小得多,更新速度也不像一次資料庫那樣快,也可以不用大型商業資料庫軟體支持,這類針對不同問題開發的二次資料庫的最大特點是使用方便,特別適用於計算機使用經驗不太豐富的生物學家。

序列資料庫是分子生物信息資料庫中最基本的資料庫,包括核酸和蛋白質兩類,以核苷酸鹼基順序或氨基酸殘基順序為基本內容,並附有注釋信息。

GenBank:由美國國家生物技術信息中心(National Center for Biotechnology Information, NCBI)建立(1979-1982)。該中心隸屬於美國國家醫學圖書館,位於美國家衛生研究院(NIH)內。

EMBL:由歐洲分子生物學實驗室(European Molecular Biology Laboratory, 其下有European Bioinformatics Centre)建立(1982),主要位於英國劍橋Cambridge和德國漢堡Hamburg。

DDBJ:日本DNA資料庫(DNA Data Bank of Japan)。由the National Institute of Genetics建立(1984-1987), NIG主管。

二級資料庫的形式:大多以web界面為基礎,具有文字信息、表格、圖形、圖表等方式顯示資料庫內容。

一級資料庫與二級資料庫之間並無明確的界限。(例如:GDB、AceDB、SCOP、CATH等都已經具有二級資料庫的特色)。