A. 質譜數據 ipi號怎麼轉換swiss-prot uniprot gene name格式
SWISS-PROT是含有詳細注釋內容的蛋白質序列資料庫,由歐洲生物信息學中心(EBI)維護,目前已合並入 UniProt資料庫,旨在幫助基因組和蛋白質組以及相關的分子生物學研究人員提供有關蛋白質氨基酸序列的最新信息。
SWISS-PROT中盡可能減少了冗餘序列,並與其它30多個數據建立
了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。SWISS-PROT資料庫包含了EMBL核酸序列資料庫中被經過仔細檢查和准確注釋了
的蛋白質序列,一般地,任何蛋白質序列數據的搜尋和比較都應從SWISS-PROT開始。
SWISS-PROT蛋白質序列數據由大量序列條目組成,每一個序列條目
有其自己的格式。為了標准化的目的,SWISS-PROT的格式與EMBL核酸序列資料庫的格式盡可能類似。SWISS-PROT涉及已知蛋白質的序列、
引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關
系、序列變異體和沖突等信息。利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。SWISS-PROT只接受直接測序
獲得的蛋白質序列,序列提交可以在其Web頁面上完成。
B. 蛋白質序列資料庫包含哪些內容
蛋白質資料庫
1. PIR和PSDPIR國際蛋白質序列資料庫(PSD)是由蛋白質信息資源(PIR)、慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列資料庫(JIPID)共同維護的國際上最大的公共蛋白質序列資料庫。這是一個全面的、經過注釋的、非冗餘的蛋白質序列資料庫,包含超過142,000條蛋白質序列(至99年9月),其中包括來自幾十個完整基因組的蛋白質序列。所有序列數據都經過整理,超過99%的序列已按蛋白質家族分類,一半以上還按蛋白質超家族進行了分類。PSD的注釋中還包括對許多序列、結構、基因組和文獻資料庫的交叉索引,以及資料庫內部條目之間的索引,這些內部索引幫助用戶在包括復合物、酶-底物相互作用、活化和調控級聯和具有共同特徵的條目之間方便的檢索。每季度都發行一次完整的資料庫,每周可以得到更新部分。
PSD資料庫有幾個輔助資料庫,如基於超家族的非冗餘庫等。PIR提供三類序列搜索服務:基於文本的互動式檢索;標準的序列相似性搜索,包括BLAST、FASTA等;結合序列相似性、注釋信息和蛋白質家族信息的高級搜索,包括按注釋分類的相似性搜索、結構域搜索GeneFIND等。
PIR和PSD的網址是:http://pir.georgetown.e/。
資料庫下載地址是:ftp://nbrfa.georgetown.e/pir/。
2. SWISS-PROT
SWISS-PROT是經過注釋的蛋白質序列資料庫,由歐洲生物信息學研究所(EBI)維護。資料庫由蛋白質序列條目構成,每個條目包含蛋白質序列、引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗餘序列,並與其它30多個數據建立了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。
利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。
SWISS-PROT只接受直接測序獲得的蛋白質序列,序列提交可以在其Web頁面上完成。
SWISS-PROT的網址是:http://www.ebi.ac.uk/swissprot/。
3. PROSITE
PROSITE資料庫收集了生物學有顯著意義的蛋白質位點和序列模式,並能根據這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質序列應該屬於哪一個蛋白質家族。有的情況下,某個蛋白質與已知功能蛋白質的整體序列相似性很低,但由於功能的需要保留了與功能密切相關的序列模式,這樣就可能通過PROSITE的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點、配體結合位點、與金屬離子結合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質結合的區域等;除了序列模式之外,PROSITE還包括由多序列比對構建的profile,能更敏感地發現序列與profile的相似性。PROSITE的主頁上提供各種相關檢索服務。
PROSITE的網址是:http://www.expasy.ch/prosite/。
4. PDB
蛋白質數據倉庫(PDB)是國際上唯一的生物大分子結構數據檔案庫,由美國Brookhaven國家實驗室建立。PDB收集的數據來源於X光晶體衍射和核磁共振(NMR)的數據,經過整理和確認後存檔而成。目前PDB資料庫的維護由結構生物信息學研究合作組織(RCSB)負責。RCSB的主伺服器和世界各地的鏡像伺服器提供資料庫的檢索和下載服務,以及關於PDB數據文件格式和其它文檔的說明,PDB數據還可以從發行的光碟獲得。使用Rasmol等軟體可以在計算機上按PDB文件顯示生物大分子的三維結構。
RCSB的PDB資料庫網址是:http://www.rcsb.org/pdb/。
5. SCOP
蛋白質結構分類(SCOP)資料庫詳細描述了已知的蛋白質結構之間的關系。分類基於若干層次:家族,描述相近的進化關系;超家族,描述遠源的進化關系;折疊子(fold),描述空間幾何結構的關系;折疊類,所有折疊子被歸於全α、全β、α/β、α+β和多結構域等幾個大類。SCOP還提供一個非冗餘的ASTRAIL序列庫,這個庫通常被用來評估各種序列比對演算法。此外,SCOP還提供一個PDB-ISL中介序列庫,通過與這個庫中序列的兩兩比對,可以找到與未知結構序列遠緣的已知結構序列。
SCOP的網址是:http://scop.mrc-lmb.cam.ac.uk/scop/。
6. COG
蛋白質直系同源簇(COGs)資料庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據系統進化關系分類構建而成。COG庫對於預測單個蛋白質的功能和整個新基因組中蛋白質的功能都很有用。利用COGNITOR程序,可以把某個蛋白質與所有COGs中的蛋白質進行比對,並把它歸入適當的COG簇。COG庫提供了對COG分類數據的檢索和查詢,基於Web的COGNITOR服務,系統進化模式的查詢服務等。
COG庫的網址是:http://www.ncbi.nlm.nih.gov/COG。
下載COG庫和COGNITOR程序在:ftp://ncbi.nlm.nih.gov/pub/COG。
C. 如何利用NCBI Unigene資料庫里的序列
先來講講NCBI的。
用FTP登陸ftp.ncbi.nih.gov(windows下可以直接打開或是用迅雷/Flastget等下載工具)。cd gene/DATA(windows下依次找到gene/DATA這個文件夾)。ls一下,裡面的文件大概有:
ncftp /gene/DATA > ls
ASN_BINARY/ gene2sts gene_refseq_uniprotkb_collab.gz
ASN_OLD/ gene2unigene go_process.xml
gene2accession.gz gene_group.gz mim2gene
gene2go.gz gene_history.gz misc/
gene2pubmed.gz GENE_INFO/ README
gene2refseq.gz gene_info.gz
下面主要解釋一下一些常用的文件。
1,gene2accession.gz,這裡面的數據比較多,包含有NCBI所有的accession。但主要有以下的:
tax_id GeneID nucleotide_accession nucleotide_gi protein_accession protein_gi
2,gene2go.gz,主要是Gene與GO之間的一一對應。裡面的數據主要有:
tax_id GeneID GO_ID GO_term
3702 814629 GO:0003676 ucleic acid binding
3,gene2pubmed.gz,主要是Gene與Pubmed ID的一一對應。
tax_id GeneID PubMed_ID
9 1246500 9873079
4,gene2unigene,Gene與Unigene資料庫的一一對應
GeneID UniGene_cluster
1268433 Aga.201
5,gene2refseq.gz,這個就不多講。跟gene2accession.gz類似。不過其中的accession都是RefSeq資料庫的。
6,gene_info.gz,是NCBI的Gene資料庫。包含有Gene的gene_name(Symbol),第幾號染色體等。主要有:
tax_id GeneID Symbol chromosome description
大概就這些。如果你會用Linux,這些大批量的一一對應是非常簡單的。在GO/EMBL/Uniprot等也有類似的批量對應。以後有需要有講到。
D. 求助gene id 轉 Official Symbol,網上的資料庫一片混亂
詳細一點說,就是:
1. 首先你得給出 gene symbol 的列表,已經他們的出處
2. 如果有可能的話,試試到相應的資料庫那個 Search 一下
我估計可能需要用到 BioPerl,當然要是你有本地的對應表,
在本地用 Perl 做,也就是幾行代碼的事情
如若滿意,請點擊右側【採納答案】,如若還有問題,請點擊【追問】
希望我的回答對您有所幫助,望採納!
E. Gene Oncology 資料庫是什麼國家的
Ontology:哲學中稱為本體論/存在論,這里本質是指一系列特定的文字可用來形容一些特定的模式、元件或角色,因此在國外的華人生物信息學家中試譯為語義(學).
GO(gene ontology)對大家而言也許會是一個相對陌生的名詞,但是它已經成為生物信息領域中一個極為重要的方法和工具,並正在逐步改變著我們對 biological data的組織和理解方式,它的存在已經大大加快了我們對所擁有的生物數據的整合和利用,我們應該逐步學會理解和掌握這種思想和工具.
眾所周知,sequence based biology中的核心內容即是對序列的Annotation(注釋),其中主要包含structural annotation和functional annotation,前者涉及分析sequence在genome中的locus以及exon,intron,promoter等的location,而後者則是推斷序列編碼產物的功能,也正是我們在六月論題中所著重探討的.應該說,這二者是相互關聯的.
隨著多種生物genome的相繼解碼,同時大量ESTs以及gene expression profile date的積累,使得annotation的工作量和復雜度大大增加.然而另一方面,大多數基因在不同真核生物中擁有共同的主要生物功能,通過在某些物種中獲得的基因或者蛋白質(shared protein)的生物學信息,可以用以解釋其他物種中對應的基因或蛋白(especially in comparative genomics).由於這些繁復的功能信息主要是包含在積累的文獻之中,如何有效的提取和綜合這些信息就是我們面臨的核心困難,這也是GO所要著力解決的問題.通過建立一套具有動態形式的控制字集(controlled vocabulary),來解釋真核基因及蛋白在細胞內所扮演的角色,並隨著生命科學研究的進步,不斷積累和更新.一個ontology會被一個控制字集來描述並給予一定的名稱,通過制定「本體」ontologies並運用統計學方法及自然語言處理技術,可以實現知識管理的專家系統控制.
到目前為止,Gene Ontology Consortium(GO的發起組織)的資料庫中有3大獨立的ontology被建立起來:biological process生物過程,molecular function分子功能及cellular component細胞組分.而這三個ontology下面又可以獨立出不同的亞層次,層層向下構成一個ontologies的樹型分支結構.可以說,GO是生物學的統一化工具.
F. 常用的查詢蛋白質結構以及序列的資料庫主要有哪些
1. PIR和PSD
PIR國際蛋白質序列資料庫(PSD)是由蛋白質信息資源(PIR)、慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列資料庫(JIPID)共同維護的國際上最大的公共蛋白質序列資料庫,可在這里下載。這是一個全面的、經過注釋的、非冗餘的蛋白質序列資料庫,其中包括來自幾十個完整基因組的蛋白質序列。所有序列數據都經過整理,超過99%的序列已按蛋白質家族分類,一半以上還按蛋白質超家族進行了分類。PSD的注釋中還包括對許多序列、結構、基因組和文獻資料庫的交叉索引,以及資料庫內部條目之間的索引,這些內部索引幫助用戶在包括復合物、酶-底物相互作用、活化和調控級聯和具有共同特徵的條目之間方便的檢索。每季度都發行一次完整的資料庫,每周可以得到更新部分。
PSD資料庫有幾個輔助資料庫,如基於超家族的非冗餘庫等。PIR提供三類序列搜索服務:基於文本的互動式檢索;標準的序列相似性搜索,包括BLAST、FASTA等;結合序列相似性、注釋信息和蛋白質家族信息的高級搜索,包括按注釋分類的相似性搜索、結構域搜索GeneFIND等。
2. SWISS-PROT
SWISS-PROT是經過注釋的蛋白質序列資料庫,由歐洲生物信息學研究所(EBI)維護。資料庫由蛋白質序列條目構成,每個條目包含蛋白質序列、引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗餘序列,並與其它30多個數據建立了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。
利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。SWISS-PROT只接受直接測序獲得的蛋白質序列,序列提交可以在其Web頁面上完成。
3. PROSITE
PROSITE資料庫收集了生物學有顯著意義的蛋白質位點和序列模式,並能根據這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質序列應該屬於哪一個蛋白質家族。有的情況下,某個蛋白質與已知功能蛋白質的整體序列相似性很低,但由於功能的需要保留了與功能密切相關的序列模式,這樣就可能通過PROSITE的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點、配體結合位點、與金屬離子結合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質結合的區域等;除了序列模式之外,PROSITE還包括由多序列比對構建的profile,能更敏感地發現序列與profile的相似性。PROSITE的主頁上提供各種相關檢索服務。
4. PDB
蛋白質數據倉庫(PDB)是國際上唯一的生物大分子結構數據檔案庫,由美國Brookhaven國家實驗室建立。PDB收集的數據來源於X光晶體衍射和核磁共振(NMR)的數據,經過整理和確認後存檔而成。目前PDB資料庫的維護由結構生物信息學研究合作組織(RCSB)負責。RCSB的主伺服器和世界各地的鏡像伺服器提供資料庫的檢索和下載服務,以及關於PDB數據文件格式和其它文檔的說明,PDB數據還可以從發行的光碟獲得。使用Rasmol等軟體可以在計算機上按PDB文件顯示生物大分子的三維結構。
5. SCOP
蛋白質結構分類(SCOP)資料庫詳細描述了已知的蛋白質結構之間的關系。分類基於若干層次:家族,描述相近的進化關系;超家族,描述遠源的進化關系;折疊子(fold),描述空間幾何結構的關系;折疊類,所有折疊子被歸於全α、全β、α/β、α+β和多結構域等幾個大類。SCOP還提供一個非冗餘的ASTRAIL序列庫,這個庫通常被用來評估各種序列比對演算法。此外,SCOP還提供一個PDB-ISL中介序列庫,通過與這個庫中序列的兩兩比對,可以找到與未知結構序列遠緣的已知結構序列。
6. COG
蛋白質直系同源簇(COGs)資料庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據系統進化關系分類構建而成。COG庫對於預測單個蛋白質的功能和整個新基因組中蛋白質的功能都很有用。利用COGNITOR程序,可以把某個蛋白質與所有COGs中的蛋白質進行比對,並把它歸入適當的COG簇。COG庫提供了對COG分類數據的檢索和查詢,基於Web的COGNITOR服務,系統進化模式的查詢服務等。
G. 轉錄測序中的nr,nt,swissprot,cog,kegg,go分別是什麼意思
NR庫屬於非冗餘蛋白序列資料庫,是NCBI官方的蛋白序列資料庫,數據來源於GenPept、SwissProt、PIR、PDF、PDB以及NCBI RefSeq,是默認的蛋白比對資料庫。
NT資料庫是美國國家生物技術信息中心NCBI官方的核酸序列資料庫,NT庫屬於非冗餘核酸序列資料庫,數據來源於GenBank、EMBL 以及 DDBJ,是NCBI默認的核酸blast比對資料庫。
SwissProt資料庫是檢查過的、手工注釋的蛋白資料庫,我們將Unigene注釋到SwissProt資料庫,以得到更加高質量的注釋結果。
COG (clusters of orthologous groups)主要是原核生物和單細胞真核生物的直系同源物,KOG(clusters of euKaryotic Orthologous Groups)資料庫包含了7個完整基因組的真核生物的直系同源家族蛋白, 構成每個 KOG 的蛋白集是被假定為來自於一個祖先蛋白,根據系統發生進行分類,一般COG指原核生物,KOG指真核生物,KOG與COG提供了相似的基因同源物的分類信息。
KEGG (Kyoto Encyclopedia of Genes and Genomes) 是處理基因組、生物通路、疾病、葯物和化學物質之間聯系的集成資料庫。 KEGG用於生物信息研究等,包括基因組,代謝組學等其他組學的數據分析,涵蓋了Drug Development(葯物開發)、 Cellular Processes(細胞過程)、 Environmental Information Processing(環境信息處理)、Genetic Information Processing(遺傳信息處理)、 Human Diseases(人類疾病), Metabolism(代謝)、 Organismal Systems(有機系統)等方面。
GO( Gene Ontology ): 基因本體。生物技術的發展迅速,數據越來越多,不同資料庫命名標准不統一,為了解決不同的生物學資料庫可能會使用不同的術語的問題,從而基因本體聯合會(Gene Onotology Consortium)開發GO來描述基因在分子、細胞和組織水平的功能體現。GO的基本描述單元是GO terms。GO主要包括三個分支: 生物過程(biological processes)、分子功能(molecular function)和細胞組成(cellular components),用於描述基因產物的功能。GO中使用了is_a、part_of和regulates三種互作關系。
H. genecards資料庫裡面怎麼找cyp1b1基因的轉錄本
一條基因通過內含子的不同剪接可構成不同的轉錄本。設計轉錄本實驗可以研究內含子剪切機制、表觀遺傳、RNA編輯等。通常是考察一條基因對應的不同轉錄本的調節機制等。
I. 蛋白序列、結構資料庫常用的有哪些
蛋白質資料庫介紹
蛋白質資料庫
1. PIR和PSDPIR國際蛋白質序列資料庫(PSD)是由蛋白質信息資源(PIR)、慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列資料庫(JIPID)共同維護的國際上最大的公共蛋白質序列資料庫。這是一個全面的、經過注釋的、非冗餘的蛋白質序列資料庫,包含超過142,000條蛋白質序列(至99年9月),其中包括來自幾十個完整基因組的蛋白質序列。所有序列數據都經過整理,超過99%的序列已按蛋白質家族分類,一半以上還按蛋白質超家族進行了分類。PSD的注釋中還包括對許多序列、結構、基因組和文獻資料庫的交叉索引,以及資料庫內部條目之間的索引,這些內部索引幫助用戶在包括復合物、酶-底物相互作用、活化和調控級聯和具有共同特徵的條目之間方便的檢索。每季度都發行一次完整的資料庫,每周可以得到更新部分。
PSD資料庫有幾個輔助資料庫,如基於超家族的非冗餘庫等。PIR提供三類序列搜索服務:基於文本的互動式檢索;標準的序列相似性搜索,包括BLAST、FASTA等;結合序列相似性、注釋信息和蛋白質家族信息的高級搜索,包括按注釋分類的相似性搜索、結構域搜索GeneFIND等。
PIR和PSD的網址是:http://pir.georgetown.e/。
資料庫下載地址是:ftp://nbrfa.georgetown.e/pir/。
2. SWISS-PROT
SWISS-PROT是經過注釋的蛋白質序列資料庫,由歐洲生物信息學研究所(EBI)維護。資料庫由蛋白質序列條目構成,每個條目包含蛋白質序列、引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗餘序列,並與其它30多個數據建立了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。
利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。
SWISS-PROT只接受直接測序獲得的蛋白質序列,序列提交可以在其Web頁面上完成。
SWISS-PROT的網址是:http://www.ebi.ac.uk/swissprot/。
3. PROSITE
PROSITE資料庫收集了生物學有顯著意義的蛋白質位點和序列模式,並能根據這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質序列應該屬於哪一個蛋白質家族。有的情況下,某個蛋白質與已知功能蛋白質的整體序列相似性很低,但由於功能的需要保留了與功能密切相關的序列模式,這樣就可能通過PROSITE的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點、配體結合位點、與金屬離子結合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質結合的區域等;除了序列模式之外,PROSITE還包括由多序列比對構建的profile,能更敏感地發現序列與profile的相似性。PROSITE的主頁上提供各種相關檢索服務。
PROSITE的網址是:http://www.expasy.ch/prosite/。
4. PDB
蛋白質數據倉庫(PDB)是國際上唯一的生物大分子結構數據檔案庫,由美國Brookhaven國家實驗室建立。PDB收集的數據來源於X光晶體衍射和核磁共振(NMR)的數據,經過整理和確認後存檔而成。目前PDB資料庫的維護由結構生物信息學研究合作組織(RCSB)負責。RCSB的主伺服器和世界各地的鏡像伺服器提供資料庫的檢索和下載服務,以及關於PDB數據文件格式和其它文檔的說明,PDB數據還可以從發行的光碟獲得。使用Rasmol等軟體可以在計算機上按PDB文件顯示生物大分子的三維結構。
RCSB的PDB資料庫網址是:http://www.rcsb.org/pdb/。
5. SCOP
蛋白質結構分類(SCOP)資料庫詳細描述了已知的蛋白質結構之間的關系。分類基於若干層次:家族,描述相近的進化關系;超家族,描述遠源的進化關系;折疊子(fold),描述空間幾何結構的關系;折疊類,所有折疊子被歸於全α、全β、α/β、α+β和多結構域等幾個大類。SCOP還提供一個非冗餘的ASTRAIL序列庫,這個庫通常被用來評估各種序列比對演算法。此外,SCOP還提供一個PDB-ISL中介序列庫,通過與這個庫中序列的兩兩比對,可以找到與未知結構序列遠緣的已知結構序列。
SCOP的網址是:http://scop.mrc-lmb.cam.ac.uk/scop/。
6. COG
蛋白質直系同源簇(COGs)資料庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據系統進化關系分類構建而成。COG庫對於預測單個蛋白質的功能和整個新基因組中蛋白質的功能都很有用。利用COGNITOR程序,可以把某個蛋白質與所有COGs中的蛋白質進行比對,並把它歸入適當的COG簇。COG庫提供了對COG分類數據的檢索和查詢,基於Web的COGNITOR服務,系統進化模式的查詢服務等。
COG庫的網址是:http://www.ncbi.nlm.nih.gov/COG。
下載COG庫和COGNITOR程序在:ftp://ncbi.nlm.nih.gov/pub/COG。
J. greengene 資料庫的文件怎麼用
NCBI對BLAST進行了全新的改版,推出了最新的web BLAST report。在最新的BLAST比對結果頁面中,「圖形化概要(Graphic Summary)」、「具體描述(Descriptions)」以及「序列比對(Alignments)」等部分頁面都可以展開和收起。