Ⅰ 在你看來學習生物信息學有哪些比較好的網站或論壇
國外與生物信息學相關的網站有哪些
生物信息學高度依賴於網路。實際上,你需要的幾乎所有資源,都可以從網上下到。你需要關注你研究領域所需要的那些,而不是全部的資源。
我原來常用的:
NCBI:持有INSDC的節點。網站上有核酸、蛋白、基因名、基因組名等等的搜索工具,以及BLAST序列比對搜索工具,PUBMED文獻資料庫,Taxonomy數據,COG蛋白家族庫等等。FTP可以下到它全部的資料庫,BLAST的單機程序,以及各種工具程序。
EBI:和NCBI類似,歐洲搞的對等物。感覺EBI網站比NCBI要清楚簡潔。另外EBI網站整合了更多的工具,比如多序列比對。
Uniprot:全蛋白庫。NCBI和EBI的蛋白庫來源於此。目前包括兩部分:SwissProt是人工校對過的,TrEMBL是自動校對的。
Pfam:蛋白家族庫。可以使用配套的HMMER進行搜索。比BLAST能找到更遠緣的東西,而且找到的東西是結構域。
Rfam:RNA的,類似Pfam。
RDP:16S rRNA庫。除了序列,它還有一個基於K-mer naive Bayesian model的rdp classifier,可以對輸入序列進行物種分類,效率和准確性較直接使用BLAST更高。
GreenGenes:也是16S庫,不過它只收集比較全的序列。它提供了一個16S的標准化比對,並基於這個東西搞了個物種分類工具。
EMBOSS:一個工具包,提供了幾百個進行序列操作的工具。
BioPerl、BioPython:Perl和Python的生物學模塊。
R:類似matlab的語言,有一大堆的生物學包。
SOAP:華大基因搞的高通量測序工具包,有de-novo拼接的,有mapping的,還有一些後續分析的。
bowtie:一個用於序列mapping的軟體。
samtools:用於操縱、分析高通量序列mapping的結果。功能非常靈活,但有點復雜。
fastx toolkit:用來操縱高通量測序序列的工具包。
Ⅱ 國外與生物信息學相關的網站有哪些
國外與生物信息學相關的網站有哪些
生物信息學高度依賴於網路。實際上,你需要的幾乎所有資源,都可以從網上下到。你需要關注你研究領域所需要的那些,而不是全部的資源。
我原來常用的:
NCBI:持有INSDC的節點。網站上有核酸、蛋白、基因名、基因組名等等的搜索工具,以及BLAST序列比對搜索工具,PUBMED文獻資料庫,Taxonomy數據,COG蛋白家族庫等等。FTP可以下到它全部的資料庫,BLAST的單機程序,以及各種工具程序。
EBI:和NCBI類似,歐洲搞的對等物。感覺EBI網站比NCBI要清楚簡潔。另外EBI網站整合了更多的工具,比如多序列比對。
Uniprot:全蛋白庫。NCBI和EBI的蛋白庫來源於此。目前包括兩部分:SwissProt是人工校對過的,TrEMBL是自動校對的。
Pfam:蛋白家族庫。可以使用配套的HMMER進行搜索。比BLAST能找到更遠緣的東西,而且找到的東西是結構域。
Rfam:RNA的,類似Pfam。
RDP:16S rRNA庫。除了序列,它還有一個基於K-mer naive Bayesian model的rdp classifier,可以對輸入序列進行物種分類,效率和准確性較直接使用BLAST更高。
GreenGenes:也是16S庫,不過它只收集比較全的序列。它提供了一個16S的標准化比對,並基於這個東西搞了個物種分類工具。
EMBOSS:一個工具包,提供了幾百個進行序列操作的工具。
BioPerl、BioPython:Perl和Python的生物學模塊。
R:類似matlab的語言,有一大堆的生物學包。
SOAP:華大基因搞的高通量測序工具包,有de-novo拼接的,有mapping的,還有一些後續分析的。
bowtie:一個用於序列mapping的軟體。
samtools:用於操縱、分析高通量序列mapping的結果。功能非常靈活,但有點復雜。
fastx toolkit:用來操縱高通量測序序列的工具包。
Ⅲ 高通量測序數據公共資料庫有哪些
我原來常用的:
NCBI:持有INSDC的節點。網站上有核酸、蛋白、基因名、基因組名等等的搜索工具,以及BLAST序列比對搜索工具,PUBMED文獻資料庫,Taxonomy數據,COG蛋白家族庫等等。FTP可以下到它全部的資料庫,BLAST的單機程序,以及各種工具程序。
EBI:和NCBI類似,歐洲搞的對等物。感覺EBI網站比NCBI要清楚簡潔。另外EBI網站整合了更多的工具,比如多序列比對。
Uniprot:全蛋白庫。NCBI和EBI的蛋白庫來源於此。目前包括兩部分:SwissProt是人工校對過的,TrEMBL是自動校對的。
Pfam:蛋白家族庫。可以使用配套的HMMER進行搜索。比BLAST能找到更遠緣的東西,而且找到的東西是結構域。
Rfam:RNA的,類似Pfam。
Ⅳ 怎樣檢查基因組注釋結果的可靠性
基因組注釋主要包括四個研究方向:重復序列的識別;非編碼RNA的預測;基因結構預測和基因功能注釋。我們將分別對這四個領域進行闡述。
1:重復序列的識別。
重復序列的研究背景和意義:重復序列可分為串聯重復序列(Tendam repeat)和散在重復序列(Interpersed repeat)兩大類。其中串聯重復序列包括有微衛星序列,小衛星序列等等;散在重復序列又稱轉座子元件,包括以DNA-DNA方式轉座的DNA轉座子和反轉錄轉座子(retrotransposon)。常見的反轉錄轉座子類別有LTR,LINE和SINE等。
重復序列識別的發展現狀:目前,識別重復序列和轉座子的方法為序列比對和從頭預測兩類。序列比對方法一般採用Repeatmasker軟體,識別與已知重復序列相似的序列,並對其進行分類。常用Repbase重復序列資料庫。從頭預測方法則是利用重復序列或轉座子自身的序列或結構特徵構建從頭預測演算法或軟體對序列進行識別。從頭預測方法的優點在於能夠根據轉座子元件自身的結構特徵進行預測,不依賴於已有的轉座子資料庫,能夠發現未知的轉座子元件。常見的從頭預測方法有Recon,Piler,Repeatscout,LTR-finder,ReAS等等。
重復序列識別的研究內容:獲得組裝好的基因組序列後,我們首先預測基因組中的重復序列和轉座子元件。一方面,我們採用RepeatScout、LTR-finder、Tendem Repeat Finder、Repeatmoderler、Piler等從頭預測軟體預測重復序列。為了獲得從頭預測方法得到的重復序列的類別信息,我們把這些序列與Repbase資料庫比對,將能夠歸類的重復序列進行分類。另一方面,我們利用Repeatmasker識別與已知重復序列相似的重復序列或蛋白質序列。通過構建Repbase資料庫在DNA水平和蛋白質水平的重復序列,Repeatmasker能夠分別識別在DNA水平和蛋白質水平重復的序列,提高了識別率。
重復序列識別的關鍵技術難點:
1):第二代測序技術測基因組,有成本低、速度快等優點。但是由於目前產生的讀長(reads)較短。由於基因組序列採用kmer演算法進行組裝,高度相似的重復序列可能會被壓縮到一起,影響對後續的重復序列識別。
2):某些高度重復的序列用現有的組裝方法難以組裝出來,成為未組裝reads(unassembled reads)。有必要同時分析未組裝reads以得到更為完整的重復序列分布圖。之前,華大已開發了ReAS軟體,專門用於識別未組裝reads中的重復序列。但該軟體目前只能處理傳統測序技術(如sanger測序)生成的較長片段的reads,需要進一步改進方可用於分析第二代測序技術得到的reads。同時,未組裝的短片段reads重復度更高,識別其重復區域具有較大難度。
重復序列識別的研究方向:
1):整合現有的重復序列預測方法,對組裝好的基因組序列進行分析。
2):綜合考慮並結合短序列組裝策略,校正重復序列識別的結果。
3):開發識別未組裝reads重復序列的演算法和流程並構建一致性序列。
2:非編碼RNA序列的預測。
非編碼RNA預測的研究背景和意義:非編碼RNA,指的是不被翻譯成蛋白質的RNA,如tRNA, rRNA等,這些RNA不被翻譯成蛋白質,但是具有重要的生物學功能。miRNA結合其靶向基因的mRNA序列結合,將mRNA降解或抑制其翻譯成蛋白質,具有沉默基因的功能。tRNA (轉運RNA)攜帶氨基酸進入核糖體,使之在mRNA指導下合成蛋白質。rRNA(核糖體RNA)與蛋白質結合形成核糖體,其功能是作為mRNA的支架,提供mRNA翻譯成蛋白質的場所。snRNA(小核RNA)主要參與RNA前體的加工過程,是RNA剪切體的主要成分。
非編碼RNA預測的發展現狀:由於ncRNA種類繁多,特徵各異,缺少編碼蛋白質的基因所具有的典型特徵,現有的ncRNA預測軟體一般專注於搜索單一種類的ncRNA,如tRNAScan-SE 搜索tRNA、snoScan 搜索帶C/D盒的snoRNAs、SnoGps 搜索帶H/ACA 盒的snoRNAs、mirScan 搜索microRNA等等。Sanger實驗室開發了Infernal軟體,建立了1600多個RNA家族,並對每個家族建立了一致性二級結構和協方差模型,形成了Rfam資料庫。採用Rfam資料庫中的每個RNA的協方差模型,結合Infernal軟體可以預測出已有RNA家族的新成員。Rfam/Infernal方法應用廣泛,可以預測各種RNA家族成員,但是特異性較差。我們建議:如果有更好的專門預測某一類非編碼RNA的軟體,那麼採用該軟體進行預測;否則,使用Rfam/Infernal流程。
非編碼RNA預測的研究內容:利用Rfam家族的協方差模型,我們採用Rfam自帶的Infernal軟體預測miRNA和snRNA序列。由於rRNA的保守性很強,為此我們用序列比對已知的rRNA序列,識別基因組中的rRNA序列。tRNAscan-SE工具中綜合了多個識別和分析程序,通過分析啟動子元件的保守序列模式、tRNA二級結構的分析、轉錄控制元件分析和除去絕大多數假陽性的篩選過程,據稱能識別99%的真tRNA基因。
非編碼RNA預測中擬解決的關鍵技術難點:
識別非編碼RNA的假基因:基因組中很多序列由非編碼RNA基因復制而來,與非編碼RNA基因序列相似,但不具有非編碼RNA的功能。目前我們採用的非編碼RNA序列的預測方法都是基於序列比對和結構預測,不能夠很好的去除這類非編碼RNA的假基因。針對這個問題,我們考慮結合RNA表達信息如RNA-seq數據進行篩選。
非編碼RNA預測的研究方向:
1):專門檢測小片段RNA序列的方法現在已經得到廣泛應用,利用小片段RNA序列數據進行非編碼RNA的預測是我們的重要研究方向。
2):開發miRNA靶向基因預測流程:miRNA通過調控其靶向基因的mRNA穩定性或翻譯來控制生命活動的進程。預測miRNA靶向基因能夠給我們研究miRNA功能帶來提示。由於miRNA在動物和植物中對靶向基因的調控機制差別較大,我們建議對動物和植物分別建立靶向基因預測流程,提高預測准確度。
3:基因結構預測。
基因結構預測的研究背景和意義:通過基因結構預測,我們能夠獲得基因組詳細的基因分布和結構信息,也將為功能注釋和進化分析工作提供重要的原料。基因結構預測包括預測基因組中的基因位點、開放性閱讀框架(ORF)、翻譯起始位點和終止位點、內含子和外顯子區域、啟動子、可變剪切位點以及蛋白質編碼序列等等。
基因結構預測的發展現狀: 原核生物基因的各種信號位點(如啟動子和終止子信號位點)特異性較強且容易識別,因此相應的基因預測方法已經基本成熟。Glimmer是應用最為廣泛的原核生物基因結構預測軟體,准確度高。而真核生物的基因預測工作的難度則大為增加。首先,真核生物中的啟動子和終止子等信號位點更為復雜,難以識別。其次,真核生物中廣泛存在可變剪切現象,使外顯子和內含子的定位更為困難。因此,預測真核生物的基因結構需要運用更為復雜的演算法,常用的有隱馬爾科夫模型等。常用的軟體有Genscan、SNAP、GeneMark、Twinscan等。
基因結構預測的研究內容:基因結構預測主要通過序列比對結合從頭預測方法進行。序列比對方法採用blat和pasa等比對方法,將基因組序列與外部數據進行比對,以找到可能的基因位置信息。常用的數據包括物種自身或其近緣物種的蛋白質序列、EST序列、全長cDNA序列、unigene序列等等。這種方法對數據的依賴性很高,並且在選擇數據的同時要充分考慮到物種之間的親緣關系和進化距離。基因從頭預測方法則是通過搜索基因組中的重要信號位點進行的。常用的軟體有Genscan、SNAP、Augustus、Glimmer、GlimmerHMM等等。同時採用多種方法進行基因預測將產生眾多結果,因此最後需要對結果進行整合以得到基因的一致性序列。常用軟體有Glean,EVM等。
基因結構預測中擬解決的關鍵技術難點:
目前,真核生物的基因結構預測方法仍有較大改進空間,主要面臨以下的技術難點。
1):如何利用現有的數據和演算法,更好地識別基因的可變性剪切位點。
2):隨著測序工作的進展,許多目前研究較少的物種也將提上測序日程。大多基因結構的從頭預測演算法需要預先訓練預測參數。現有資源和數據稀缺的物種將很難獲得預測參數。
3):克服組裝錯誤對基因結果預測的影響
4):建立基因結構預測的評價系統。
可變性剪切位點的預測較為困難。如何結合RNA-seq數據進行可變剪切預測將是重要的工作方向和難點。
基因結構預測的研究方向:
1):利用RNA-seq、EST等數據校正基因結構預測結果,識別可變剪切位點。
2):對於研究較少的物種,建議利用近緣物種的同源基因數據以訓練基因結構預測軟體。
3):利用同源基因組之間的共線性信息,輔助基因結構預測。
4:基因功能注釋。
基因功能注釋的研究背景和意義:獲得基因結構信息後,我們希望能夠進一步獲得基因的功能信息。基因功能注釋方向包括預測基因中的模序和結構域、蛋白質的功能和所在的生物學通路等。
基因功能注釋的發展現狀:全基因組測序將產生大量數據,而實驗方法由於成本較高,不適用於全基因組測序的後續功能分析。為此,目前普遍採用比對方法對全基因組測序的基因功能進行注釋。KEGG和Gene Ontology是目前使用最為廣泛的蛋白質功能資料庫,分別對蛋白質的生物學通路和功能進行注釋。Interpro通過整合多個記錄蛋白質特徵的資料庫,根據蛋白質序列或結構中的特徵對蛋白質進行分類。
基因功能注釋的研究內容:目前,我們利用四個常用的資料庫進行基因功能注釋。使用的資料庫有Uniprot蛋白質序列資料庫、KEGG生物學通路資料庫、Interpro蛋白質家族資料庫和Gene Ontology基因功能注釋資料庫。
1):與Uniprot蛋白質序列資料庫比對,獲得序列的初步信息。
2):與KEGG資料庫比對,預測蛋白質可能具有的生物學通路信息。
3):與Interpro資料庫比對將獲得蛋白質的保守性序列,模序和結構域等。
4):預測蛋白質的功能。Interpro進一步建立了與Gene Ontology的交互系統:Interpro2GO。該系統記錄了每個蛋白質家族與Gene Ontology中的功能節點的對應關系,我們通過此系統便能預測蛋白質執行的生物學功能。
基因功能注釋中擬解決的關鍵技術難點:
目前我們的功能注釋工作是建立在比對的基礎上,這將會帶來兩個比較大的問題。首先,此方法嚴重依賴於外部數據,對某些研究較少的物種限制很大。其次,序列相似並不表示實際生物學功能相似,考慮引入序列比對之外的方法,進一步完善基因功能注釋工作。
基因功能注釋的研究方向:考慮引入序列比對之外的數據(如蛋白質互作網路、基因表達譜等),利用概率模型演算法進行整合,完善基因功能注釋工作。
Ⅳ 蛋白質資料庫的內容
Protein Sequence Databases: Antibodies: Sequence and Structure
BRENDA: Enzyme database
CD Antigens: Database of CD antigens
dbCFC: Cytokine family database
Histons: Histone sequence database
HPRD: Human protein reference database
InterPro: Intergrated documentation 5resources for protein families
iProClass: An integrated protein classification database
KIND: A non-rendant protein sequence database
MHCPEP: Database of MHC binding peptides
MIPS: Munich information centre for protein sequences
PIR: Annotated, and non-rendant protein sequence database
PIR-ALN: Curated database of protein sequence alignments
PIR-NREF: PIR nonrendent reference protein database
PMD: Protein mutant database
PRF: Protein research foundation, Japan
ProClass: Non-rendant protein database
ProtoMap: Hierarchical classification of swissprot proteins
REBASE: Restriction enzyme database
RefSeq: Reference sequence database at NCBI
SwissProt: Curated protein sequence database
SPTR: Comprehensive protein sequence database
Transfac: Transcription factor database
TrEMBL: Annotated translations of EMBL nucleotide sequences
Tumor gene database: Genes with cancer-causing mutations
WD repeats: WD-repeat family of proteins Protein Structure Databases: Cath: Protein structure classification
HIV Protease: HIV protease database 3D structure
PDB: 3-D macromolecular structure data
PSI: Protein structure initiative
S2F: Structure to function project
Scop: Structural Classification of Proteins Protein Domains, Motifs & Signatures: BLOCKS: Multipe aligned segments of conserved protein regions
CCD: Conserved domain database and search service
DOMO: Homologous protein domain families
Pfam: Database of protein domains and HMMs
ProDom: Protein domain database
Prints: Protein motif fingerprint database
Prosite: Database of protein families and domains
SMART: Simple molar architecture research tool
TIGRFAM: Protein families based on HMMs Others: Phospho Site: Database of phosphorylation sites
Ⅵ 學習生物信息學有哪些比較好的網站或論壇
生信菜鳥團上大學之後,我上網找資料時發現的第一個博客就是生信菜鳥團,裡麵包羅萬象,涵蓋很多方面(初次發現時,就感覺自己進入了新的天地)rabbit gao's blog 我超喜歡這個師兄的博客裡面的筆記,很直觀,尤其是python那部分。他是以代碼的形式展示內容。沈夢圓博客夢圓師姐,和我一樣喜歡用熊貓頭像,她的博客也是剛剛建立不長時間。師姐的文筆很贊,看裡面博文相信對你有幫助的。生信日誌|鳴一道鳴一道師兄的博客我比較喜歡的是R做圖那一塊plob這個我比較少看,不過內容也不錯,我後續再寫上這個博客的描述。陳連福博客聽說連福老師有開培訓班,實力自然也不差。糗世界←歡迎來到糗糗的世界糗世界主要包括:序列比對與NGS R/bioconctorcircos教程,其中糗世界關於R和bioconctor以及NGS的歸納總結特別詳盡生信客部落生信客部落是我自己的博客,剛建不久(2016.9.3建的),我目前在准備考研,打理的時間不多。但相信是一隻潛力股,有提升的空間。也歡迎博友們交換 "友情鏈接".hope博客 hope 他(她)有一篇關於生物信息學在線工具的總結,我特別喜歡科研動力「endnote使用寶典」,專注寫endnote相關的內容。(註:endnote 是文獻管理的軟體,插入引用文獻的神器)biochen生物伯臣生物里也蠻多歸納整理的Bob's Blog bob這位兄弟的博客我接觸不多,我後續補上描述.論壇(包括生信論壇和其他一些相關的網站):生信技能樹生信技能樹前面那個師兄有詳細描述過。我也親眼見證了它從無到有的過程,看著生信技能樹感覺特別親切,感覺就像自家的孩子一樣。我自己由於准備考研和書寫畢業論文的事情,在生信技能樹建設的參與度不高。總之,好喜歡......生物信息學天空內容超全的一個生信論壇丁香園(生信板塊)丁香園,就不解釋了,一個國內最成功的論壇之一。醫學生基本都知道的一個論壇。小木蟲小木蟲,裡面蠻多資源的,也是國內最成功的論壇之一生物統計家園描述待輸入...基因堂描述待輸入biostars這是一個生信問答網站生信刷題網站ROSALIND | About 這個是一個生物信息的刷題網站,超多實戰題(純英文,既提高英語水平,又訓練了自己的實戰能力,何樂而不為)。實戰走起......生物信息學在線工具網站生信客部落生物信息工具整合(包含在線工具與離線工具)–更新中這裡麵包含了一些生物信息學可視化工具,包含在線的工具和一些離線的可視化工具,由於目前個人水平有限,所以還有待繼續完善
Ⅶ 生物信息學mapping率高或低代表什麼意思
生物信息學高度依賴於網路。實際上,你需要的幾乎所有資源,都可以從網上下到。你需要關注你研究領域所需要的那些,而不是全部的資源。
我原來常用的:
NCBI:持有INSDC的節點。網站上有核酸、蛋白、基因名、基因組名等等的搜索工具,以及BLAST序列比對搜索工具,PUBMED文獻資料庫,Taxonomy數據,COG蛋白家族庫等等。FTP可以下到它全部的資料庫,BLAST的單機程序,以及各種工具程序。
EBI:和NCBI類似,歐洲搞的對等物。感覺EBI網站比NCBI要清楚簡潔。另外EBI網站整合了更多的工具,比如多序列比對。
Uniprot:全蛋白庫。NCBI和EBI的蛋白庫來源於此。目前包括兩部分:SwissProt是人工校對過的,TrEMBL是自動校對的。
Pfam:蛋白家族庫。可以使用配套的HMMER進行搜索。比BLAST能找到更遠緣的東西,而且找到的東西是結構域。
Rfam:RNA的,類似Pfam。
RDP:16S rRNA庫。除了序列,它還有一個基於K-mer naive Bayesian model的rdp classifier,可以對輸入序列進行物種分類,效率和准確性較直接使用BLAST更高。
GreenGenes:也是16S庫,不過它只收集比較全的序列。它提供了一個16S的標准化比對,並基於這個東西搞了個物種分類工具。
EMBOSS:一個工具包,提供了幾百個進行序列操作的工具。
BioPerl、BioPython:Perl和Python的生物學模塊。
R:類似matlab的語言,有一大堆的生物學包。
SOAP:華大基因搞的高通量測序工具包,有de-novo拼接的,有mapping的,還有一些後續分析的。
bowtie:一個用於序列mapping的軟體。
samtools:用於操縱、分析高通量序列mapping的結果。功能非常靈活,但有點復雜。
fastx toolkit:用來操縱高通量測序序列的工具包。
Ⅷ 求助鐵路財務會計管理信息系統怎麼在win 7上安裝啊
鐵路財務會計管理信息系統客戶端在win 7上安裝:
1.檢查 Microsoft .NET Framework 組件版本在4.0及以下,現在默認安裝該組件都 是4.5及以上,因為4.5以上鐵路財務核算軟體不支持,所以目前只選擇4.0或3.5版本;否則財務軟體無法安裝使用,最好是選擇組件是4.0的win7系統安裝,也可以在程序管理中卸載4.5,在網上下載一個4.0或3.5的版本安裝一下。
2.將機器的防火牆和殺毒軟體全退出。
3.開始安裝財務5.0客戶端軟體,注意:改一下默認安裝路徑,改在D盤
4.設置用戶的許可權,開放對安裝路徑的完全控制許可權。
5.將 ie瀏覽器安全設置為中,(系統一般默認是中-高)。
6.增加信任站點,就是登陸的財務集中站點
7. 將視圖設置為在所有窗口中均使用兼容視圖
8.在注冊表中加上安裝該軟體的鍵值,如:
[HKEY_LOCAL_MACHINE\SOFTWARE\Rfamis]
"path"="D:\\Program Files\\源越通軟體\\鐵路財務會計管理信息系統客戶端"
[HKEY_LOCAL_MACHINE\SOFTWARE\Rfamis\client]
"default"="D:\\Program Files\\源越通軟體\\鐵路財務會計管理信息系統客戶端"
9.ie版本在10以下都可以,建議使用IE8
10.360瀏覽器也可以用。
僅供參考。
Ⅸ 網上的生物信息學資源都有哪些
生物信息學高度依賴於網路。實際上,你需要的幾乎所有資源,都可以從網上下到。你需要關注你研究領域所需要的那些,而不是全部的資源。NCBI:持有INSDC的節點。網站上有核酸、蛋白、基因名、基因組名等等的搜索工具,以及BLAST序列比對搜索工具,PUBMED文獻資料庫,Taxonomy數據,COG蛋白家族庫等等。FTP可以下到它全部的資料庫,BLAST的單機程序,以及各種工具程序。EBI:和NCBI類似,歐洲搞的對等物。感覺EBI網站比NCBI要清楚簡潔。另外EBI網站整合了更多的工具,比如多序列比對。Uniprot:全蛋白庫。NCBI和EBI的蛋白庫來源於此。目前包括兩部分:SwissProt是人工校對過的,TrEMBL是自動校對的。Pfam:蛋白家族庫。可以使用配套的HMMER進行搜索。比BLAST能找到更遠緣的東西,而且找到的東西是結構域。Rfam:RNA的,類似Pfam。RDP:16S rRNA庫。除了序列,它還有一個基於K-mer naive Bayesian model的rdp classifier,可以對輸入序列進行物種分類,效率和准確性較直接使用BLAST更高。GreenGenes:也是16S庫,不過它只收集比較全的序列。它提供了一個16S的標准化比對,並基於這個東西搞了個物種分類工具。EMBOSS:一個工具包,提供了幾百個進行序列操作的工具。BioPerl、BioPython:Perl和Python的生物學模塊。R:類似matlab的語言,有一大堆的生物學包。SOAP:華大基因搞的高通量測序工具包,有de-novo拼接的,有mapping的,還有一些後續分析的。bowtie:一個用於序列mapping的軟體。samtools:用於操縱、分析高通量序列mapping的結果。功能非常靈活,但有點復雜。fastx toolkit:用來操縱高通量測序序列的工具包。