㈠ DNA資料庫的GenBank
大型資料庫分成若乾子庫,有許多好處。首先,可以把資料庫查詢限定在某一特定部分,以便加快查詢速度。其次,基因組計劃快速測序得到的大量序列尚未加以注釋,將它們單獨分類,有利於資料庫查詢和搜索時「有的放矢」。GenBank將這些數據按高通量基因組序列(High Throughput Genomic Sequences,HTG)、表達序列標記(Expressed Sequence Tags,EST)、序列標記位點(Sequence Tagged Sites,STS)和基因組概覽序列(Genome Survey Sequences,GSS)單獨分類。盡管這些數據尚未加以注釋,它們依然是GenBank的重要組成部分。
可通過Entrez資料庫查詢系統對GenBank進行查詢。這個系統將核酸、蛋白質序列和基因圖譜、蛋白質結構資料庫整合在一起。此外,通過該系統的文獻摘要資料庫MEDLINE,可獲取有關序列的進一步信息。在萬維網上,進入NCBI的主頁,可以用BLAST程序對GenBank資料庫進行未知序列的同源性搜索(詳見第六章)。
完整的GenBank資料庫包括序列文件,索引文件以及其它有關文件。索引文件是根據資料庫中作者、參考文獻等子段建立的,用於資料庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列資料庫,其數據格式為FastA。GenBank曾以CD-ROM光碟的形式分發,價格比較便宜。隨著資料庫容量的增長,一套最新版的GenBank需要12張光碟存放,不僅生產成本很高,也不便於使用。現在,光碟分發的方式已經停止,可以通過網路下載GenBank資料庫。
GenBank中最常用的是序列文件。序列文件的基本單位是序列條目,包括核甘酸鹼基排列順序和注釋兩部分。目前,許多生物信息資源中心通過計算機網路提供該資料庫文件。下面,我們介紹序列文件的結構。
序列文件由單個的序列條目組成。序列條目由欄位組成,每個欄位由關鍵字起始,後面為該欄位的具體說明。有些欄位又分若干次子欄位,以次關鍵字或特性表說明符開始。每個序列條目以雙斜杠「//」作結束標記。序列條目的格式非常重要,關鍵字從第一列開始,次關鍵字從第三列開始,特性表說明符從第五列開始。每個欄位可以佔一行,也可以占若干行。若一行中寫不下時,繼續行以空格開始。
序列條目的關鍵字包括代碼(LOCUS),說明(DEFINITION), 編號(ACCESSION),核酸標識符(NID),關鍵詞(KEYWORDS),數據來源(SOURCE),文獻(REFERENCE),特性表(FEATURES),鹼基組成(BASE COUNT)及鹼基排列順序(ORIGIN)。
代碼LOCUS是該序列條目的標記,或者說標識符,蘊涵這個序列的功能。例如,圖4.1中所示的HUMCYCLOX表示人的環氧化酶cyclooxygenase。該欄位還包括其它相關內容,如序列長度、類型、種屬來源以及錄入日期等。說明欄位是有關這一序列的簡單描述,如本例為人環氧化酶-2的mRNA全序列。
序列代碼具有唯一性和永久性,如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列,在文獻中引用這個序列時,應該以此代碼為准。核酸標識符NID對序列信息的當前版本提供?
關鍵詞欄位由該序列的提交者提供,包括該序列的基因產物以及其它相關信息,如本例中還氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。 數據來源欄位說明該序列是從什麼生物體、什麼組織得到的,如本例中人臍帶血管(umbilical vein)。次關鍵字種屬(ORGANISM)指出該生物體的分類學地位,如本例人、真核生物等等。文獻欄位說明該序列中的相關文獻,包括作者(AUTHORS),題目(TITLE)及雜志名(JOURNAL)等,以次關鍵詞列出。該欄位中還列出醫學文獻摘要資料庫MEDLINE的代碼。該代碼實際上是個網路鏈接指針,點擊它可以直接調用上述文獻摘要。一個序列可以有多篇文獻,以不同序號表示,並給出該序列中的哪一部分與文獻有關。
FEATURES是具有自己的一套結構,用來詳細描述序列特性的一個表格。在這個表格內,帶有『/db-xref/』標志的字元可以連接到其它資料庫內(本例,您看到的是一個分類資料庫(taxon 9606),以及一個蛋白質資料庫(PID:g181254));序列中各部分的位置都加以標明,5』非編碼區(1-97),編碼區(98-1912),3非編碼區(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白質翻譯的信號肽及最終的多肽也都有所說明。這個例子不能說很全面,但已經足以說明特性表給出信息的詳細程度。
接下來是BASE COUNT記錄,計算出不同鹼基在整個序列中出現的次數(1010A,712個C,633個G,1032個T)。ORIGIN那一行,指出了序列第一個鹼基在基因組中可能的位置。最後,核酸的序列全部列出,並以//作為結尾。
㈡ 國家基因庫生命大數據平台是什麼能提供哪些服務
生物信息資料庫主要建設儲存基因信息的高性能數據管理系統,構建個人健康管理和支持生命科學研究的可運營大數據平台和全社會廣泛參與的大數據系統。目前已構建四十多個資料庫,總訪問量達1.18億;千萬級民生項目資料庫,涵蓋HPV、地貧、耳聾等等;科學雜志GigaScience在綜合性期刊類別中排名全球第六。基於大數據共享理念開發的生物大數據時代的搜索引擎國家基因庫信息庫統一檢索系統,已經整合了超過8千個物種/品種、27個人種、1千萬個基因、5億條序列數據、3億條變異信息和關聯1Pb原始數據量,實現總可檢索條目數8.8億條。 生物信息資料庫致力於存儲人類健康及生物多樣性相關的數字化遺傳資源,構建生物資料庫及數據分析平台,實現數據存儲、分析的貫穿,為後續科研及產業提供大數據源頭保障,支撐國家精準醫學和精準農業發展,促進大數據分析、構建健康雲服務,引領互聯網+健康的合作,成為大數據生物學時代研究生物生長發育、衰老、死亡以及向產業化推廣的有利工具。
㈢ pan-cancer的基因表達在哪個資料庫
資料庫名稱:Oncomine資料庫。
基因表達差異分析(通過檢索基因表達譜差異,挖掘具有研究價值的靶分子,檢索特定研究靶分子,分析其在腫瘤中的表達情況),多基因共表達分析,Oncomine和TCGA相比的優勢就是,它除了數據,還提供了一些簡潔易操作的分析工具,如差異表達分析、共表達分析等,分析後可以直接出圖用在文章里。另外它還整合了TCGA和GEO的部分數據。
㈣ 基因組資料庫的介紹
基因組資料庫(GDB)為人類基因組計劃(HGP)保存和處理基因組圖譜數據。GDB的目標是構建關於人類基因組的網路全書,除了構建基因組圖譜之外,還開發了描述序列水平的基因組內容的方法,包括序列變異和其它對功能和表型的描述。
㈤ GO 和 KEGG 的區別
1、屬性不同
Go(又稱 Golang)是 Google 的 Robert Griesemer,Rob Pike 及 Ken Thompson 開發的一種靜態強類型、編譯型語言。功能:內存安全,GC(垃圾回收),結構形態及 CSP-style 並發計算。
KEGG 是了解高級功能和生物系統(如細胞、 生物和生態系統),從分子水平信息,尤其是大型分子數據集生成的基因組測序和其他高通量實驗技術的實用程序資料庫資源,是國際最常用的生物信息資料庫之一,以「理解生物系統的高級功能和實用程序資源庫」著稱。
2、性質不同
go是計算機編程語言。
KEGG基因組破譯方面的資料庫。
(5)基因整合資料庫擴展閱讀:
Go的語法接近C語言,但對於變數的聲明有所不同。Go支持垃圾回收功能。Go的並行模型是以東尼·霍爾的通信順序進程(CSP)為基礎,採取類似模型的其他語言包括Occam和Limbo。
但它也具有Pi運算的特徵,比如通道傳輸。在1.8版本中開放插件(Plugin)的支持,這意味著現在能從Go中動態載入部分函數。
與C++相比,Go並不包括如枚舉、異常處理、繼承、泛型、斷言、虛函數等功能,但增加了 切片(Slice) 型、並發、管道、垃圾回收、介面(Interface)等特性的語言級支持。Go 2.0版本將支持泛型,對於斷言的存在,則持負面態度,同時也為自己不提供類型繼承來辯護。
不同於Java,Go內嵌了關聯數組(也稱為哈希表(Hashes)或字典(Dictionaries)),就像字元串類型一樣。
KEGG是一個整合了基因組、化學和系統功能信息的資料庫。把從已經完整測序的基因組中得到的基因目錄與更高級別的細胞、物種和生態系統水平的系統功能關聯起來是KEGG資料庫的特色之一。
人工創建了一個知識庫,這個知識庫是基於使用一種可計算的形式捕捉和組織實驗得到的知識而形成的系統功能知識庫。它是一個生物系統的計算機模擬。
與其他資料庫相比,KEGG 的一個顯著特點就是具有強大的圖形功能,它利用圖形而不是繁縟的文字來介紹眾多的代謝途徑以及各途徑之間的關系,這樣可以使研究者能夠對其所要研究的代謝途徑有一個直觀全面的了解。
㈥ 基因組資料庫的簡介
基因組資料庫是分子生物信息資料庫的重要組成部分。基因組資料庫內容豐富、名目繁多、格式不一,分布在世界各地的信息中心、測序中心、以及和醫學、生物學、農業等有關的研究機構和大學。基因組資料庫的主體是模式生物基因組資料庫,其中最主要的是由世界各國的人類基因組研究中心、測序中心構建的各種人類基因組資料庫。小鼠、河豚魚、擬南芥、水稻、線蟲、果蠅、酵母、大腸桿菌等各種模式生物基因組資料庫或基因組信息資源都可以在網上找到。隨著資源基因組計劃的普遍實施,幾十種動物、植物基因組資料庫也紛紛上網,如英國Roslin研究所的ArkDB包括了豬、牛、綿羊、山羊、馬等家畜以及鹿、狗、雞等基因組資料庫,美國、英國、日本等國的基因組中心的斑馬魚、羅非魚(Tilapia)、青鱂魚(Medaka)、鮭魚(Salmon)等魚類基因組資料庫。英國穀物網路組織(CropNet)建有玉米、大麥、高粱、菜豆農作物以及苜蓿(Alfalfa)、牧草(Forage)、玫瑰等基因組資料庫。除了模式生物基因組資料庫外,基因組信息資源還包括染色體、基因突變、遺傳疾病、分類學、比較基因組、基因調控和表達、放射雜交、基因圖譜等各種資料庫。
㈦ 基因資料庫有哪些
單核苷酸多態性、結構、性質以及相關描述。
集合所有已知核酸的核苷酸序列,單核苷酸多態性、結構、性質以及相關描述,包括它們的科學命名、來源物種分類名稱、參考文獻等信息的資料庫。
基因和基因組的資料也包含在DNA資料庫中。目前國際上比較重要的核酸(含蛋白質)一級資料庫有美國的GenBank、歐洲的EMBL和日本的DDBJ。三個資料庫信息共享,每日交換,故資料是一樣的,唯格式有所不同。
㈧ 分析miRNA的資料庫都有哪些
1、starBase
一個高通量實驗數據CLIP-Seq(或稱為HITS-CLIP,PAR-CLIP,iCLIP)和mRNA降解組測序數據支持的microRNA靶標資料庫,包含了miRNA-mRNA,miRNA-lncRNA,miRNA-circRNA,miRNA-ceRNA 和RNA-protein等的調控關系。整合和構建多個流行的靶標預測軟體的交集和調控關系。最新版本發布時間:2013年11月。
2、miRbase
眾所周知的microRNA基因注釋資料庫。目前miRBase只提供了microRNA的靶標的預測軟體的鏈接(如:PicTar)。最新版本發布時間:2010年9月。
3、ChIPBase
整合CLIP-Seq和ChIP-Seq的數據探討microRNA的轉錄和轉錄後調控,構建轉錄因子->microRNA->靶標的調控網路。最新版本發布時間:2012年11月。
4、Tarbase
一個收集已被實驗驗證的microRNA靶標資料庫。最新版本發布時間:2009年1月。
5、miRecords
一個整合的microRNA靶標資料庫。整合多個靶標預測軟體的調控關系。最新版本發布時間:2010年11月。
6、targetScan
基於靶mRNA序列的進化保守等特徵搜尋動物的microRNA靶基因。是預測microRNA靶標假陽性率較低的軟體。而且是microRNA領域大牛Bartel實驗室開發的。最新版本發布時間:2009年4月。
7、PicTar
基於microRNA或microRNA靶標聯合作用等特徵開發的搜尋動物的microRNA靶基因。假陽性率也較低。是microRNA領域大牛Rajewsky實驗室開發的。最新版本發布時間:2007年3月。
8、PITA
基於靶位點的可接性和自由能預測microRNA的靶標。是著名的生物信息學家Segal實驗室開發的。最新版本發布時間:2008年8月。
9、RNA22
基於序列特徵預測microRNA的結合位點。是幾個流行的microRNA靶標預測軟體的其中一個。IBM公司的研究團隊開發的。最新版本發布時間:2007年。
10、miRanda和microRNA.org
是著名的MemorialSloan-Kettering 癌症研究中心的研究人員開發的軟體和資料庫。miRanda的最新版本又叫mirSVR。最新版本發布時間:2010年8月。
11、MicroCosm
EMBL-EBI的Enright 實驗室開發的microRNA靶標資料庫。最新版本發布時間:2010年8月。
12、miRTarBase
整合實驗證實的microRNA靶標的資料庫。最新版本發布時間:2010年10月。
13、miRGator v2.0
整合microRNA表達、靶標和疾病相關信息的資料庫。最新版本發布時間:2010年11月。
14、MiRNAMap
動物的microRNA基因及其靶標的資料庫。最新版本發布時間:2008年1月。
15、miRDB
動物microRNA靶標預測和功能注釋資料庫。最新版本發布時間:2010年8月。
16、RNAhybrid
一個基於miRNA-target配對自由能預測microRNA的靶標。最新版本發布時間:2011年6月。
17、miRGen
microRNA基因和microRNA靶標資料庫。最新版本發布時間:2007年1月。
㈨ 國家基因庫的簡介
深圳國家基因庫著眼於為本國生命科學研究和生物產業發展提供基礎性和公益性服務平台,儲存和管理本國特有的遺傳資源、生物信息和基因數據,是維系一個民族生存與發展的命脈,具有國家水平、服務國家戰略需求的公益性創新科研和產業基礎項目。
國家基因庫集生物資源樣本庫、生物信息資料庫和生物資源信息網路為一體,通過建立高水平的生物資源樣本庫、高效的生物信息數據處理、存儲與管理系統以及覆蓋廣泛的聯盟網路,有效保護、合理開發和利用我國生物資源及基因數據資源,充分調動、發揮及整合各地區、各單位的資源和技術優勢, 積極開展廣泛交流與合作,搭建信息資源研究開發的基礎性支撐平台,提高我國生命科學研究水平和國際影響力, 促進我國生物產業發展。
㈩ 國家基因庫:人類存儲健康信息的「生命銀行」
深圳市大鵬新區大鵬街道下沙片區禾塘仔,這里依山傍海,環境優美,背山面海的幾棟白色的建築並不起眼,但令人難以置信的是,龐大的數據如同螺旋一般,每天從這里源源不斷地湧出。這些白色的梯田造型的建築就是中國首個獲批籌建的國家基因庫,也是目前全球最大的綜合性基因庫。
國家基因庫項目一期佔地面積4.75萬平方米,擁有基因測序房、超級計算房以及冷凍資源房,相較於其龐大的建築規模,它豐富的內容更是令人瞠目結舌:國家基因庫目前已存儲多種生物資源樣本1000萬份,可檢索生物信息條目數已經超過一個億,我國更是計劃把它打造成為中國的諾亞方舟,建立一個巨大的生物活體庫,保護和保存世界約三十萬種植物、百萬種動物、近千萬種微生物活體資源。如此大手筆、高規格的項目究竟什麼來頭?建立國家基因庫的意義何在?下面就讓我們一起走進關於國家基因庫的專業解讀。
「科普中國」是中國科協攜同社會各方利用信息化手段開展科學傳播的科學權威品牌。
本文由科普中國融合創作出品,轉載請註明出處。