Ⅰ RefSeq什麼意思
就是參考序列。
英語在許多國際組織或者會議上都是必需語言,聯合國秘書長的當選條件之一,是同時掌握英語和法語。
由於講英語的兩個主要國家——英國與美國,先後成為世界大國之故,並在商業、學術領域具較大影響力,在科技方面的突出貢獻和領先地位,因此許多人都將英語做為一種外語或第二語言,把英語作為外國語使用的人約3億—5億。英語在歐洲大陸及日本是最普遍作為外語來學習的語言(94%),接著是法語和西班牙語,在中國等國家,英語是學校的必修外語課程。
英語作為第二語言和作為外國語這兩種不同的使用法,說明英語正在愈來愈被看成一種國際交往的工具,它不再為一國或一個民族所專有,而是一種中性的信息媒介。
基本英語是為了國際交流使用而簡化了的英語。它通常被一些飛機廠商和其他國際企業用作書寫手冊和交流。遠東的一些學校把它作為基礎英語來教授。
Ⅱ 轉錄測序中的nr,nt,swissprot,cog,kegg,go分別是什麼意思
NR庫屬於非冗餘蛋白序列資料庫,是NCBI官方的蛋白序列資料庫,數據來源於GenPept、SwissProt、PIR、PDF、PDB以及NCBI RefSeq,是默認的蛋白比對資料庫。
NT資料庫是美國國家生物技術信息中心NCBI官方的核酸序列資料庫,NT庫屬於非冗餘核酸序列資料庫,數據來源於GenBank、EMBL 以及 DDBJ,是NCBI默認的核酸blast比對資料庫。
SwissProt資料庫是檢查過的、手工注釋的蛋白資料庫,我們將Unigene注釋到SwissProt資料庫,以得到更加高質量的注釋結果。
COG (clusters of orthologous groups)主要是原核生物和單細胞真核生物的直系同源物,KOG(clusters of euKaryotic Orthologous Groups)資料庫包含了7個完整基因組的真核生物的直系同源家族蛋白, 構成每個 KOG 的蛋白集是被假定為來自於一個祖先蛋白,根據系統發生進行分類,一般COG指原核生物,KOG指真核生物,KOG與COG提供了相似的基因同源物的分類信息。
KEGG (Kyoto Encyclopedia of Genes and Genomes) 是處理基因組、生物通路、疾病、葯物和化學物質之間聯系的集成資料庫。 KEGG用於生物信息研究等,包括基因組,代謝組學等其他組學的數據分析,涵蓋了Drug Development(葯物開發)、 Cellular Processes(細胞過程)、 Environmental Information Processing(環境信息處理)、Genetic Information Processing(遺傳信息處理)、 Human Diseases(人類疾病), Metabolism(代謝)、 Organismal Systems(有機系統)等方面。
GO( Gene Ontology ): 基因本體。生物技術的發展迅速,數據越來越多,不同資料庫命名標准不統一,為了解決不同的生物學資料庫可能會使用不同的術語的問題,從而基因本體聯合會(Gene Onotology Consortium)開發GO來描述基因在分子、細胞和組織水平的功能體現。GO的基本描述單元是GO terms。GO主要包括三個分支: 生物過程(biological processes)、分子功能(molecular function)和細胞組成(cellular components),用於描述基因產物的功能。GO中使用了is_a、part_of和regulates三種互作關系。
Ⅲ 關於 NCBI 基因人工摘要資料庫
一級資料庫(PrimaryDatabases)
1、直接來源於測序工作者或實驗室研究人員
2、資料庫工作人員組織數據但不添加任何信息
例如:GenBank
衍生資料庫(DerivativeDatabases)
1、人工校正的資料庫
例如:RefSeq
2、計算機校正的資料庫
例如:UniGene
Ⅳ RefSeq資料庫的介紹
RefSeq資料庫,即RefSeq參考序列資料庫,美國國家生物信息技術中心(NCBI)提供的具有生物意義上的非冗餘的基因和蛋白質序列。
Ⅳ 基因識別的識別方法
在基因的間接識別法(Extrinsic Approach)中,人們利用已知的mRNA或蛋白質序列為線索在DNA序列中搜尋所對應的片段。由給定的mRNA序列確定唯一的作為轉錄源的DNA序列;而由給定的蛋白質序列,也可以由密碼子反轉確定一族可能的DNA序列。因此,在線索的提示下搜尋工作相對較為容易,搜尋演算法的關鍵在於提高效率,並能夠容忍由於測序不完整或者不精確所帶來的誤差。BLAST是目前以此為目的最廣泛使用的軟體之一。
若DNA序列的某一片段與mRNA或蛋白質序列具有高度相似性,這說明該DNA片段極有可能是蛋白編碼基因。但是,測定mRNA或蛋白質序列的成本高昂,而且在復雜的生物體中,任意確定的時刻往往只有一部分基因得到了表達。這意味著從任何單個細胞的mRNA和蛋白質上都只能獲得一小部分基因的信息;要想得到更為完整的信息,不得不對成百上千個不同狀態的細胞中的mRNA和蛋白質測序。這是相當困難的。比如,某些人類基因只在胚胎或胎兒時期才得到表達,對它們的研究就會受到道德因素的制約。
盡管有以上困難,對人類自身和一些常見的實驗生物如老鼠和酵母菌,人們已經建立了大量轉錄和蛋白質序列的資料庫。如RefSeq資料庫,Ensembl資料庫等等。但這些資料庫既不完整,也含有相當數量的錯誤。 鑒於間接識別法的種種缺陷,僅僅由DNA序列信息預測蛋白質編碼基因的從頭計演算法(Ab Initio Approach)就顯得十分重要了。一般意義上基因具有兩種類型的特徵,一類特徵是「信號」,由一些特殊的序列構成,通常預示著其周圍存在著一個基因;另一類特徵是「內容」,即蛋白質編碼基因所具有的某些統計學特徵。使用Ab Initio方法識別基因又稱為基因預測。通常我們仍需藉助實驗證實預測的DNA片段是否具有生物學功能。
在原核生物中,基因往往具有特定且容易識別的啟動子序列(信號),如Pribnow盒和轉錄因子。與此同時,構成蛋白質編碼的序列構成一個連續的開放閱讀框(內容),其長度約為數百個到數千個鹼基對(依據該長度區間可以篩選合適的密碼子)。除此之外,原核生物的蛋白質編碼還具有其他一些容易判別的統計學的特徵。這使得對原核生物的基因預測能達到相對較高的精度。
對真核生物(尤其是復雜的生物如人類)的基因預測則相當有挑戰性。一方面,真核生物中的啟動子和其他控制信號更為復雜,還未被很好的了解。兩個被真核生物基因搜尋器識別到的訊號例子有CpG islands及poly(A) tail的結合點。
另一方面,由於真核生物所具有的splicing機制,基因中一個蛋白質編碼序列被分為了若干段(外顯子),中間由非編碼序列連接(基因內區)。人類的一個普通蛋白質編碼基因可能被分為了十幾個外顯子,其中每個外顯子的長度少於200個鹼基對,而某些外顯子更可能只有二三十個鹼基對長。因而蛋白質編碼的一些統計學特徵變得難於判別。
高級的基因識別演算法常使用更加復雜的概率論模型,如隱馬爾可夫模型。Glimmer是一個廣泛應用的高級基因識別程序,它對原核生物基因的預測已非常精確,相比之下,對真核生物的預測則效果有限。GENSCAN計劃是一個著名的例子。 由於多個物種的基因組序列已完全測出,使得比較基因組學得以發展,並產生了新的基因識別的方法。該方法基於如下原理:自然選擇的力量使得基因和DNA序列上具有生物學功能的其他片段較其他部分有較慢的變異速率,在前者的變異更有可能對生物體的生存產生負面影響,因而難以得到保存。因此,通過比較相關的物種的DNA序列,我們能夠取得預測基因的新線索。2003年,通過對若干種酵母基因組的比較,人類對原先的基因識別結果作了較大的修改;類似的方法也正在應用於人類的基因組研究,並可能在將來的若干年內取得成果。
Ⅵ refseq geneid 怎麼找到對應的基因
就是參考序列。
NCBI 參考序列計劃提供了校正的序列數據和相關的信息,給同行提供使用的標准。GenBank是一個序列的存儲池,RefSeq資料庫將是一個參考序列的非冗餘集合,包括構建的基因組contig,mRNA,蛋白,和,在未來,整個染色體。
Ⅶ 基因組中:RefSeq是什麼意思
就是參考序列。
NCBI 參考序列計劃提供了校正的序列數據和相關的信息,給同行提供使用的標准。GenBank是一個序列的存儲池,RefSeq資料庫將是一個參考序列的非冗餘集合,包括構建的基因組contig,mRNA,蛋白,和,在未來,整個染色體。RefSeq記錄是有三種可以獲得的狀態:預測的,臨時的和檢查過的。檢查過的記錄代表了我們目前關於一個基因和它的轉錄子的知識的匯編。在檢查的過程中,我們整合了更多的信息,只要是可以獲得,如序列數據,發表物,命名,和特徵註解,都來自於很多GenBank記錄,人類基因組命名委員會,和OMIM。
最開始的RefSeq記錄版本包括人類mRNA和蛋白參考序列。目前的范圍只局限於人類序列