當前位置:首頁 » 數據倉庫 » 三個一級核酸資料庫
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

三個一級核酸資料庫

發布時間: 2022-05-18 05:03:56

1. 全國兒童dna資料庫怎麼辦理

摘要 全國兒童DNA資料庫

2. 國際三大核酸資料庫每間隔多長時間就互相交換資料庫里的數據

1估計只有用PHP連二次資料庫2一個為SQLITE端連接讀取,3另一個則為MYSQL的連接;4分別取出需要顯示在客戶端的數據,5合並成一個數據,顯示給客戶端即可,6以前我連ACCESS和MSSQL也是這么弄的,效果不是完美,但至少可以達成目標;

3. 什麼是生物信息學中的二級資料庫

一、生物信息學資料庫的種類

分子生物信息資料庫種類繁多。歸納起來,大體可以分為4個大類:

基因組資料庫

核酸和蛋白質一級結構資料庫

生物大分子(主要是蛋白質)三維空間結構資料庫

由上述3類資料庫和文獻資料為基礎構建的二級資料庫

一級資料庫(一次資料庫) :基因組資料庫來自基因組作圖,序列資料庫來自序列測定,結構資料庫來自X射線衍射和核磁共振等結構測定。這些資料庫是分子生物學的基本數據資源,通常稱為基本資料庫、初始資料庫,也稱一次資料庫。

二級資料庫(二次資料庫) :是在一級資料庫、實驗數據、理論分析的基礎上,衍生整理而得。它是根據生命科學不同研究領域的實際需要,對基因組圖譜、核酸和蛋白質序列、蛋白質結構以及文獻等數據進行分析、整理、歸納、注釋,構建具有特殊生物學意義和專門用途的資料庫。
一般說來,一級資料庫的數據量大,更新速度快,用戶面廣,通常需要高性能的計算機伺服器、大容量的磁碟空間和專門的資料庫管理系統支撐。

二級資料庫的容量則小得多,更新速度也不像一次資料庫那樣快,也可以不用大型商業資料庫軟體支持,這類針對不同問題開發的二次資料庫的最大特點是使用方便,特別適用於計算機使用經驗不太豐富的生物學家。

序列資料庫是分子生物信息資料庫中最基本的資料庫,包括核酸和蛋白質兩類,以核苷酸鹼基順序或氨基酸殘基順序為基本內容,並附有注釋信息。

GenBank:由美國國家生物技術信息中心(National Center for Biotechnology Information, NCBI)建立(1979-1982)。該中心隸屬於美國國家醫學圖書館,位於美國家衛生研究院(NIH)內。

EMBL:由歐洲分子生物學實驗室(European Molecular Biology Laboratory, 其下有European Bioinformatics Centre)建立(1982),主要位於英國劍橋Cambridge和德國漢堡Hamburg。

DDBJ:日本DNA資料庫(DNA Data Bank of Japan)。由the National Institute of Genetics建立(1984-1987), NIG主管。

二級資料庫的形式:大多以web界面為基礎,具有文字信息、表格、圖形、圖表等方式顯示資料庫內容。

一級資料庫與二級資料庫之間並無明確的界限。(例如:GDB、AceDB、SCOP、CATH等都已經具有二級資料庫的特色)。

4. 什麼時候需要利用生物信息學獲取核酸序列信息

什麼時候需要利用生物信息學獲取核酸序列信息
1.序列比對
序列比對其意義是從核酸、氨基酸的層次來比較兩個或兩個以上符號序列的相似性或不相似性,進而推測其結構功能及進化上的聯系。研究序列相似性的目的是通過相似的序列得到相似的結構或功能,也可以通過序列的相似性判別序列之間的同源性,推測序列之間的進化關系。序列比對是生物信息學的基礎,非常重要。
序列比對中最基礎的是雙序列比對,雙序列比較又分為全局序列比較和局部序列比較,這兩種比較均可用動態程序設計方法有效解決。在實際應用中,某些在生物學上有重要意義的相似性不是僅僅分析單條序列,只能通過將多個序列對比排列起來才能識別。比如當面對許多不同生物但蛋白質功能相似時,我們可能想知道序列的哪些部分是相似的,哪些部分是不同的,進而分析蛋白質的結構和功能。為獲得這些信息,我們需要對這些序列進行多序列比對。多重序列比對演算法有動態規劃演算法、星形比對演算法、樹形比對演算法、遺傳演算法、模擬退火演算法、隱馬爾可夫模型等,這些演算法都可以通過計算機得以解決。
2.資料庫搜索
隨著人類基因組計劃的實施,實驗數據急劇增加,數據的標准化和檢驗成為信息處理的第一步工作,並在此基礎上建立資料庫,存儲和管理基因組信息。這就需要藉助計算機存儲大量的生物學實驗數據,通過對這些數據按一定功能分類整理,形成了數以百計的生物信息資料庫,並要求有高效的程序對這些資料庫進行查詢,以此來滿足生物學工作者的需要。資料庫包括一級資料庫和二級資料庫,一級資料庫直接來源於實驗獲得的原始數據,只經過簡單的歸類整理和注釋;二級資料庫是對基本數據進行分析、提煉加工後提取的有用信息。
分子生物學的三大核心資料庫是GenBank核酸序列資料庫,SWISS-PROT蛋白質序列資料庫和PDB生物大分子結構資料庫,這三大資料庫為全世界分子生物學和醫學研究人員了解生物分子信息的組織和結構,破譯基因組信息提供了必要的支撐。但是用傳統的手工分析方法來處理數據顯然已經無法跟上新時代的步伐,對於大量的實驗結果必須利用計算機進行自動分析,以此來尋找數據之間存在的密切關系,並且用來解決實際中的問題。
3.基因組序列分析
基因組學研究的首要目標是獲得人的整套遺傳密碼,要得到人的全部遺傳密碼就要把人的基因組打碎,測完每個小的序列後再把它們重新拼接起來。所以目前生物信息學的大量工作是針對基因組DNA序列的,建立快速而又准確的DNA序列分析方法對研究基因的結構和功能有非常重要的意義。對於基因組序列,人們比較關心的是從序列中找到基因及其表達調控信息,比如對於未知基因,我們就可以通過把它與已知的基因序列進行比較,從而了解該基因相關的生理功能或者提供疾病發病機理的信息,從而為研發新葯或對疾病的治療提供一定的依據,使我們更全面地了解基因的結構,認識基因的功能。因此,如何讓計算機有效地管理和運行海量的數據也是一個重要問題。
4.蛋白質結構預測
蛋白質是組成生物體的基本物質,幾乎一切生命活動都要通過蛋白質的結構與功能體現出來,因此分析處理蛋白質數據也是相當重要的,蛋白質的生物功能由蛋白質的結構所決定,因此根據蛋白質序列預測蛋白質結構是很重要的問題,這就需要分析大量的數據,從中找出蛋白質序列和結構之間存在的關系與規律。
蛋白質結構預測分為二級結構預測和空間結構預測,在二級結構預測方面主要有以下幾種不同的方法:①基於統計信息;②基於物理化學性質;③基於序列模式;④基於多層神經網路;⑤基於圖論;⑥基於多元統計;⑦基於機器學習的專家規則;⑧最鄰近演算法。目前大多數二級結構預測的演算法都是由序列比對演算法BLAST、FASTA、CLUSTALW產生的經過比對的序列進行二級結構預測。雖然二級結構的預測方法其准確率已經可以達到80%以上,但二級結構預測的准確性還有待提高。
在實際進行蛋白質二級結構預測時,往往會把結構實驗結果、序列比對結果、蛋白質結構預測結果,還有各種預測方法結合起來,比較常用的是同時使用多個軟體進行預測,把各個軟體預測結果分析後得出比較接近實際的蛋白質二級結構。將序列比對與二級結構預測相結合也是一種常見的綜合分析方法。
蛋白質二級結構指蛋白質多肽鏈本身的折疊和盤繞的方式。二級結構主要有α-螺旋、β-折疊、β-轉角等幾種形式,它們是構成蛋白質高級結構的基本要素,常見的二級結構有α-螺旋和β-折疊。三級結構是在二級結構的基礎上進一步盤繞,折疊形成的。研究蛋白質空間結構的目標是為了了解蛋白質與三維結構的關系,預測蛋白質的二級結構預測只是預測蛋白質三維形狀的第一步,蛋白質折疊問題是非常復雜的,這就導致了蛋白質的空間結構預測的復雜性。蛋白質三維結構預測方法有:同源模型化方法、線索化方法和從頭預測的方法但是無論用哪一種方法,結果都是預測,採用不同的演算法,可能產生不同的結果,因此還需要研究新的理論計算方法來預測蛋白質的三維結構。
圖4.1 蛋白質結構
目前,已知蛋白質序列資料庫中的數據量遠遠超過結構資料庫中的數據量,並且這種差距會隨著DNA序列分析技術和基因識別方法的進步越來越大,人們希望產生蛋白質結構的進度能夠跟上產生蛋白質序列的速度,這就需要對蛋白質結構預測發展新的理論分析方法,目前還沒有一個演算法能夠很好地預測出一個蛋白的三維結構形狀,蛋白質的結構預測被認為是當代計算機科學要解決的最重要的問題之一,因此蛋白質結構預測的演算法在分子生物學中顯得尤為重要。
5.結束語
現如今計算機的發展已滲透到各個領域,生物學中的大量實驗數據的處理和理論分析也需要有相應的計算機程序來完成,因此隨著現代科技的發展,生物技術與計算機信息技術的融合已成為大勢所趨。生物學研究過程中產生的海量數據需要強有力的數據處理分析工具,這樣計算機科學技術就成為了生物科學家的必然選擇,雖然人們已經利用計算機技術解決了很多生物學上的難題,但是如何利用計算機更好地處理生物學中的數據仍是一個長期而又復雜的課題。

5. 核酸序列、結構資料庫有哪些

美國的核酸資料庫GenBank
http://www.ncbi.nlm.nih.gov
歐洲核酸序列資料庫EMBL
http://www.embl-heidelberg.de
日本核酸序列資料庫DDBJ
http://www.ddbj.nig.ac.jp

這是目前世界三大核酸資料庫.不本我們用的最多的還是NCBI,基本上是不用日本的!

6. 基因資料庫 一般使用什麼資料庫

集合所有已知核酸的核苷酸序列,單核苷酸多態性、結構、性質以及相關描述,包括它們的科學命名、來源物種分類名稱、參考文獻等信息的資料庫。基因和基因組的資料也包含在DNA資料庫中。目前國際上比較重要的核酸(含蛋白質)一級資料庫有美國的GenBank、歐洲的EMBL和日本的DDBJ。三個資料庫信息共享,每日交換,故資料是一樣的,唯格式有所不同。

7. ncbi,embl和什麼並稱三大資料庫

DDBJ:DNA Data Base of Japan 是日本人建立的核酸資料庫;
NCBI中的Genbank是美國建立的核酸資料庫;
EMBL是歐洲建里的核酸資料庫;
這三個資料庫是連通的,數據共享。

8. YLWWINNER是什麼

分子生物學資料庫的演變經歷了文獻索引資料庫、事實資料庫和知識資料庫三個階段。

生物信息學涉及的資料庫可大致分為二種:初級資料庫和二級資料庫。

一級資料庫(初級資料庫):資料庫中的數據直接來源於實驗獲得的原始數據,只經過簡單的歸類整理和注釋。

二級資料庫:對原始生物分子數據進行整理、分類的結果,是在一級資料庫、實驗數據和理論分析的基礎上針對特定的應用目標而建立的。

國際上著名的初級核酸資料庫有Genbank資料庫、EMBL核酸庫和DDBJ庫等;蛋白質序列資料庫有SWISS-PROT、PIR等;蛋白質結構庫有PDB等;基因組資料庫等。
國際上二級生物學資料庫非常多,它們因針對不同的研究內容和需要而各具特色,如人類基因組圖譜庫GDB、轉錄因子和結合位點庫TRANSFAC、蛋白質結構家族分類庫SCOP等等。
EMBL資料庫的每個條目是一份純文本文件。每一行最前面是由兩個大寫字母組成的識別標志, 歐洲國家的許多資料庫如SWISS-PROT、ENZYME、TRANSFAC 都採用EMBL格式。

GenBank序列文件由單個的序列條目組成。序列條目是一個純文本文件,由欄位組成,每個欄位由關鍵字(為完整的英文字,不用縮寫)起始(每行左端或為空格),後面為該欄位的具體說明。有些欄位又分若干次子欄位,以次關鍵字或特性表說明符開始。每個序列條目以雙斜杠「//」作結束標記。

Genbank庫包含了所有已知的核酸序列和蛋白質序列,以及與它們相關的文獻著作和生物學注釋。

PubMed系統是由美國國立生物技術信息中心(NCBI)開發的用於檢索MEDLINE、PreMED-LINE資料庫的網上檢索系統。MEDLINE是美國國立醫學圖書館(U.S.National Library of Medicine)最重要的書目文摘資料庫,內容涉及醫學、護理學、牙科學、獸醫學、衛生保健和基礎醫學。

BLAST(Basic Local Alignment Search Tool):是目前常用的資料庫搜索程序,意為「基本局部相似性比對搜索工具」。國際著名生物信息中心都提供基於網路的BLAST伺服器。

SWISS-PROT和PIR是國際上二個主要的蛋白質序列資料庫。

資料庫查詢(database query) :對序列、結構以及各種二次資料庫中的注釋信息進行關鍵詞匹配查找。有時也稱資料庫檢索,它和互聯網上通過搜索引擎 (Search engine) 查找需要的信息是一個概念。

資料庫搜索(database search

是指通過特定的序列相似性比對演算法,找出核酸或蛋白質序列資料庫中與檢測序列具有一定程度相似性的序列。最為著名的信息檢索系統是美國NCBI開發的Entrez數據檢索系統和EBI開發的SRS序列檢索系統

資料庫相似性搜索工具最常見的是FASTA工具和BLAST工具。

EMBL的發送系統為WebIn

GenBank 的發送系統sequin

測序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank資料庫。這個任務可以由基於Web界面的BankIt或獨立程序Sequin來完成。

確定DNA序列之間或蛋白質序列之間相似性程度的過程稱為序列比對(sequence alignment)。

雙序列比對(pairwise alignment)是指通過一定演算法對兩個DNA或蛋白質序列進行比較,找出兩者之間最大相似性匹配。

變異的種類主要有以下三種: 替代(substitution)插入或刪除(insertion or deletion) indel 重排(rearrangement

同源序列是從某一共同祖先經趨異進化而形成的不同序列 。

相似性(similarity)指序列比對過程中用來描述序列之間相同或相似DNA鹼基或氨基酸殘基序列所佔比例的高低。
同源性(homology)是指從一些數據中判斷出兩個基因在進化上曾具有共同祖先的結論。

全局比對(global alignment):
從全長序列出發,考察兩個序列之間的整體相似性。

局部比對(local alignment):
著眼於序列中的某些特殊片斷,比較這些片斷之間的相似性、

(3)K-元法/字法

(k-tuple method /word method)

該方法從尋找完全匹配的短片斷(稱為k-元或字)出發,並以此為基礎運用動態規劃方法將這一片斷向兩端延伸,得到較長的相似性匹配。

在進行序列兩兩比對時,有兩方面問題直接影響相似性分值:取代矩陣和空位罰分。

空位:序列中任意連續的盡可能長的空格

空位開放 (gap opening)

對新空位的產生進行的空位開放罰分(a)

空位延伸(gap extension )

對空位延伸所進行的空位延伸罰分(b)

空位罰分(Wk)的數學公式

Wk=a+bk k為連續空位個數

@空位處罰特點:1、同常對於a會選擇一個高分(10-15分)對於b會選擇一個低分(1-2分)

2、大的空位設置值配以很小的空位擴展罰值被普遍證實是最佳的設定思路

@目前最有名的蛋白質矩陣Blosum、PAM

@PAM矩陣要點:可觀測突變百分率

核酸序列的檢索

1.NCBI中的Entrez

*核酸中載體序列的識別和去除VecScreen

重復序列分析 有CENSOR(EMBL)和RepeatMasker

CpG島識別 CpGPlot/CpGReport

啟動子與轉錄因子結合位點的識別TRES、Neural Network Promoter Prediction、Dragon Promoter Finder、 promoterInspector、NNPP2.1、TSSG、promoter2.0、Mcpromoter 。

內含子-外顯子剪接位點的識別SpliceView、NetGene2和BDGP中Splice Site Prediction等。

編碼區統計特性分析GRAIL和GenMark

tRNA基因的識別tRNAscan-SE

其它綜合基因預測工具GENSCAN

限制性內切酶分析REBASE(從google英文界面進入)

在線限制性酶切資源NEBcutter V2.0 WebCutter

PCR引物設計Primer 3 Genefisher

① 引物應用核酸系列保守區內設計並具有特異性。
② 產物不能形成二級結構。
③ 引物長度一般在15~30bp鹼基之間,常用的是18~27bp,但不應大於38bp,兩引物長度差異不超過3bp。
④ G+C含量在40%~60%之間。
⑤ 退火溫度在42~57℃,但兩引物間的退火溫度的差不可大於5℃ 。
⑥ 引物自身不能有連續4個鹼基的互補。
⑦ 引物之間不能有連續4個鹼基的互補。
⑧ 引物5′端可以修飾(加酶切位點序列;標記生物素、熒光素、地高辛等 )。
⑨ 引物3′端不可修飾。
⑩ 引物3′端要避開密碼子的第3位,一般避免使用鹼基A,最好為G和C。

PIR國際蛋白質序列資料庫(PSD)是由蛋白質信息資源(PIR)、慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列資料庫(JIPID)共同維護的國際上最大的公共蛋白質序列資料庫。這是一個全面的、經過注釋的、非冗餘的蛋白質序列資料庫,

PSD資料庫有幾個輔助資料庫,如基於超家族的非冗餘庫等。PIR提供三類序列搜索服務:基於文本的互動式檢索;標準的序列相似性搜索,包括BLAST、FASTA等;結合序列相似性、注釋信息和蛋白質家族信息的高級搜索,包括按注釋分類的相似性搜索、結構域搜索GeneFIND等。
SWISS-PROT是經過注釋的蛋白質序列資料庫,由歐洲生物信息學研究所(EBI)維護。資料庫由蛋白質序列條目構成,每個條目包含蛋白質序列、引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關系、序列變異體和沖突等信息。

ProtParam工具這是用於計算蛋白質的各種物理化學性質的工具,包括蛋白質的相對分子質量、理論pI值、氨基酸組成、原子組成、消光系數、半衰期、不穩定系數以及總平均親水性等。

Compute pI/MW工具 是ExPASy工具包中的程序,計算蛋白質的等電點和分子量。對於鹼性蛋白質,計算出的等電點可能不準確。

AACompldent工具 根據氨基酸組成辨識蛋白質。

PeptideMass工具 是分析蛋白質在各種蛋白酶和化學試劑處理後的內切產物。

蛋白質二級結構預測

nnpredict工具 (不能用,二級結構預測改用GOR)

HNN工具- Hierarchical Neural Network method

ProtScale工具蛋白質的疏水性分析

Tmpred---跨膜結構分析

COILS---捲曲螺旋預測

SignalP ---信號肽預測工具

蛋白質三級結構預測

SWISS-Model工具 自動蛋白質同源模建伺服器,有三個工作模式:Automated Mode、 Alignment Mode和 Project Mode。程序先把提交的序列在ExPdb晶體圖像資料庫中搜索相似性足夠高的同源序列,建立最初的原子模型,再對這個模型進行優化產生預測的結構模型。

最為著名的三大核心資料庫:PDB 生物大分子結構資料庫;SWISS-PROT 蛋白質序列資料庫;

GENBANK 核酸資料庫

公認三大核酸資料庫:NCBI(美) EMBL(歐洲) DDBJ(日)

9. 常用核酸序列資料庫的介紹

並通過計算機網路每天都將新發現或更新過的數據進行交換,以保證這三個資料庫序列信息的完整性。