當前位置:首頁 » 數據倉庫 » 資料庫相似性搜索
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

資料庫相似性搜索

發布時間: 2022-12-14 20:31:53

『壹』 有哪位知道專門翻譯dna互補鏈的網站

我們都用軟體做這個工作,例如Premier Primer 5、Omiga等很多軟體都能做。而網站來說,做更多深入分析的網站很多,這一項工作太簡單,專門翻譯DNA互補鏈的網站還真不多,可以考慮:
DNA序列分析——ORF Finder(NCBI主頁網址/gorf/gorf.html)

其他功能的網站有:
NCBI-GenBank資料庫
資料庫相似性搜索——核酸序列與核酸資料庫比較(BLASTN)
蛋白質序列與資料庫中蛋白質序列比較(BLASTP)
兩序列比對(Align two sequences)
分析實驗序列外顯子部分——GENSCAN
分析實驗序列的可能酶切位點——NEBcutter2.0
限制性內切酶資料庫——REBASE
設計引物擴增實驗序列——Genefisher
Primer 3
蛋白質序列分析及結構預測:
預測蛋白質的分子量及等電點:ExPASy(Compute pI/Mw)
分析蛋白質的基本物理化學性質:ExPASy(ProtParam)
分析蛋白質的親水性和疏水性:ExPASy(ProtScale)
分析蛋白質在各種蛋白酶和各種化學試劑處理後的內切產物:ExPASy(PeptideMass)
分析蛋白質的信號肽:ExPASy(SignalP)
預測蛋白質的二級結構:ExPASy(Jpred 3)
多物種分子系統發育分析:EMBL--Toolbox--Clustal2W
人脂聯素蛋白質序列:NP_004788
人類胰島素生長因子IB前體:P05019

『貳』 多媒體資料庫中的常用的查詢與檢索方法是什麼

由特徵分析子系統、特徵提取子系統、資料庫、查詢介面、檢索引擎和索引過濾等子系統組成,同時需要相應的知識輔助支持特定領域的內容處理。

(1)特徵分析:該子系統負責將需要入庫的媒體進行分割或節段化,標識出需要的對象或內容關鍵點,以便有針對性的對目標進行特徵提取。特徵標識可通過用戶輸入或系統定義。

(2)特徵提取對用戶提供或系統標明的媒體對象進行特徵提取處理。提取特徵時需要知識處理模塊的輔助,與標准化的知識定義直接有關。

(3)資料庫包含多媒體資料庫和特徵資料庫,分別存放多媒體數據同對應的特徵數據,它們彼此之間存在著一定的對應關系。特徵庫中包含了由用戶輸入的和預處理自動提取的特徵數據,通過檢索引擎組織與媒體類型相匹配的索引來達到快速搜索的目的。

(4)查詢介面,即人機交互界面,友好的人機交互界面是檢索系統不可缺少的。在基於內容的檢索中,由於特徵不直觀,因此必須為用戶提供一個可視化的輸入手段,還應在用戶界面提供查詢結果的創覽功能,即為用戶提供初步查詢結果的返回,系統會根據用戶選擇的排序標准(如顏色、旋律、節拍等),按照相似度的大小將結果排列後,返回給用戶。

(5)檢索引擎,檢索要將特徵提取值和特徵庫中的值進行比較,得到一個相似度。不同的媒體各自具有不同的相似度演算法,這些演算法也稱為相似性測度函數。檢索引擎使用相似性測度函數集去進行比較,從而確定與特徵庫的值最接近的多媒體數據。

(6)索引過濾在大規模多媒體數據檢索過程中,為了提高檢索效率,常在檢索引擎進行匹配之前採用索引過濾方法,取出高維特徵用於匹配。

『叄』 序列相似性檢索工具

NCBI的BLAST(Altschul et al.,1997)是利用序列相似性鑒別生物體最流行的工具。為了消除上述在木霉種類鑒定方面的缺陷,Kopchinskiy等(2005)發展了TrichoBLAST,它是一個依據序列診斷和相似性搜索工具支持的公開可靠的資料庫,包括所有基因特徵的木霉和肉座菌,以及5種使用最頻繁的系統發育標記:內轉錄間隔區ITS1和2、編碼轉錄延伸因子Ⅰa 亞基蛋白的基因的兩個內含子(tef1_int4,tef1_int5)和一個外顯子(tef_exon6)、RNA聚合酶第二亞基(rpb2_exon)。該工具也被放在 ISTH 網站上,片段和種類信息不斷得到更新。

圖1.8 存貯在NCBI GenBank里的肉座菌/木霉種類名稱及核心基因序列的數量

(Drunina,2006a)

圖1.9 利用www.isth.info工具對木霉/肉座菌進行分子鑒別的最優步驟

(Drunina,2006a)

由於在基因序列(如tef1)擴增和測序的時候,沒有統一的引物,在現已出版的資料庫里,同一基因名下的序列片段長度和位置都有很大的差異,所以,相似性檢索的准確性也遇到很大的阻礙。例如,如果tef1序列包含一個短且高度可變的內含子和一個相對保守的外顯子的一部分,當在進行相似性檢索的時候,基於高解析度,外顯子序列間被計算,而內含子間的相似性就被忽略。為了消除這一障礙,強制執行TrichoMARK(圖1.9)策略,能對質疑序列的系統發育標記進行測定和檢索,然後單獨提交至 TrichoBLAST。TrichoMARK 第一個版本能夠診斷木霉/肉座菌基因特性的寡核苷酸序列的ITS1和ITS2序列(Drunina et al.,2005a),並能對ITS1和ITS2系統發育標記精確定位。在高度診斷tef1內含子的情況下,TrichoMARK搜索內含子兩側保守的種屬特定區域,單獨檢索內含子的相似性,提供檢測系統發育標記的實際和理論上的長度比較結果。同樣,程序分別掃描tef1和rpb2外顯子上的特定寡核苷酸延伸區域,檢索與TrichoBLAST里類似的系統發育標記匹配的可疑序列。這樣的BLAST前序列診斷明顯提高隨後相似性分析的精確性。

通過上述步驟,應用者就可自動提交序列進行相似性分析,通過BLAST方法得到標準的對比結果。但是,使用該方法必須重視幾條預防措施:相似性不代表親緣的權威程度(de Queiroz,1992),還要依賴選擇的是哪種系統發育標記,以及TrichoBLAST是否包含所有已知種類的各個序列。就這一點而言,除了前面提到的少數例外(所有例外在Tri-choBLAST分析結果里都有清晰標注),ITS1和ITS2是很有診斷性,也是獨一無二的。因為ITS1和ITS2序列不全與資料庫中的記錄相匹配,而是與一個或幾個核苷酸有差異,或者表明是已知種類的未知等位基因,或者表明是一個新的種類。

為了確認該狀況下的種類鑒別,TrichoBLAST的相似性分析應該還包括其他系統發育標記或者多種系統發育標記分析。至於兩個tef1內含子,由於其高度的種間變異,序列鑒別很不確定(Chaverri et al.,2003 a;Drunina et al.,2004)。根據上面給出的預防措施(Kopchinskiy et al.,2005),小范圍的匹配表明最大程度的親緣關系。但是,假如這種關系不能直接通過BLAST提供的相似指數進行推斷,就必須採用系統推理的方法替代。為此,第三個互動式模型(www.isth.info)得到發展,即一個公開可用系統發育標記的多位點資料庫(Multiloci Database of Phylogenetic Markers)(Kopchinskiy et al.,2005)。該資料庫僅包含一條與五個系統發育標記相匹配的記錄,通過與已發表序列手動檢索和校準,系統發育標記被修改完全符合TrichoBLAST格式,並直接對質疑序列進行系統發育分析。

『肆』 如何查找資料庫中的重復數據

1、查找表中多餘的重復記錄,重復記錄是根據單個欄位(peopleId)來判斷

select * from peoplewhere peopleId in (select peopleId from people group by peopleId having count (peopleId) > 1)

2、刪除表中多餘的重復記錄,重復記錄是根據單個欄位(peopleId)來判斷,只留有rowid最小的記錄

delete from peoplewhere peopleId in (select peopleId from people group by peopleId having count (peopleId) > 1)and rowid not in (select min(rowid) from people group by peopleId having count(peopleId )>1)

3、查找表中多餘的重復記錄(多個欄位)

select * from vitae awhere (a.peopleId,a.seq) in (select peopleId,seq from vitae group by peopleId,seq having

(4)資料庫相似性搜索擴展閱讀

FROM子句指定SELECT語句查詢及與查詢相關的表或視圖。在FROM子句中最多可指定256個表或視圖,它們之間用逗號分隔。

在FROM子句同時指定多個表或視圖時,如果選擇列表中存在同名列,這時應使用對象名限定這些列所屬的表或視圖。

例如在usertable和citytable表中同時存在cityid列,在查詢兩個表中的cityid時應使用下面語句格式加以限定:

SELECTusername,citytable.cityid

FROMusertable,citytable

WHEREusertable.cityid=citytable.cityid

在FROM子句中可用以下兩種格式為表或視圖指定別名:

表名 as 別名

表名 別名

『伍』 列舉常用的生物信息學資料庫及序列對比常用軟體及特點

一般來說所用的分析工具有在線跟下載的 下面簡要列舉一些常用在線軟體的使用 1、使用VecScreen工具,分析下列未知序列,輸出序列長度、載體序列的區域、可能使用的克隆載體都有哪些。一、步驟:
打開google 首頁,搜索VecScreen,進入VecScreen首頁,復制序列,運行,View report。
二、結果:
輸出序列長度918bp,
載體序列的區域456bp——854bp.
克隆載體:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相應工具,分析下列未知序列的重復序列情況,輸出重復序列的區域、包含的所有重復序列的類型、重復序列的總長度及Masked Sequence。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的。
進入google首頁,搜索RepeatMasker,進入RepeatMasker主頁,進入RepeatMasking,復制序列,DNA source選擇human,運行!點擊超鏈接,在結果中選擇
Annotation File :RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,輸出CpG島的長度、區域、GC數量、所佔的百分比及Obs/Exp值。一、步驟:
進入google首頁,搜索CpGPlot,進入CpGPlot主頁,program中選擇cpgreport復制序列,運行!
二、結果:

CpG島的長度:385bp
區域:48——432;
GC數量:Sum C+G=297,百分數=77.14
Obs/Exp:1.01
4、預測下面序列的啟動子,輸出可能的啟動子序列及相應的位置。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的
進入google首頁,搜索Neural Network Promoter Prediction,進入主頁,復制序列,選擇eukaryote,運行!
二、結果:

位置:711—761 ,1388—1438,1755—1805;
5、運用Splice Site Prediction工具分析下面序列,分別輸出內含子-外顯子剪接位點給體和受體的區域及剪接處位置的鹼基。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的
進入google首頁,搜索Splice Site Prediction,進入主頁,復制序列。Organism選擇Human or other。其他默認,運行!
二、結果:
供體:

受體:
6、對下面序列進行六框翻譯,利用GENESCAN綜合分析(首先確定給定序列的物種來源)哪個ORF是正確的,輸出六框翻譯(抓圖)和GENESCAN結果(包括predicted genes/exons 和 predicted peptide sequence(s) 兩個部分)。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是Zea的
進入google首頁;搜索NCBI,進入主頁,選擇all resources(A~Z),選擇O,選擇ORF finder。復制序列,默認,運行!
二、結果:ORF圖
三、步驟:進入google首頁,搜索GENESCAN,進入主頁,Organism:Maize, ,其他默認,運行!
四、結果:
G7、進入REBASE限制性內切酶資料庫,輸出AluI、MboI、EcoI三種內酶的Recognition Sequence和Type。
一、步驟:進入google首頁,google in English,搜索REBASE,進入主頁, 分別輸入AluI、MboI、EcoI,運行!
在MboI中選擇第一個,EcoI選擇第二個。
二、結果:
ENSCAN圖
8、使用引物設計工具,針對下列未知序列設計一對引物,要求引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃。請寫出選擇的一對引物(Forward Primer and Reverse Primer)、及相應的GC含量、引物的位點、Tm值和產物長度。一、步驟:進入google首頁,搜索genefisher,進入主頁,復制fasta格式,chechk input, sunmit, ; ;設置一下引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃; 。
二、結果:

GC含量:

引物的位點:

Tm值:

產物長度:。

9、將下面的序列用NEBcutter 2.0工具分析,用產生平末端及有四個酶切位點的酶進行酶切,並用抓圖提交膠圖(view gel),要求1.4% agarose和Marker為100bp DNA Ladder。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST,得知是linear。
進入google首頁,搜索NEBcutter 2.0,進入主頁,選擇linear,運行!選擇custom digest, ,把「1」改為「4」,選擇平末端,後digest。View gel。選擇1.4% agarose和Marker為100bp。
二、結果:

然後就是蛋白質的了一般都在expasy里swiss-prot 適用於檢索的 compute pi/mw 求理論分子量 分子量 protparam物理化學性質 protscale親水性疏水性 peptidemass分析蛋白酶和化學試劑處理後的內切產物
NCBI(www.ncbi.nlm.nih.gov)-GenBank資料庫

資料庫相似性搜索——核酸序列與核酸資料庫比較(BLASTN)
蛋白質序列與資料庫中蛋白質序列比較(BLASTP)
兩序列比對(Align two sequences)

DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)

分析實驗序列外顯子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析實驗序列的可能酶切位點——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
註: Custom digest -- view gel

限制性內切酶資料庫——REBASE(http://rebase.neb.com/rebase/rebase.html)

設計引物擴增實驗序列——Genefisher
Primer 3

蛋白質序列分析及結構預測:
1.預測蛋白質的分子量及等電點:ExPASy(Compute pI/Mw)
2.分析蛋白質的基本物理化學性質:ExPASy(ProtParam)
3.分析蛋白質的親水性和疏水性:ExPASy(ProtScale)
4.分析蛋白質在各種蛋白酶和各種化學試劑處理後的內切產物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白質的信號肽:ExPASy(SignalP)
6.預測蛋白質的二級結構:ExPASy(Jpred 3)

多物種分子系統發育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W

人脂聯素蛋白質序列:NP_004788
人類胰島素生長因子IB前體:P05019

『陸』 生物信息學常用的軟體有哪些

NCBI(www.ncbi.nlm.nih.gov)-GenBank資料庫

資料庫相似性搜索——核酸序列與核酸資料庫比較(BLASTN)
蛋白質序列與資料庫中蛋白質序列比較(BLASTP)
兩序列比對(Align two sequences)

DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)

分析實驗序列外顯子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析實驗序列的可能酶切位點——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
註: Custom digest -- view gel

限制性內切酶資料庫——REBASE(http://rebase.neb.com/rebase/rebase.html)

設計引物擴增實驗序列——Genefisher
Primer 3

蛋白質序列分析及結構預測:
1.預測蛋白質的分子量及等電點:ExPASy(Compute pI/Mw)
2.分析蛋白質的基本物理化學性質:ExPASy(ProtParam)
3.分析蛋白質的親水性和疏水性:ExPASy(ProtScale)
4.分析蛋白質在各種蛋白酶和各種化學試劑處理後的內切產物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白質的信號肽:ExPASy(SignalP)
6.預測蛋白質的二級結構:ExPASy(Jpred 3)

多物種分子系統發育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W

人脂聯素蛋白質序列:NP_004788
人類胰島素生長因子IB前體:P05019

『柒』 知道ORF finder的網址嗎

NCBI(www.ncbi.nlm.nih.gov)-GenBank資料庫

資料庫相似性搜索——核酸序列與核酸資料庫比較(BLASTN)
蛋白質序列與資料庫中蛋白質序列比較(BLASTP)
兩序列比對(Align two sequences)

DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)

分析實驗序列外顯子部分——GENSCAN(http://genscanw.biosino.org)
分析實驗序列的可能酶切位點——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
註: Custom digest -- view gel

限制性內切酶資料庫——REBASE(http://rebase.neb.com/rebase/rebase.html)

設計引物擴增實驗序列——Genefisher
Primer 3

蛋白質序列分析及結構預測:
1.預測蛋白質的分子量及等電點:ExPASy(Compute pI/Mw)
2.分析蛋白質的基本物理化學性質:ExPASy(ProtParam)
3.分析蛋白質的親水性和疏水性:ExPASy(ProtScale)
4.分析蛋白質在各種蛋白酶和各種化學試劑處理後的內切產物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白質的信號肽:ExPASy(SignalP)
6.預測蛋白質的二級結構:ExPASy(Jpred 3)

多物種分子系統發育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W

人脂聯素蛋白質序列:NP_004788
人類胰島素生長因子IB前體:P05019

『捌』 生物信息學的常用縮寫都有哪些

DNA序列分析——ORF Finder
NCBI(www.ncbi.nlm.nih.gov)-GenBank資料庫
資料庫相似性搜索——核酸序列與核酸資料庫比較(BLASTN)
蛋白質序列與資料庫中蛋白質序列比較(BLASTP)
基因組資料庫:英國ArkDB、美國GDB和TDB、歐洲EMBL、AceDB(線蟲資料庫)、SGD(酵母資料庫)、核酸序列資料庫GenBank
蛋白質結構資料庫:PDB

『玖』 有哪些信息可用以發現基因

1最長ORFs法 對於任何給定的核酸序列(單鏈DNA或mRNA),根據密碼子的起始位置,可以按照三種方式進行解釋。可以用最長ORFs法識別原核基因。
2基於密碼子出現頻率的預測方法
3同源性方法
同源性方法(或稱資料庫相似性搜索法)根據具有相同起源的序列在鹼基組成上具有相似性的特點來識別未知的編碼序列,主要是通過資料庫相似性搜索法來實現的。通過資料庫搜索,發現相似序列或者同源序列,根據相似序列具有相似結構及相似功能的原理,得到待分析序列的初步信息,指導詳細的序列分析。
4神經網路方法
目前,廣泛應用的一些神經網路模型包括感知器(perceptron)模型、反向傳播網路(back-propagation network,BP)模型、自組織特徵映射(self-organizing map,SOM)模型、回歸網路(recurrent network)模型和混合網路模型等。
5隱馬爾柯夫模型法
目前,基因識別的HMM方法也大致可以分為兩類,一類為按照內容搜索的方法,另一類為按照信號搜索的方法。
6 模式判別分析法
模式判別分析(Pattern discrimination analysis)是一種統計方法,主要根據觀察到的一個或多個序列模式來對序列進行分類。
7 基於動態變化的基因結構預測方法
8 基於剪切比對(Spliced alignment)的基因識別
這種方法的基本思想是利用資料庫中的同源信息進行基因識別,包括DNA、RNA和蛋白質資料庫。
9 其它基因識別方法
基於規則的識別方法,語義學的方法,決策樹方法等。