當前位置:首頁 » 數據倉庫 » 增強子預測資料庫
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

增強子預測資料庫

發布時間: 2022-05-23 17:03:55

Ⅰ 深度學習給生物學帶來了哪些改變

深度學習研究及其在生物醫葯領域的潛在應用
深度學習已經在各種生物學應用中取得成功。在本節中,我們回顧了在各個研究領域進行深度學習的挑戰和機會,並在可能的情況下回顧將深度學習應用於這些問題的研究(表1)。我們首先回顧了生物標志物開發的重要領域,包括基因組學,轉錄組學,蛋白質組學,結構生物學和化學。然後,我們回顧一下葯物發現和再利用的前景,包括使用多平台數據。
生物標志物。生物醫學的一個重要任務是將生物學數據轉化為反映表型和物理狀態(如疾病)的有效生物標志物。生物標志物對於評估臨床試驗結果[18]以及檢測和監測疾病,特別是像癌症這樣的異質性疾病,是至關重要的[19,20]。識別敏感特異性生物標志物對於現代轉化醫學來說是一個巨大的挑戰[21,22]。計算生物學是生物標志物發展。事實上,從基因組學到蛋白質組學都可以使用任何數據來源;這些在下一節中討論。
基因組學。新一代測序(NGS)技術已經允許生產大量的基因組數據。這些數據的大部分分析都可以用現代計算方法在計算機上進行。這包括基因組的結構注釋(包括非編碼調控序列,蛋白質結合位點預測和剪接位點)。
基因組學的一個重要分支是宏基因組學,也被稱為環境,生態基因組學或社區基因組學。NGS技術揭示了未經培育且以前沒有得到充分研究的微生物的自然多樣性。
宏基因組學中有幾個生物信息學挑戰。一個主要挑戰是序列數據的功能分析和物種多樣性的分析。深信念網路和經常性神經網路的使用已經允許通過表型分類宏基因組學pH數據和人類微生物組數據。 與基線方法相比,這些方法並沒有提高分類准確性作為強化學習,但確實提供了學習數據集的分層表示的能力.[23]但是,Ditzler等強調DNN可以改善現有的宏基因組學分類演算法,特別是在大數據集和適當選擇網路參數的情況下。
表1. 深度學習技術應用於不同類型生物醫學數據的總結

應用

數據源

研究目的

DL技術

准確率

利用深度學習增強癌症診斷和分類[28]

13種不同的癌症基因表達數據集(13 different gene expression data sets of cancers)

癌症檢測,癌症類型分類

稀疏和堆棧自動編碼器+ Softmax回歸

對於每個數據集的准確度都比基準更好

深度學習組織調節拼接代碼[32](Deep Learning of the Tissue-Regulated Splicing Code)

從RNA-Seq數據分析11 019個小鼠替代外顯子(11 019 mouse alternative exons profiled from RNA-Seq data)

拼接模式識別

自動編碼器+ DNN(3層)+薄荷(超參數選擇)

AUC優於基線准確度

深卷積神經網路注釋基因表達模式的小鼠腦[30]

由Allen Institute for Brain Science的小鼠腦的四個發育階段的ISH圖像

基因表達注釋

CNN(Overfeat)

AUC=0.894

多模式深度學習方法的多平台癌症數據的綜合數據分析[52]

卵巢癌和乳腺癌數據集(ovarian and breast cancer data sets)

聚集癌症患者

DBNs

lncRNA-MFDL:通過融合多個特徵和使用深度學習鑒定人類長的非編碼RNA[34]

Gencode和RefSeq的蛋白質編碼和非編碼序列(protein-coding and noncoding sequences from Gencode and RefSeq)

鑒定長的非編碼RNA

lncRNA-MFDL(深層堆疊網路,每個單元DNN)

ACC = 97.1%

用於宏基因組分類的多層和遞歸神經網路[23]

pH微生物組測序數據集和人微生物組測序數據集(pH microbiome sequencing data set and human microbiome sequencing data set)

宏基因組分類

MLP, DBN, RNN

comparison

Multi-Level Gene/MiRNA Feature Selection using Deep Belief Nets and Active Learning[27]

來自6種癌症的MiRNA表達數據(MiRNA expression data from 6 type of cancers)

Gene/MiRNA特徵選擇(基因表達)

MLFS(DBN +特徵選擇+無監督主動學習)(MLFS (DBN + feature selection + unsupervised active learning))

F1 = 84.7%

成對輸入神經網路用於目標配體相互作用預測[45]

sc-PDB資料庫(sc-pdb:用於鑒定蛋白質中「可葯用」結合位點的變化和多樣性的資料庫)

蛋白質 - 配體預測

PINN (SVD + Autoencoder/RBM)

AUC = 0.959

非編碼變數與深度學習序列模型的預測效應[49]

來自ENCODE和Roadmap Epigenomics項目的160種不同TF,125種DHS譜和104種組蛋白標記譜的690 TF結合譜

從序列中預測非編碼變異效應

DeepSEA (CNN)

AUC = 0.923 (histone)

通過深度學習預測DNA和RNA結合蛋白的序列特異性[48]

506 ChIP-seq實驗,DREAM5 TF-DNA基序識別挑戰

DNA和RNA結合蛋白的特異性分類

DeepBind(CNN)

train, AUC = 0.85; validation,
AUC > 0.7

具有雙模深信道網路的蜂窩信號系統的跨物種學習[36]

來自SBV IMPROVER挑戰的磷酸化蛋白質組學數據

跨物種學習(模擬細胞信號系統)

bDBN (bimodal DBN) and
sbDBN (semirestricted bimodal
DBN)

AUC = 0.93

表達數量性狀基因(eQTL)的鑒定與闡明及其調控機制的深入研究[35]

GEUVADIS(來自從參與1000基因組項目的個體中提取的337個淋巴母細胞系的選擇的RNA-Seq和全基因組范圍的SNP-陣列數據的組合)

確定eQTL

MASSQTL(DNN)

AUC = 0.85

建立RNA結合蛋白靶點結構特徵的深度學習框架[43]

源自doRiNA的24個數據集(轉錄後調節中的RNA相互作用資料庫)

預測RNA結合蛋白的結合位點(RBP靶標識別)

DBN(多模式DBN)

AUC = 0.983 on PTB HITS-CL

DeepCNF-D:通過加權深度卷積神經場預測蛋白質有序/無序區域[42]

來自CASP的CASP9, CASP10數據集(蛋白質結構預測的關鍵評估)

預測蛋白質有序/無序區域

DeepCNF (CRF + CNN)

AUC = 0.855 on CASP9
AUC = 0.898 on CASP10

用深度神經網路分割微陣列[29]

兩個數據集,來自2006年Lehmussola等人的微陣列圖像

微陣列分割

CNN

MAE = 0.25

深度學習葯物引起的肝損傷[46]

四個數據集,化合物,化學結構注釋DILI陽性或DILI陰性(four data sets, compounds, chemical structure annotated DILI-positive or DILI-negative properties)

葯物性肝損傷預測

RNN(遞歸神經網路)

AUC = 0.955

從頭算蛋白質二級結構預測的深度學習網路方法[38]

訓練,Protein Data Bank; 驗證,CASP9,CASP10(蛋白質結構預測的關鍵評估)

從頭算蛋白質二級結構預測

DNSS(多模RBM)

Q3 = 90.7%, Sov = 74.2%

蛋白質接觸圖預測的深層架構[39]

ASTRAL database

蛋白質接觸圖預測

RNN + DNN

ACC ∼ 30%

用深機器學習網路建模葯物樣分子的環氧化作用[47]

Accelrys代謝物資料庫(AMD):389個環氧化分子,811個非氧化分子(Accelrys Metabolite Database (AMD): 389 epoxidized molecules, 811 nonepoxidized molecules)

建模分子的環氧化性質

CNN

AUC better than baseline accuracy

DNdisorder:使用增強和深度網路預測蛋白質紊亂[41]

DISORDER723, CASP9, CASP10

預測蛋白質有序/無序區域

RBM

AUC better than baseline
accuracy

Basset:用深度卷積神經網路學習可訪問基因組的規則代碼[50]

來自ENCODE和Epigenomics Roadmap項目的164個細胞類型的DNasel-seq數據

學習DNA序列的功能活動

CNN

AUC = 0.892

a首字母縮寫詞:CNN=卷積神經網路,DNN=深度神經網路,RNN=遞歸神經網路,DBN=深信念網路,RBM=限制玻爾茲曼機器,MLP=多層感知器,MLFS=多級特徵選擇,PINN= 網路,CRF=條件隨機場。

轉錄。轉錄組學分析利用各種類型轉錄物(信使RNA(mRNA),長非編碼RNA(lncRNA),微小RNA(miRNA)等)豐度的變化來收集各種功能信息,從剪接代碼到各種疾病的生物標志物。
轉錄組學數據通常從不同類型的平台(各種微陣列平台,測序平台)獲得,其不同之處在於測量的基因組和信號檢測方法。許多因素導致基因表達數據的變異性。因此,即使對於單個平台分析也需要標准化。 跨平台分析需要規范化技術,這可能是一個重大挑戰。由於DNN具有較高的泛化能力,因此特別適合於跨平台分析。他們也能很好地處理基因表達數據的其他一些主要問題,比如數據集的大小以及對降維和選擇性/不變性的需求,下面我們將回顧幾個已經使用的DNN 用不同類型的基因表達數據來獲得不同程度的成功。
表格數據應用程序。基因表達數據可以表示的一種方式是作為矩陣的表格形式,其包含關於轉錄物表達的定量信息。這些數據是高維度的,由於數據中的信噪比損失,使得統計分析成為問題。[25]
高維數據可以通過兩種方式處理:
I. 降維:
A.特徵提取,例如用SVM或隨機森林演算法;
B.特徵子集選擇;
C.途徑分析;
II. 使用對高維度較不敏感的方法,如隨機森林或深層信念網路。
諸如主成分分析(PCA),奇異值分解,獨立分量分析或非負矩陣分解等方法是常見的前沿方法。然而,上述方法將數據轉換成許多難以用生物學解釋的組件。此外,這種降維方法基於基因表達譜提取特徵而不管基因之間的相互作用。通路分析可以減少變數的數量,減少錯誤率並保留更多的生物相關信息。[25,26]
深度學習在處理高維基質轉錄組學數據方面也取得了一些成功。在另一種方法中,將基因表達的特徵與非編碼轉錄物如miRNA的區域一起提取; 這是通過使用深度信念網路和主動學習來實現的,其中使用了深度學習特徵提取器來減少六個癌症數據集的維度,並且勝過了基本特徵選擇方法[27]。主動學習與分類的應用提高了准確性,並且允許選擇與癌症相關的特徵(改進的癌症分類),而不僅僅基於基因表達譜。使用miRNA數據的特徵選擇是使用與先前選擇的特徵子集的目標基因的關系實施的。
在另一個深度學習應用中,Fakoor等人利用自編碼器網路進行推廣,並將其應用於使用從具有不同基因集合的不同類型的微陣列平台(Affimetrix家族)獲得的微陣列基因表達數據的癌症分類[28]。他們通過PCA和非監督非線性稀疏特徵學習(通過自動編碼器)結合使用降維來構建用於微陣列數據的一般分類的特徵。癌症和非癌細胞分類的結果顯示出了重要的改進,特別是使用監督微調,這使得特徵不那麼通用,但即使對於沒有跨平台標准化的數據也能獲得更高的分類准確性。自動編碼器的全球泛化能力有助於使用不同微陣列技術收集的數據,因此可能對來自公共領域的數據進行大規模綜合分析有前途。
圖像處理應用。基因表達也可以以可視形式存儲為圖像,例如來自微陣列的圖像熒光信號或RNA原位雜交熒光或放射性信號。 在一些應用中,以圖像處理性能優越著稱的CNN已經顯示出改善這些圖像分析的潛力。
在微陣列分析中,由於斑點大小,形狀,位置或信號強度的變化,檢測信號和識別熒光斑點可能是具有挑戰性的,並且熒光信號強度通常對應於基因或序列表達水平差。在對這個問題的深度學習技術的一個應用中,CNN被用於微陣列圖像分割,並且在准確性方面顯示出類似於基準方法的准確度的結果,但是訓練更簡單並且對計算源的要求更少。[29]
將CNN應用於基於圖像的基因表達數據的另一個機會是RNA原位雜交,這是一種繁瑣的技術,當允許這樣的操作時,能夠使基因表達在一組細胞,組織切片或整個生物體中定位和可視化。這種方法促進強大的縱向研究,說明發展過程中的表達模式的變化。它被用於構建詳細的Allen DevelopmentMouse Brain Atlas,其中包含超過2000個基因的表達圖譜,每個基因在多個腦部分中進行說明。過去,這些手動標注是耗時的,昂貴的,有時也是不準確的。然而,最近,Zeng等人使用深度預訓練CNN進行自動注釋[30]。要做到這一點,神經網路模型訓練原始自然原位雜交圖像的不同層次的發展中國家的大腦沒有關於坐標(空間信息)的確切信息;這種技術在四個發展階段的多個大腦水平上實現了卓越的准確性。
剪接。深度學習的另一個應用領域是剪接。剪接是在真核生物中提供蛋白質生物多樣性的主要因素之一;此外,最近的研究顯示「拼接代碼」與各種疾病之間的聯系[31]。然而,現代科學仍然不能全面地理解控制剪接調控的機制。剪接調節的現代概念包括轉錄水平,特定信號調節序列元件(剪接增強子或沉默子)的存在,剪接位點的結構和剪接因子的狀態(例如特定位點的磷酸化可能改變剪接因子活性)。所有這些因素使分析變得復雜,因為它們之間存在大量元素和復雜的非線性相互作用。現有的拼接預測軟體需要高通量測序數據作為輸入,並且面臨著原始讀取比常規基因短的問題,以及基因組中假性基因的高重復水平和存在。因此,拼接機制的分析演算法很慢,需要高度的組合計算來源,深度學習可能會在這方面提供改進。在使用五個組織特異性RNA-seq數據集的一個深度學習應用中,使用隱變數來開發DNN以用於基因組序列和組織類型中的特徵,並且被證明優於貝葉斯方法預測個體內和組織間的組織剪接外顯子拼接的轉錄本百分比的變化(拼接代碼度量)[32]。
非編碼RNA。非編碼RNA是生物學中的另一個問題,需要復雜的計算方法,如深度學習。非編碼RNAs非常重要,涉及轉錄,翻譯和表觀遺傳學的調控[33],但是它們仍然難以與編碼蛋白質的RNA區分開來。對於短的非編碼RNA,這個任務已經很好地解決了,但是對於lncRNA來說這是相當具有挑戰性的。lncRNAs組成異構類,可能含有推定的復制起點(ORF),短的蛋白質樣序列。開發了一種新的深層次的學習方法,稱為lncRNAMFDL,用於鑒定lnc-RNAs,使用ORF,k相鄰鹼基,二級結構和預測的編碼結構域序列等多種特徵的組合[34]。該方法使用從Gencode(lncRNA)和Refseq(蛋白質編碼mRNA數據)的序列數據中提取的五個單獨特徵,並且在人類數據集中導致97.1%的預測准確性。
表達量性狀基因座分析。最後,數量性狀基因座(QTL)分析有潛力進行深入的學習。 QTL分析鑒定含有多態性的遺傳基因座,所述多態性導致復雜的多基因性狀(例如,體重,葯物反應,免疫應答)的表型變異。顯示遺傳變異的一個這樣的「性狀」是給定組織和/或條件中任何給定基因的表達或轉錄本豐度。表達QTL(eQTL)是影響轉錄本豐度的遺傳變異的基因座。 eQTL分析已經導致了對人類基因表達調控的洞察力,但面臨著許多挑戰。在局部調節表達的eQTL(順式-eQTL)相對容易用有限數量的統計測試來鑒定,但是調節基因組中其它位置的基因表達的位點(trans-eQTL)更難以檢測到。最近,為了解決使用各種編碼的生物特徵(諸如物理蛋白質相互作用網路,基因注釋,進化保守,局部序列信息以及來自ENCODE項目的不同功能元件)的反式eQTL預測問題的深度學習方法MASSQTL[35]被提出。DNN利用來自其各自交叉驗證折疊的9個DNN模型,優於其他機器學習模型,並且提供了對基因表達的調控架構的基礎的新機制。深解碼系統也被用來對trans-eQTL特徵向量進行聚類,然後通過t-SNE降維技術進行可視化。
蛋白質組學。與轉錄組學相比,蛋白質組學是一個相當欠發達的研究領域,數據依然稀少,用於分析的計算方法較少。即使有相似的信號編碼和傳輸機制,人類蛋白質組學數據的缺乏以及將模型生物體結果轉化為人類的困難也使分析變得復雜。
深度學習可以以多種方式使蛋白質組學受益,因為一些方法不需要像其他機器學習演算法那樣的大量培訓案例。深度學習方法的其他優點是他們建立數據的分層表示,並從復雜的相互作用中學習一般特徵,從而有利於蛋白質的蛋白質組學和網路分析。例如,使用磷酸化數據,雙峰深信念網路已被用於預測大鼠細胞對相同刺激的刺激的細胞反應[36]。與傳統的管線相比,開發的演算法獲得了相當的准確性。
結構生物學和化學。結構生物學包括蛋白質折疊分析,蛋白質動力學,分子建模和葯物設計。二級和三級結構是蛋白質和RNA分子的重要特徵。對於蛋白質,適當的結構測定對於酶功能預測,催化中心和底物結合的形成,免疫功能(抗原結合),轉錄因子(DNA結合)和轉錄後修飾(RNA結合)是重要的。喪失適當的結構會導致功能喪失,並且在某些情況下會導致可能導致神經退行性疾病(如阿爾茨海默病或帕金森病)的異常蛋白質的聚集。[37]
基於復合同源性的比較建模是預測蛋白質二級結構的一種可能方式,但是受現有注釋良好的化合物的量限制。另一方面,機器學習從頭預測是基於公認的具有公知結構的化合物的模式,但是還不夠精確以至於不能實際使用。從頭開始使用深度學習方法通過使用蛋白質測序數據改進了結構預測[38]。同樣,深度學習已經被應用於使用ASTRAL資料庫數據和復雜的三階段方法來預測二級結構元素和氨基酸殘基之間的接觸和取向[39]。所使用的方法是分析偏倚和高度可變數據的有效工具。
三維結構的不變性在功能上也是重要的。然而,有幾種蛋白質沒有獨特的結構參與基本的生物過程,如細胞周期的控制,基因表達的調控,分子信號傳遞。此外,最近的研究顯示一些無序蛋白質的顯著性[37]; 許多癌基因蛋白具有非結構域,並且錯誤折疊蛋白的異常聚集導致疾病發展[40]。這種沒有固定三維結構的蛋白被稱為固有無序蛋白(IDP),而沒有恆定結構的結構域被稱為固有無序區(IDR)。
許多參數將IDP / IDR與結構化蛋白質區分開來,從而使預測過程具有挑戰性。這個問題可以使用深度學習演算法來解決,這些演算法能夠考慮各種各樣的特徵。2013年,Eickholt和Cheng發表了一個基於序列的深度學習預測指標DNdisorder,與先進的預測指標相比,改進了對無序蛋白質的預測[41]。後來在2015年,Wang等人提出了一種新的方法,DeepCNF,使用來自蛋白質結構預測的臨界評估(CASP9和CASP10)的實驗數據,能夠准確預測多個參數,如IDPs或具有IDR的蛋白質。DeepCNF演算法通過利用眾多特徵,比基線單從頭(從頭算)預測指標執行得更好[42]。
另一類重要的蛋白質是結合單鏈或雙鏈RNA的RNA結合蛋白。 這些蛋白質參與RNA的各種轉錄後修飾:剪接,編輯,翻譯調控(蛋白質合成)和聚腺苷酸化。RNA分子形成不同類型的臂和環,需要識別和形成RNA和蛋白質之間連接的二級和三級結構。RNA的二級和三級結構是可預測的,並且已經被用於建模結構偏好偏好和通過應用深度信念網路預測RBP的結合位點[43]。深度學習框架在真正的CLIP-seq(交聯免疫沉澱高通量測序)數據集上進行了驗證,以顯示從原始序列和結構分布中提取隱藏特徵的能力,並准確預測RBP的位點。
葯物發現和再利用。計算葯物生物學和生物化學廣泛應用於葯物發現,開發和再利用的幾乎每個階段。過去數十年來,不同的研究團體和公司在全球范圍內開發了大量用於計算機模擬葯物發現和目標延伸的計算方法,以減少時間和資源消耗。雖然存在許多方法[44],但是還沒有一個是最優的(例如,無法執行通量篩選或者通過蛋白質類別進行限制),現在一些研究表明深度學習是一個重要的考慮方法(表1)。
葯物發現的重要任務之一就是預測葯物靶點的相互作用。 靶標(蛋白質)通常具有一個或多個與底物或調節分子的結合位點; 這些可以用於建立預測模型。 然而,包括其他蛋白質的成分可能會給分析帶來偏見。成對輸入神經網路(PINN)接受具有從蛋白質序列和靶分布獲得的特徵的兩個載體的能力被Wang等人用來計算靶標-配體相互作用[45]。神經網路的這種優勢比其他代表性的靶標-配體相互作用預測方法有更好的准確性。
葯物發現和評估是昂貴,耗時且具有風險; 計算方法和各種預測演算法可以幫助降低風險並節省資源。一個潛在的風險是毒性; 例如,肝毒性(肝毒性)是從生產中去除葯物的常見原因。用計算方法預測肝毒性可能有助於避免可能的肝毒性葯物。使用深度學習,可以有效地確定原始化學結構的化合物毒性,而不需要復雜的編碼過程[46]。使用CNN也可以預測諸如環氧化的性質,這意味著高反應性和可能的毒性; 這是休斯等人首次實施的。通過使用環氧化分子和氫氧化物分子的簡化分子輸入線入口規格(SMILES)格式數據作為陰性對照[47]。
多平台數據(Multiomics)。使用多平台數據的能力是深度學習演算法的主要優勢。 由於生物系統復雜,具有多個相互關聯的元素,基因組學,表觀基因組學和轉錄組學數據的系統級整合是提取最有效且有生物學意義的結果的關鍵。整合過程在計算上不是微不足道的,但收益是生物標志物特異性和靈敏度比單一來源方法的增加。
計算生物學中需要分析組合數據的主要領域之一是計算表觀遺傳學。有聯合分析基因組,轉錄組,甲基化組特徵和組蛋白修飾提供了准確的表觀基因組預測。
一些研究人員已經開發出深度學習方法,可用於分析來自多個來源的數據(表1)。Alipanahi等人開發了基於深度學習的方法DeepBind(tools.genes.toronto.e/deepbind/),以在各種疾病中計算核苷酸序列結合轉錄因子和RNA結合蛋白的能力,並表徵單點突變對結合特性的影響。DeepBind軟體受CNN啟發,對技術不敏感; 相反,它與從微陣列到序列的定性不同形式的數據是相容的。CPU的實現也允許用戶並行化計算過程[48]。在另一個基於CNN的應用程序中,Zhou和Troyanskaya設計了DeepSEA框架來預測染色質特徵和疾病相關序列變異的評估。與其他計算方法不同,他們的演算法能夠捕獲每個結合位點的大規模上下文序列信息,用於注釋從頭序列變異體[49]。開發了類似的CNN管線,揭示了序列變異對染色質調控的影響,並對DNase-seq(DNase I測序)數據進行了培訓和測試[50]。一種名為Bassed的深度學習軟體優於基線方法,並且在所有數據集上達到平均AUC0.892。最後,隨著深層特徵選擇模型的發展,深度學習被用於識別主動增強器和促進器,該模型利用了DNN對復雜非線性相互作用進行建模的能力,並學習了高層次的廣義特徵[51]。模型從多平台數據中選擇特徵,並按照重要性進行排序。在這些應用中,深度學習方法是染色質性質的更敏感和更有力的預測因子,也是復雜生物標志物發展的關鍵。
癌症是一組異質性疾病的廣泛名稱,其中一些是由基因突變引起的,因此使用多平台數據的癌症分類可以揭示潛在的病理學。Liang等人開發了一個具有多平台數據的深層信念網路模型,用於癌症患者的聚類[52]。使用受限玻爾茲曼機對每種輸入模式定義的特徵進行編碼。這種方法的一個優點是深層信念網路不需要具有正態分布的數據,因為其他聚類演算法和遺傳(生物)數據不是正態分布的。
最後,從自然語言處理的角度來看,深度學習在通過巨大的非結構化(研究出版物和專利)和結構化數據(知識注釋圖,如基因本體論[53]或Chembl[54])瀏覽時,通過檢驗假設的合理性。這些資料庫一起形成了一個龐大的,多平台的數據集,如果結合起來,這些數據集將更加豐富和全面。
總之,現代生物數據的龐大規模,對於以人為本的分析來說太龐大而復雜。 機器學習,特別是深度學習與人類專業知識相結合,是將多個大型多平台資料庫完全集成的唯一途徑。 深度學習使人類能夠做到以前無法想像的事情:具有數百萬輸入的圖像識別,語音識別以及接近人類能力的語音自動化。 雖然深度學習和特別是無監督的深度學習仍處於起步階段,特別是在生物學應用方面,但最初的研究支持它作為一種有希望的方法,盡管在實施中不受限制和挑戰,但可以克服生物學數據的一些問題, 對數百萬間接和相互關聯的疾病機制和途徑的新見解。

Ⅱ 關於論文前言

我是復制的,希望對樓主能有所幫助

※ Multiplexing:一種同時採用多種樣品的測序方法,能夠大大提高測序速度。
※ 突變(Mutation):DNA序列上任一種可以被遺傳的變易。
※ 核苷酸(Nucleotide):DNA和RNA的基本組成部分,通常包含一分子核糖,一分子磷酸和一分子鹼基。多個核苷酸通過磷酸二酯鍵連接成一條鏈狀。
※ 細胞核(Nucleos):真核細胞中的一種細胞器,內含遺傳物質。
癌基因(Oncogene):一種能夠導致癌症的基因。許多致癌基因都直接或間接地控制細胞的成長速度。
※ 噬菌體(phage):一種以細菌為宿主細胞的病毒。
※ 物理圖譜(Physics Map):物理圖譜描繪DNA上可以識別的標記的位置和相互之間的距離(以鹼基對的數目為衡量單位),這些可以識別的標記包括限制性內切酶的酶切位點,基因等。物理圖譜不考慮兩個標記共同遺傳的概率等信息。對於人類基因組來說,最粗的物理圖譜是染色體的條帶染色模式,最精細的圖譜是測出DNA的完整鹼基序列。
※ 質粒(Plasmid):質粒是細菌的染色體外能夠自我復制的環狀DNA分子。它能夠和細胞核中的染色體明顯地區別開來,而且並不是細胞生存的必要物質。一些質粒適宜於引入到宿主細胞中去,並利用宿主細胞的DNA大量繁殖,因此我們常常採用質粒作為外源DNA的載體,外源DNA藉助於質粒在宿主細胞中大量繁殖。
※ 多基因病(Polygenic Disorder):有多個基因位點共同決定的遺傳病(如心臟病、糖尿病、一些癌症等)。這類疾病的遺傳由多個基因位點共同控制,因而比單基因病的遺傳更為復雜。
※ 多聚酶鏈式反應(PCR):一種體外擴增DNA的方法。PCR使用一種耐熱的多聚酶,以及兩個含有20個鹼基的單鏈引物。經過高溫變性將模板DNA分離成兩條鏈,低溫退火使得引物和一條模板單鏈結合,然後是中溫延伸,反應液的游離核苷酸緊接著引物從5『端到3』端合成一條互補的新鏈。而新合成的DNA又可以繼續進行上述循環,因此DNA的數目不斷倍增。
※ 多聚酶(Polymerase):多聚酶具有催化作用,能夠加快游離的核苷酸和DNA模板結合形成新鏈的反應速度。
※ 多態性(Polymorphism):多個個體之間DNA的差異稱為多態性。DNA變異概率超過1%的變異,比較適宜作為繪制連接圖譜的證據。
※ 引物(Primer):預先制備的比較短的核苷酸鏈,在新鏈合成過程中作為引物,游離的核苷酸在引物之後按順序和模板上的鹼基結合,形成新鏈。
※ 原核生物(Prokaryote):原核生物沒有細胞膜,結構清晰的核以及其他細胞器。細菌是原核生物。
※ 探針(Probe):是一條DNA單鏈或者一條RNA鏈,具有特定的序列,並且使用放射性元素或者免疫特性物質進行標記。探針和克隆庫中的某條互補片段結合成一條雙鏈結構,我們可以藉助於探針的檢測來獲知與其互補的鏈的位置。
※ 啟動子(Promoter):DNA上的一個特定位點,RNA聚合酶在此和DNA結合,並由此開始轉錄過程。
※ 蛋白質(Protein):一種由一條或者多條肽鏈構成的大分子。每條肽鏈上核苷酸的順序是由基因外顯子部分的鹼基序列決定的。蛋白質是細胞、組織和器官的重要組成部分,每種蛋白質都具有特定的功能。酶、抗體和激素等都是蛋白質。
※ 嘌呤(Purine):一種含氮的單環結構物。是核苷酸的重要組成部分,有腺嘌呤A和鳥嘌呤G兩種。
※ 嘧啶(Pyrimidine):一種含氮的雙環結構,是核苷酸的重要組成部分。分為胞嘧啶C,胸腺嘧啶T和尿嘧啶U三種。
※ 重組克隆(Recombinant Clone):將不同來源的DNA片段合成在一個DNA分子中,這種技術稱為重組,得到的分子為重組克隆。
※ DNA重組技術(Recombinant DNA Technology):在細胞體外將兩個DNA片段連接成一個DNA分子的技術。在適宜的條件下,一個重組DNA分子能夠被引入到宿主細胞中並在宿主細胞中大量繁殖。
※ 調控序列(regulatory regions and sequence):一段控制基因表達的DNA片段。
※ 限制性內切酶(Restriction enzyme, endonuclease):這種酶能夠識別出DNA上特定的鹼基序列,並在這個位點將DNA酶切。細菌中有400中限制性內切酶,能夠識別出100中DNA序列。
※ 酶切位點(Restriction Enzyme cutting site):DNA上一段鹼基的特定序列,限制性內切酶能夠識別出這個序列並在此將DNA酶切成兩段。
※ 限制性長度多態性(Restriction fragment length polymorphsm):從不同個體制備的DNA,使用同一種限制性內切酶酶切,切得的片段長度各不相同。酶切片段的長度可以作為物理圖譜或者連接圖譜中的標記子。通常是在酶切位點處發生突變而引發的。
※ 核糖核酸RNA(Ribonucleic acid):從細胞的細胞核和細胞質部分分離出來的化學物質。在蛋白質合成和其他生化反應中起著重要作用,RNA的結構和DNA的結構類似,都是有核苷酸按照一定順序排列成的長鏈。RNA可以分為信使RNA、轉運RNA、核糖體RNA以及其他類型的RNA。
※ 核糖體RNA(Ribonsomal RNA rRNA):存在於核糖體中的RNA。
※ 核糖體(Ribonsome):細胞質中含有rRNA和相關蛋白質的細胞器,是蛋白質的合成場所。
序列位置標簽(Sequence Tagged Site, STS):一段短的DNA序列(200-500個鹼基對),這種序列在染色體上只出現一次,其位置和鹼基順序都是已知的。在PCR反應中可以檢測處STS來,STS適宜於作為人類基因組的一種地標,據此可以判定DNA的方向和特定序列的相對位置。ETS是cDNA上的STS。
※ 性染色體(Sex Chromosome):在人類細胞中是X或者Y染色體,性染色體決定了個體的性別。雌性細胞中含有兩個X染色體,而雄性細胞中含有1個X染色體和1個Y染色體。
※ 鳥槍法(Shotgun method):使用基因組中的隨機產生的片段作為模板進行克隆的方法。
※ 單基因病(Single Gene Disorder):一個基因的等位基因之間發生了突變造成的疾病。
※ 體細胞(Somatic Cells):個體中除了生殖細胞及其母細胞之外的細胞,都是體細胞。
※ 串聯重復序列(Tandem repeat sequences):在染色體上一段序列的多次重復,稱為串聯重復序列。常用來作為物理圖譜中的標記子。
※ 端粒(Telomere):是染色體的末端部分,這一特殊結構區域對於線型染色體的結構和穩定起重要作用。
※ 轉錄(Transcription):以某一DNA鏈為模板,按照鹼基互補原則形成一條新的RNA鏈的過程,是基因表達的第一步。
※ 轉運RNA(tRNA):轉運RNA具有特殊的結構,其一端包含3個特定的核苷酸序列,能和信使RNA上的密碼子按照鹼基配對原則進行結合。另一端則帶有一個氨基酸。因此轉運RNA能夠同細胞質中游離的氨基酸結合並運到核糖體上,核糖體按mRNA上的遺傳信息將氨基酸裝配成蛋白質。
※ 轉化(Transformation):將外源DNA整合到某一細胞基因組中的過程。。
※ 翻譯(Translation):mRNA上攜帶的遺傳信息指導蛋白質的合成過程,稱為翻譯。
※ 病毒(Virus):一種不具備細胞結構的生物體。只能寄生在宿主細胞中才能生存。病毒一般包含核酸以及外殼蛋白,有些動物的病毒的外面也偶爾覆蓋一層細胞膜。病毒進入宿主細胞之後,利用宿主的合成機制復制出大量的後代。。
※ 酵母菌人工合成染色體(Yeast Artificial Chromosome):一種能夠克隆長達400Kb的DNA片段的載體,含有酵母細胞中必需的端粒、著絲點和復制起始序列。
(卜東波、伍樹明翻譯整理)
生物信息名詞
§§§ BLAST (Basic Local Alignment Search Tool),基本的基於局部對準的搜索工具;一種快速查找與給定序列具有連續相同片斷的序列的技術。
§§§ Entrez 美國國家生物技術信息中心所提供的在線資源檢索器。該資源將GenBank序列與其原始文獻出處鏈接在一起。
§§§ NCBI 美國國立生物技術信息中心(National Center for Biotechnology Information),1988年設立,為美國國家醫學圖書館(NLM)和國家健康協會(NIH)下屬部門之一。提供生物醫學領域的信息學服務,如世界三大核酸資料庫之一的GenBank資料庫,PubMed醫學文獻檢索資料庫等。
§§§ Conserved sequence 保守序列。演化過程中基本上不變的DNA中的鹼基序列或蛋白質中的氨基酸序列。
§§§ Domain 功能域。蛋白質中具有某種特定功能的部分,它在序列上未必是連續的。某蛋白質中所有功能域組合其起來決定著該蛋白質的全部功能。
§§§ EBI 歐洲生物信息學研究所(European Bioinformatics Institute)。 The National Center for Biotechnology Information (NCBI) at the NationalLibrary of Medicine (NLM), National Institutes of Health (NIH)
§§§ EMBL 歐洲分子生物學實驗室(uropean Molecular Biology Laboratory)。
§§§ GenBank 由美國國家生物技術信息中心提供的核酸序列資料庫。
§§§ Gene 基因。遺傳的基本的物理和功能單位。一個基因就是位於某條染色體的某個位置上的核苷酸序列,其中蘊含著某種特定功能產物(如蛋白質或RNA分子)的編碼。
§§§ DUST A program for filtering low complexity regions from nucleic acid sequences.
§§§ Gene expression 基因表達。基因中的編碼信息被轉換成行使特定功能的結構產物的過程。
§§§ Gene family 基因家族。一組密切相關的編碼相似產物的基因。
§§§ Gene mapping 基因作圖。對DNA分子(染色體或質粒)中基因的相對位置和距離進行確定的過程。
§§§ Genetic code 遺傳密碼。以三聯體密碼子的形式編碼於mRNA中的核苷酸序列,決定著所合成蛋白質中的氨基酸序列。
Genome 基因組。某一物種的一套完整染色體組中的所有遺傳物質。其大小一般以其鹼基對總數表示。
§§§ Genomics 基因組學。從事基因組的序列測定和表徵描述,以及基因活性與細胞功能關系的研究。
§§§ HGMP 英國劍橋的人類基因組繪圖計劃(Human Genome Mapping Project)。
§§§ Informatics 信息學。研究計算機和統計學技術在信息處理中的應用的學科。在基因組計劃中,信息學的內容包括快速搜索資料庫方法的開發、DNA序列信息分析方法的開發和從DNA序列數據中預測蛋白質序列和結構方法的開發。
§§§ Physical map 物理圖譜。不考慮遺傳,DNA中可識別的界標(如限制性酶切位點和基因等)的位置圖。界標之間的距離用鹼基對度量。對人類基因組而言,最低解析度的物理圖譜是染色體上的條帶圖譜;最高解析度的物理圖譜是染色體中完整的核苷酸序列。
§§§ Promoter 啟動子。DNA中被RNA聚合酶結合並從此起始轉錄的位點。
§§§ Proteome 蛋白質組。一個基因組的全部蛋白產物及其表達情況。
§§§ Regulatory region or sequence 調控區或調控序列。控制基因表達的DNA鹼基序列。
§§§ Ribosomal RNA 核糖體RNA。簡寫為rRNA。是一組存在於核糖體中的RNA分子。
§§§ Sequence tagged site 序列示蹤位點,簡寫為STS。在人類基因組中只出現一次的位置和序列已知的長約200到500bp的短DNA序列片斷。由於可以通過PCR檢測到,STS在將來源於許多不同實驗室的基因圖譜和測序數據進行定位和定向時非常有用,並且STS在人類基因組的物理圖譜中也具有界標的作用。表達的序列標簽(ESTs)就是那些得自cDNAs的STSs。
§§§ Single-gene disorder 單基因病。由單個基因的等位基因的突變所導致的遺傳病(如杜興肌營養不良和成視網膜細胞瘤等)。
§§§ UniGene 美國國家生物技術信息中心提供的公用資料庫,該資料庫將GenBank中屬於同一條基因的所有片斷拼接成完整的基因進行收錄。
§§§ 非蛋白質編碼區(「Junk」DNA)占據了人類基因組的大部分,研究表明「Junk」是許多對生命過程富有活力的不同類型的DNA的復合體,它們至少包括以下類型的DNA成份或由其表達的RNA成分:內含子(intron)、衛星(Satellite)DNA、小衛星(minisatellite)DNA、微衛星(microsatellite)DNA、非均一核RNA(hmRNA)、短散置元(short interspersed elements)、長散置元(long interspersed elements)、偽基因(pseudogenes)等。除此之外,順式調控元件,如啟動子、增強子等也屬於非編碼序列。
雙重序列對比 兩序列間的對比分析。最常見的方法為Needle-Wunsch方法。能夠利用的軟體如BLAST、FASTA等。
§§§ Autosome 常染色體。與性別決定無關的染色體,人雙倍體染色體組含有46條染色體,其中22對常染色體,一對與性別決定有關的性染色體(X和Y染色體)。
sex chromosome. 包括序列(核酸與蛋白)搜索,結構比較,結構預測,蛋白質域,模體(Motif ),測序,發育與進化分析,雙向電泳成像分析,質譜蛋白質鑒定,三維蛋白結構模建與成像,基因組圖譜比較,基因預測,非編碼區功能位點識別,基因組重疊群集裝,後基因組功能分析,結構基因組學以及葯物基因組學等等。
在BLAST2.0,2.05新版中啟用了gapped BLAST、PSI-BLAST 和PHI-BLAST。gapped BLAST是比原BLAST 更靈敏更快的局部相似聯配(俗稱局部同源)搜索法;PSI- BLAST用迭代型的剖面打分演算法,每次迭代所費時間與前者相同,它可檢索弱同源的目標;PHI-BLAST 98年剛出台,是模體(Motif )構造與搜索軟體,是更靈敏的同源搜索軟體。例如線蟲§§§ 的CED4是apoptosis 的調控蛋白,含有涉及磷酸結合的P 環模體,在各種ATP 酶和GTP 酶中可發現。在用gapped BLAST搜索NR資料庫時,CED4僅跟人凋亡調控蛋白Apaf-1顯著同源或相似(其中含有P-loop保守區)。但PHI- BLAST搜索,另有一個顯著同源(E=0.038 )目標,是植物抗病蛋白Arabidopsis thaliana T7N9.18,證實此動物與植物蛋白確實在apoptosis 中有相似的功能。另有,按PHI- BLAST搜索在MutL DNA修復蛋白中的ATP 酶域,II型拓撲異構酶,組氨酸激酶和HS90家族蛋白,發現一個新的真核蛋白族,共有HS90型ATP 酶域。再有在古核tRNA核苷酸轉移酶中發現核苷酸轉移酶域,在細菌DNA 引物酶的古核同源體中發現螺旋酶超家族II的模體VI。用以往的搜索法這些是得不到的。
深層事項:
後基因組時期的主要任務:Data mining ,即從完全測序的基因組中預測功能。
1 、序列、結構和功能 自分子生物學產生以來,均相信序列決定結構,結構決定功能。隨著基因組學的發展,對此理解已有長足的深化。同源序列(具有共同祖先)未必具有相同的功能;相同功能未必源自同源序列。相異序列可能有相似的結構;序列與結構不相似的蛋白可能會有相似的功能。現在發現存在不相似(在序列與結構水平上)酶催化相同的生化反應。當然亦存在甚至結構水平上很相似的酶催化不同的生化反應。例如人與鼠的3?- 羥甾類脫氫酶,1AHH和1RAL;前者是Rossmann折疊,而後者是TIM-桶。肯定,這些相似酶不是共同祖先趨異的結果,而是不同祖先趨同的結果。如結構決定功能還是合理的,那麼至少在功能活性位點具有相似結構特徵(即3D- 功能模體)。屬於今後研究的課題,對了解酶催化機制與功能蛋白的小分子模擬具有很大價值。 何謂功能?功能有層次的:表型的,細胞的和分子的。 目前開始高層功能預測,分子相互作用、代謝途徑和調控網路。目前,已從結構基因組學,功能基因組學和蛋白質組學多種角度研究基因組功能。
2 、結構基因組學中的生物信息學 希望大通量地測定和模建完全測序基因組的全部蛋白三維結構。生物信息學可以發揮作用,一方面規劃好測定的對象,另一方面可靠地模建結構。
3 、功能基因組學中的生物信息學 美國HGP 已編制1998-2003 的新五年計劃。提出八項目標:其中目標7 特指生物信息學和計算生物學,其實幾乎每項目標都要生物信息學,例如目標4 功能基因組學中的非編碼區功能位點預測,基因表達分析(如DNA Chip)以及蛋白質全局分析(如蛋白質組學)。
§§§ 蛋 白 質 組 學(Proteomics)
1.蛋白質組學研究的目的和任務 20世紀中期以來,隨著DNA雙螺旋結構的提出和蛋白質空間結構的X射線解析,開始了分子生物學時代,對遺傳信息載體DNA和生命功能的主要體現者蛋白質的研究,成為生命科學研究的主要內容。90年代初期,美國生物學家提出並實施了人類基因組計劃,預計用15年的時間,30億美元的資助,對人類基因組的全部DNA序列進行測定,希望在分子水平上破譯人類所有的遺傳信息,即測定大約30億鹼基對的DNA序列和識別其中所有的基因(基因組中轉錄表達的功能單位)。經過各國科學家8年多的努力,人類基因組計劃已經取得了巨大的成績,一些低等生物的DNA全序列已被闡明,人類3%左右DNA的序列也已測定,迄今已測定的表達序列標志(EST)已大體涵蓋人類的所有基因。在這樣的形勢下,科學家們認為,生命科學已經入了後基因組時代。在後基因組時代,生物學家們的研究重心已經從解釋生命的所有遺傳信息轉移到在整體水平上對生物功能的研究。這種轉向的第一個標志就是產生了一門成為功能基因組學(Functional Genomics)的新學科。它採用一些新的技術,如SAGE、DNA晶元,對成千上萬的基因表達進行分析和比較,力圖從基因組整體水平上對基因的活動規律進行闡述。但是,由於生物功能的主要體現者是蛋白質,而蛋白質有其自身特有的活動規律,僅僅從基因的角度來研究是遠遠不夠的。例如蛋白質的修飾加工、轉運定位、結構變化、蛋白質與蛋白質的相互作用、蛋白質與其它生物分子的相互作用等活動,均無法在基因組水平上獲知。正是因為基因組學(Genomics)有這樣的局限性,於90年代中期,在人類基因組計劃研究發展及功能基因組學的基礎上,國際上萌發產生了一門在整體水平上研究細胞內蛋白質的組成及其活動規律的新興學科——蛋白質組學(Proteomics),它以蛋白質組(Proteome)為研究對象。蛋白質組是指「由一個細胞或一個組織的基因組所表達的全部相應的蛋白質」。測定一個有機體的基因組所表達的全部蛋白質的設想,萌發在1975年雙向凝膠電泳發明之時。1994年Williams正式提出了這個問題,而「蛋白質組」的名詞則是由Wilkins創造的,發表在1995年7月的Electrophoresis雜志上。蛋白質組與基因組相對應,但二者又有根本不同之處:一個有機體只有一個確定的基因組,組成該有機體的所有不同細胞斗拱享用一個確定的基因組;而蛋白質組則是一個動態的概念,她不僅在同一個機體的不同組織和細胞中不同,在同一機體的不同發育階段,在不同的生理狀態下,乃至在不同的外界環境下都是不同的。正是這種復雜的基因表達模式,表現了各種復雜的生命活動,每一種生命運動形式,都是特定蛋白質群體在不同時間和空間出現,並發揮功能的不同組合的結果。基因DNA的序列並不能提供這些信息,再加上由於基因剪接,蛋白質翻譯後修飾和蛋白質剪接,基因遺傳信息的表現規律就更加復雜,不再是經典的一個基因一個蛋白的對應關系,一個基因可以表達的蛋白質數目可能遠大於一。對細菌,可能為1.2~1.3;對酵母則為3;而對人,可高達10。後基因組和蛋白質組研究,是為闡明生命活動本質所不可缺少的基因組研究的遠為復雜的後續部分,無疑將成為21世紀生命科學研究的主要任務。

Ⅲ 如何用生物信息學方法預測增強子

增強子及其生物信息學預測

真核生物基因表達調控是當代分子生物學研究的重要課題之一。增強子是主要的真核生物基因表達調控的順式作用元件,能有效促進基因表達。因此,增強子的相關研究是當今分子生物學研究的重點之一。運用生物信息學方法具有方便、快捷以及成本低等優勢,這使得生物信息學成為當代分子生物學研究的重要工具。本文簡單綜述了增強子相關研究進展和採用生物信息學策略對序列保守性增強子進行預測和定位的幾個常用資料庫和具體方法。

Ⅳ 怎麼預測3『端某個鹼基突變對整個基因影響 已解決

我只知道一點膚淺的東西。3'-非編碼序列又稱3'-UTR,它對於一個基因可能有如下功能:1、含有轉錄因子或轉錄復合體的結合序列;2、含有增強子或抑制子的序列,可進行順式或反式調節,即可能對相連和不相連的基因進行調節;3、可能含有任何元件,例如轉座子;4、可能含有RNA剪接序列;5、可能含有阻止RNA聚合酶繼續轉錄的序列,即影響到RNA聚合酶的延伸,使其提前終止轉錄或延遲終止轉錄;6、可能含有決定mRNA和其它RNA的胞質轉運、定位、穩定性及降解時間的序列;7、可能影響到染色體的功能,比如更容易發生重組、交換或缺失,引發癌症。 DNA所具有的空間結構(大溝和小溝)通過氫鍵與任何可以與其結合的物質相互作用,例如轉錄因子、有毒化學物質、葯物等。說到這,我想起來某些位點的突變會增加某些疾病的易感性,就是說某些基因更容易在某中種環境下表達不正常。那麼這些位點很可能在3'-UTR中,它們在NCBI的孟德爾遺傳病資料庫(OMIM)都可以查到。哦,說道這,我給你提個建議,你先收集所有的人類和其他物種疾病和疾病易感性的突變位點吧,然後做個統計,看看哪些是3'-UTR中的突變。你必須使用計算機。 一個鹼基的突變會改變這段序列(三維結構的序列)中氫鍵的分布,也就會增加或減少與這段序列相互作用的物質,從而影響到基因。找到這些增加或減少的物質對於研究對基因的影響是必要的。我想我這句話就是你的答案。如果讓計算機自動來預測,必然要建立DNA序列和所有化合物的空間上電子雲分布的資料庫,然後再用軟體來模擬各種反應,我想現在一定有科學家在做這個工作。我覺得讓人來預測的工作量是巨大的。

Ⅳ 如何預測某基因的5

3'-非編碼序列又稱3'-UTR,它對於一個基因可能有如下功能:1、含有轉錄因子或轉錄復合體的結合序列;2、含有增強子或抑制子的序列,可進行順式或反式調節,即可能對相連和不相連的基因進行調節;3、可能含有任何元件,例如轉座子;4、可能含有RNA剪接序列;5、可能含有阻止RNA聚合酶繼續轉錄的序列,即影響到RNA聚合酶的延伸,使其提前終止轉錄或延遲終止轉錄;6、可能含有決定mRNA和其它RNA的胞質轉運、定位、穩定性及降解時間的序列;7、可能影響到染色體的功能,比如更容易發生重組、交換或缺失,引發癌症.
DNA所具有的空間結構(大溝和小溝)通過氫鍵與任何可以與其結合的物質相互作用,例如轉錄因子、有毒化學物質、葯物等.說到這,我想起來某些位點的突變會增加某些疾病的易感性,就是說某些基因更容易在某中種環境下表達不正常.那麼這些位點很可能在3'-UTR中,它們在NCBI的孟德爾遺傳病資料庫(OMIM)都可以查到.哦,說道這,我給你提個建議,你先收集所有的人類和其他物種疾病和疾病易感性的突變位點吧,然後做個統計,看看哪些是3'-UTR中的突變.你必須使用計算機.
一個鹼基的突變會改變這段序列(三維結構的序列)中氫鍵的分布,也就會增加或減少與這段序列相互作用的物質,從而影響到基因.找到這些增加或減少的物質對於研究對基因的影響是必要的.我想我這句話就是你的答案.如果讓計算機自動來預測,必然要建立DNA序列和所有化合物的空間上電子雲分布的資料庫,然後再用軟體來模擬各種反應,我想現在一定有科學家在做這個工作.我覺得讓人來預測的工作量是巨大的.

Ⅵ 目前,從基因組的角度出發來研究動物疾病(如乙肝等)的成果有哪些啊要有成果的而且要從基因組的角度出

科學家繪制完成2型糖尿病基因組圖
美國麻省理工學院(MIT)和哈佛大學Broad研究院、瑞典隆德(Lund)大學以及瑞士諾華公司(Novartis)的研究人員近日宣布,他們完成了基因組層面上的基因差異圖譜,這些基因差異與2型糖尿病等其他代謝疾病有密切關系。盡管2型糖尿病具有明顯的家族遺傳特點,但它的基因起源很大程度上並未得到深入了解,DGI旨在破譯2型糖尿病的遺傳成因。Broad研究院醫學和人口遺傳學計劃主任、研究小組主要負責人David Altshuler表示,「人類基因組計劃、國際人類基因組單體型圖譜計劃(HapMap)資料庫以及新的基因組研究工具使找到引發疾病的異常DNA成為可能。糖尿病和心血管疾病是受多種基因、環境和行為影響的,找出單個基因的遺傳作用需要這些強大的新手段」。2型糖尿病是受幾種遺傳因素影響的復雜疾病,盡管單個因素作用甚微,但合在一起就會顯著增加一個人的患病風險。對DGI數據的初始分析反映了這種復雜性。現在全世界從事學術和產業開發的科學家都可以通過免費的數據驗證他們對基因如何影響2型糖尿病的理論假設。

-----------------------------------

癌症基因組計劃CGAP是一項重要的,多學科參與的研究計劃,早在上個世紀一些國家就已經投入巨額進行相關研究,近期來自美國和英國的兩個研究小組公布了癌症基因組序列的最新成果。

來自美國加州大學洛杉磯分校的研究人員公布了他們的最新研究成果:腦癌細胞系全基因組測序,這是首次對單個癌症細胞系所做的最為徹底的測序分析。通過使用最新技術,此項測序工作得以在一個月內完成,測序成本大約為3.5萬美元。這一研究成果公布在《PLoS Genetics》雜志上。

這項測序工作是在U87成膠質瘤細胞繫上完成的,在全世界范圍內有超過1000個實驗室正在使用U87細胞系開展研究。之所以選擇該細胞系,是因為目前對其的研究最為充分。此項測序工作將使那些從事細胞系研究的科學家們對他們的研究發現重新進行闡述,並促使他們提出新的前進方向。

這一測序工作揭示了幾乎所有潛在的致癌染色體易位及導致該癌症發展的基因缺失和突變。研究人員從細胞系中取出遺傳物質的長鏈,然後隨機地將其截斷。該癌症的數十億個不同的DNA片段可由新一代測序技術同時進行讀取,遺傳物質經由10億次以上的分析後就可確保結果具有高靈敏度和精確度。

如果知道了是哪些基因發生了突變並驅動了癌症的發展,臨床醫生就能選擇最適於攻擊癌症特定分子簽名的療法,從而給患者提供更有效的治療。該測序工作還可展現出驅動癌症發展的分子異常,揭示出的靶標或將有助於開發出只針對癌細胞進行攻擊同時又不損害健康細胞的新療法。

另外來自英國的研究人員破譯了肺癌、皮膚癌和乳腺癌的基因密碼,他們發現肺癌細胞基因組中包含了2.3萬個突變基因,皮膚癌中包含了3.3萬個突變的基因。大多數突變基因沒什麼害處,成為基因組的一部分,但是有些突變基因則會扣動癌症的扳機。

完全破解肺癌、皮膚癌和乳腺癌的基因,這讓科學家們發現這些病變的腫瘤之下,是多麼混亂的基因錯誤造成的。肺癌和皮膚癌的產生看起來是如亂碼般衍生的變異基因在作祟,乳腺癌則復雜得多。在破譯乳腺癌基因序列的過程中,研究者發現無數斷裂了,又重新組合的基因序列,這令乳腺癌看起來不是一種疾病,而是二十幾種潛在疾病的集合——因為不同的組合很有可能造成不同的結果,症狀不同,治療方法也不應該相同。

除此之外,研究人員還發現了與惡性前列腺癌患病風險相關的基因變異。盡管這項成果的臨床應用仍比較有限,但將來有潛力與其他患病風險因素一道用來盡早預測哪類男性更易患惡性前列腺癌。這一研究成果公布在PNAS雜志上。

他們對4849名已發生擴散的惡性前列腺癌患者以及12205名病情發展緩慢的前列腺癌患者的遺傳信息進行了對比分析。結果發現,一種名為rs4054823的基因如果發生變異,患惡性前列腺癌的風險將提高四分之一。

這項研究表明,人類基因組中的某些基因變異確實會提高男性患惡性癌的風險。如果將來能夠發現更多患病風險因素,醫生就能盡早確定男性患惡性前列腺癌的具體風險。

原文檢索:

U87MG Decoded: The Genomic Sequence of a Cytogenetically Aberrant Human Cancer Cell Line

U87MG is a commonly studied grade IV glioma cell line that has been analyzed in at least 1,700 publications over four decades. In order to comprehensively characterize the genome of this cell line and to serve as a model of broad cancer genome sequencing, we have generated greater than 30× genomic sequence coverage using a novel 50-base mate paired strategy with a 1.4kb mean insert library. A total of 1,014,984,286 mate-end and 120,691,623 single-end two-base encoded reads were generated from five slides. All data were aligned using a custom designed tool called BFAST, allowing optimal color space read alignment and accurate identification of DNA variants. The aligned sequence reads and mate-pair information identified 35 interchromosomal translocation events, 1,315 structural variations (>100 bp), 191,743 small (<21 bp) insertions and deletions (indels), and 2,384,470 single nucleotide variations (SNVs). Among these observations, the known homozygous mutation in PTEN was robustly identified, and genes involved in cell adhesion were overrepresented in the mutated gene list. Data were compared to 219,187 heterozygous single nucleotide polymorphisms assayed by Illumina 1M Duo genotyping array to assess accuracy: 93.83% of all SNPs were reliably detected at filtering thresholds that yield greater than 99.99% sequence accuracy. Protein coding sequences were disrupted predominantly in this cancer cell line e to small indels, large deletions, and translocations. In total, 512 genes were homozygously mutated, including 154 by SNVs, 178 by small indels, 145 by large microdeletions, and 35 by interchromosomal translocations to reveal a highly mutated cell line genome. Of the small homozygously mutated variants, 8 SNVs and 99 indels were novel events not present in dbSNP. These data demonstrate that routine generation of broad cancer genome sequence is possible outside of genome centers. The sequence analysis of U87MG provides an unparalleled level of mutational resolution compared to any cell line to date.