当前位置:首页 » 数据仓库 » 增强子预测数据库
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

增强子预测数据库

发布时间: 2022-05-23 17:03:55

Ⅰ 深度学习给生物学带来了哪些改变

深度学习研究及其在生物医药领域的潜在应用
深度学习已经在各种生物学应用中取得成功。在本节中,我们回顾了在各个研究领域进行深度学习的挑战和机会,并在可能的情况下回顾将深度学习应用于这些问题的研究(表1)。我们首先回顾了生物标志物开发的重要领域,包括基因组学,转录组学,蛋白质组学,结构生物学和化学。然后,我们回顾一下药物发现和再利用的前景,包括使用多平台数据。
生物标志物。生物医学的一个重要任务是将生物学数据转化为反映表型和物理状态(如疾病)的有效生物标志物。生物标志物对于评估临床试验结果[18]以及检测和监测疾病,特别是像癌症这样的异质性疾病,是至关重要的[19,20]。识别敏感特异性生物标志物对于现代转化医学来说是一个巨大的挑战[21,22]。计算生物学是生物标志物发展。事实上,从基因组学到蛋白质组学都可以使用任何数据来源;这些在下一节中讨论。
基因组学。新一代测序(NGS)技术已经允许生产大量的基因组数据。这些数据的大部分分析都可以用现代计算方法在计算机上进行。这包括基因组的结构注释(包括非编码调控序列,蛋白质结合位点预测和剪接位点)。
基因组学的一个重要分支是宏基因组学,也被称为环境,生态基因组学或社区基因组学。NGS技术揭示了未经培育且以前没有得到充分研究的微生物的自然多样性。
宏基因组学中有几个生物信息学挑战。一个主要挑战是序列数据的功能分析和物种多样性的分析。深信念网络和经常性神经网络的使用已经允许通过表型分类宏基因组学pH数据和人类微生物组数据。 与基线方法相比,这些方法并没有提高分类准确性作为强化学习,但确实提供了学习数据集的分层表示的能力.[23]但是,Ditzler等强调DNN可以改善现有的宏基因组学分类算法,特别是在大数据集和适当选择网络参数的情况下。
表1. 深度学习技术应用于不同类型生物医学数据的总结

应用

数据源

研究目的

DL技术

准确率

利用深度学习增强癌症诊断和分类[28]

13种不同的癌症基因表达数据集(13 different gene expression data sets of cancers)

癌症检测,癌症类型分类

稀疏和堆栈自动编码器+ Softmax回归

对于每个数据集的准确度都比基准更好

深度学习组织调节拼接代码[32](Deep Learning of the Tissue-Regulated Splicing Code)

从RNA-Seq数据分析11 019个小鼠替代外显子(11 019 mouse alternative exons profiled from RNA-Seq data)

拼接模式识别

自动编码器+ DNN(3层)+薄荷(超参数选择)

AUC优于基线准确度

深卷积神经网络注释基因表达模式的小鼠脑[30]

由Allen Institute for Brain Science的小鼠脑的四个发育阶段的ISH图像

基因表达注释

CNN(Overfeat)

AUC=0.894

多模式深度学习方法的多平台癌症数据的综合数据分析[52]

卵巢癌和乳腺癌数据集(ovarian and breast cancer data sets)

聚集癌症患者

DBNs

lncRNA-MFDL:通过融合多个特征和使用深度学习鉴定人类长的非编码RNA[34]

Gencode和RefSeq的蛋白质编码和非编码序列(protein-coding and noncoding sequences from Gencode and RefSeq)

鉴定长的非编码RNA

lncRNA-MFDL(深层堆叠网络,每个单元DNN)

ACC = 97.1%

用于宏基因组分类的多层和递归神经网络[23]

pH微生物组测序数据集和人微生物组测序数据集(pH microbiome sequencing data set and human microbiome sequencing data set)

宏基因组分类

MLP, DBN, RNN

comparison

Multi-Level Gene/MiRNA Feature Selection using Deep Belief Nets and Active Learning[27]

来自6种癌症的MiRNA表达数据(MiRNA expression data from 6 type of cancers)

Gene/MiRNA特征选择(基因表达)

MLFS(DBN +特征选择+无监督主动学习)(MLFS (DBN + feature selection + unsupervised active learning))

F1 = 84.7%

成对输入神经网络用于目标配体相互作用预测[45]

sc-PDB数据库(sc-pdb:用于鉴定蛋白质中“可药用”结合位点的变化和多样性的数据库)

蛋白质 - 配体预测

PINN (SVD + Autoencoder/RBM)

AUC = 0.959

非编码变量与深度学习序列模型的预测效应[49]

来自ENCODE和Roadmap Epigenomics项目的160种不同TF,125种DHS谱和104种组蛋白标记谱的690 TF结合谱

从序列中预测非编码变异效应

DeepSEA (CNN)

AUC = 0.923 (histone)

通过深度学习预测DNA和RNA结合蛋白的序列特异性[48]

506 ChIP-seq实验,DREAM5 TF-DNA基序识别挑战

DNA和RNA结合蛋白的特异性分类

DeepBind(CNN)

train, AUC = 0.85; validation,
AUC > 0.7

具有双模深信道网络的蜂窝信号系统的跨物种学习[36]

来自SBV IMPROVER挑战的磷酸化蛋白质组学数据

跨物种学习(模拟细胞信号系统)

bDBN (bimodal DBN) and
sbDBN (semirestricted bimodal
DBN)

AUC = 0.93

表达数量性状基因(eQTL)的鉴定与阐明及其调控机制的深入研究[35]

GEUVADIS(来自从参与1000基因组项目的个体中提取的337个淋巴母细胞系的选择的RNA-Seq和全基因组范围的SNP-阵列数据的组合)

确定eQTL

MASSQTL(DNN)

AUC = 0.85

建立RNA结合蛋白靶点结构特征的深度学习框架[43]

源自doRiNA的24个数据集(转录后调节中的RNA相互作用数据库)

预测RNA结合蛋白的结合位点(RBP靶标识别)

DBN(多模式DBN)

AUC = 0.983 on PTB HITS-CL

DeepCNF-D:通过加权深度卷积神经场预测蛋白质有序/无序区域[42]

来自CASP的CASP9, CASP10数据集(蛋白质结构预测的关键评估)

预测蛋白质有序/无序区域

DeepCNF (CRF + CNN)

AUC = 0.855 on CASP9
AUC = 0.898 on CASP10

用深度神经网络分割微阵列[29]

两个数据集,来自2006年Lehmussola等人的微阵列图像

微阵列分割

CNN

MAE = 0.25

深度学习药物引起的肝损伤[46]

四个数据集,化合物,化学结构注释DILI阳性或DILI阴性(four data sets, compounds, chemical structure annotated DILI-positive or DILI-negative properties)

药物性肝损伤预测

RNN(递归神经网络)

AUC = 0.955

从头算蛋白质二级结构预测的深度学习网络方法[38]

训练,Protein Data Bank; 验证,CASP9,CASP10(蛋白质结构预测的关键评估)

从头算蛋白质二级结构预测

DNSS(多模RBM)

Q3 = 90.7%, Sov = 74.2%

蛋白质接触图预测的深层架构[39]

ASTRAL database

蛋白质接触图预测

RNN + DNN

ACC ∼ 30%

用深机器学习网络建模药物样分子的环氧化作用[47]

Accelrys代谢物数据库(AMD):389个环氧化分子,811个非氧化分子(Accelrys Metabolite Database (AMD): 389 epoxidized molecules, 811 nonepoxidized molecules)

建模分子的环氧化性质

CNN

AUC better than baseline accuracy

DNdisorder:使用增强和深度网络预测蛋白质紊乱[41]

DISORDER723, CASP9, CASP10

预测蛋白质有序/无序区域

RBM

AUC better than baseline
accuracy

Basset:用深度卷积神经网络学习可访问基因组的规则代码[50]

来自ENCODE和Epigenomics Roadmap项目的164个细胞类型的DNasel-seq数据

学习DNA序列的功能活动

CNN

AUC = 0.892

a首字母缩写词:CNN=卷积神经网络,DNN=深度神经网络,RNN=递归神经网络,DBN=深信念网络,RBM=限制玻尔兹曼机器,MLP=多层感知器,MLFS=多级特征选择,PINN= 网络,CRF=条件随机场。

转录。转录组学分析利用各种类型转录物(信使RNA(mRNA),长非编码RNA(lncRNA),微小RNA(miRNA)等)丰度的变化来收集各种功能信息,从剪接代码到各种疾病的生物标志物。
转录组学数据通常从不同类型的平台(各种微阵列平台,测序平台)获得,其不同之处在于测量的基因组和信号检测方法。许多因素导致基因表达数据的变异性。因此,即使对于单个平台分析也需要标准化。 跨平台分析需要规范化技术,这可能是一个重大挑战。由于DNN具有较高的泛化能力,因此特别适合于跨平台分析。他们也能很好地处理基因表达数据的其他一些主要问题,比如数据集的大小以及对降维和选择性/不变性的需求,下面我们将回顾几个已经使用的DNN 用不同类型的基因表达数据来获得不同程度的成功。
表格数据应用程序。基因表达数据可以表示的一种方式是作为矩阵的表格形式,其包含关于转录物表达的定量信息。这些数据是高维度的,由于数据中的信噪比损失,使得统计分析成为问题。[25]
高维数据可以通过两种方式处理:
I. 降维:
A.特征提取,例如用SVM或随机森林算法;
B.特征子集选择;
C.途径分析;
II. 使用对高维度较不敏感的方法,如随机森林或深层信念网络。
诸如主成分分析(PCA),奇异值分解,独立分量分析或非负矩阵分解等方法是常见的前沿方法。然而,上述方法将数据转换成许多难以用生物学解释的组件。此外,这种降维方法基于基因表达谱提取特征而不管基因之间的相互作用。通路分析可以减少变量的数量,减少错误率并保留更多的生物相关信息。[25,26]
深度学习在处理高维基质转录组学数据方面也取得了一些成功。在另一种方法中,将基因表达的特征与非编码转录物如miRNA的区域一起提取; 这是通过使用深度信念网络和主动学习来实现的,其中使用了深度学习特征提取器来减少六个癌症数据集的维度,并且胜过了基本特征选择方法[27]。主动学习与分类的应用提高了准确性,并且允许选择与癌症相关的特征(改进的癌症分类),而不仅仅基于基因表达谱。使用miRNA数据的特征选择是使用与先前选择的特征子集的目标基因的关系实施的。
在另一个深度学习应用中,Fakoor等人利用自编码器网络进行推广,并将其应用于使用从具有不同基因集合的不同类型的微阵列平台(Affimetrix家族)获得的微阵列基因表达数据的癌症分类[28]。他们通过PCA和非监督非线性稀疏特征学习(通过自动编码器)结合使用降维来构建用于微阵列数据的一般分类的特征。癌症和非癌细胞分类的结果显示出了重要的改进,特别是使用监督微调,这使得特征不那么通用,但即使对于没有跨平台标准化的数据也能获得更高的分类准确性。自动编码器的全球泛化能力有助于使用不同微阵列技术收集的数据,因此可能对来自公共领域的数据进行大规模综合分析有前途。
图像处理应用。基因表达也可以以可视形式存储为图像,例如来自微阵列的图像荧光信号或RNA原位杂交荧光或放射性信号。 在一些应用中,以图像处理性能优越着称的CNN已经显示出改善这些图像分析的潜力。
在微阵列分析中,由于斑点大小,形状,位置或信号强度的变化,检测信号和识别荧光斑点可能是具有挑战性的,并且荧光信号强度通常对应于基因或序列表达水平差。在对这个问题的深度学习技术的一个应用中,CNN被用于微阵列图像分割,并且在准确性方面显示出类似于基准方法的准确度的结果,但是训练更简单并且对计算源的要求更少。[29]
将CNN应用于基于图像的基因表达数据的另一个机会是RNA原位杂交,这是一种繁琐的技术,当允许这样的操作时,能够使基因表达在一组细胞,组织切片或整个生物体中定位和可视化。这种方法促进强大的纵向研究,说明发展过程中的表达模式的变化。它被用于构建详细的Allen DevelopmentMouse Brain Atlas,其中包含超过2000个基因的表达图谱,每个基因在多个脑部分中进行说明。过去,这些手动标注是耗时的,昂贵的,有时也是不准确的。然而,最近,Zeng等人使用深度预训练CNN进行自动注释[30]。要做到这一点,神经网络模型训练原始自然原位杂交图像的不同层次的发展中国家的大脑没有关于坐标(空间信息)的确切信息;这种技术在四个发展阶段的多个大脑水平上实现了卓越的准确性。
剪接。深度学习的另一个应用领域是剪接。剪接是在真核生物中提供蛋白质生物多样性的主要因素之一;此外,最近的研究显示“拼接代码”与各种疾病之间的联系[31]。然而,现代科学仍然不能全面地理解控制剪接调控的机制。剪接调节的现代概念包括转录水平,特定信号调节序列元件(剪接增强子或沉默子)的存在,剪接位点的结构和剪接因子的状态(例如特定位点的磷酸化可能改变剪接因子活性)。所有这些因素使分析变得复杂,因为它们之间存在大量元素和复杂的非线性相互作用。现有的拼接预测软件需要高通量测序数据作为输入,并且面临着原始读取比常规基因短的问题,以及基因组中假性基因的高重复水平和存在。因此,拼接机制的分析算法很慢,需要高度的组合计算来源,深度学习可能会在这方面提供改进。在使用五个组织特异性RNA-seq数据集的一个深度学习应用中,使用隐变量来开发DNN以用于基因组序列和组织类型中的特征,并且被证明优于贝叶斯方法预测个体内和组织间的组织剪接外显子拼接的转录本百分比的变化(拼接代码度量)[32]。
非编码RNA。非编码RNA是生物学中的另一个问题,需要复杂的计算方法,如深度学习。非编码RNAs非常重要,涉及转录,翻译和表观遗传学的调控[33],但是它们仍然难以与编码蛋白质的RNA区分开来。对于短的非编码RNA,这个任务已经很好地解决了,但是对于lncRNA来说这是相当具有挑战性的。lncRNAs组成异构类,可能含有推定的复制起点(ORF),短的蛋白质样序列。开发了一种新的深层次的学习方法,称为lncRNAMFDL,用于鉴定lnc-RNAs,使用ORF,k相邻碱基,二级结构和预测的编码结构域序列等多种特征的组合[34]。该方法使用从Gencode(lncRNA)和Refseq(蛋白质编码mRNA数据)的序列数据中提取的五个单独特征,并且在人类数据集中导致97.1%的预测准确性。
表达量性状基因座分析。最后,数量性状基因座(QTL)分析有潜力进行深入的学习。 QTL分析鉴定含有多态性的遗传基因座,所述多态性导致复杂的多基因性状(例如,体重,药物反应,免疫应答)的表型变异。显示遗传变异的一个这样的“性状”是给定组织和/或条件中任何给定基因的表达或转录本丰度。表达QTL(eQTL)是影响转录本丰度的遗传变异的基因座。 eQTL分析已经导致了对人类基因表达调控的洞察力,但面临着许多挑战。在局部调节表达的eQTL(顺式-eQTL)相对容易用有限数量的统计测试来鉴定,但是调节基因组中其它位置的基因表达的位点(trans-eQTL)更难以检测到。最近,为了解决使用各种编码的生物特征(诸如物理蛋白质相互作用网络,基因注释,进化保守,局部序列信息以及来自ENCODE项目的不同功能元件)的反式eQTL预测问题的深度学习方法MASSQTL[35]被提出。DNN利用来自其各自交叉验证折叠的9个DNN模型,优于其他机器学习模型,并且提供了对基因表达的调控架构的基础的新机制。深解码系统也被用来对trans-eQTL特征向量进行聚类,然后通过t-SNE降维技术进行可视化。
蛋白质组学。与转录组学相比,蛋白质组学是一个相当欠发达的研究领域,数据依然稀少,用于分析的计算方法较少。即使有相似的信号编码和传输机制,人类蛋白质组学数据的缺乏以及将模型生物体结果转化为人类的困难也使分析变得复杂。
深度学习可以以多种方式使蛋白质组学受益,因为一些方法不需要像其他机器学习算法那样的大量培训案例。深度学习方法的其他优点是他们建立数据的分层表示,并从复杂的相互作用中学习一般特征,从而有利于蛋白质的蛋白质组学和网络分析。例如,使用磷酸化数据,双峰深信念网络已被用于预测大鼠细胞对相同刺激的刺激的细胞反应[36]。与传统的管线相比,开发的算法获得了相当的准确性。
结构生物学和化学。结构生物学包括蛋白质折叠分析,蛋白质动力学,分子建模和药物设计。二级和三级结构是蛋白质和RNA分子的重要特征。对于蛋白质,适当的结构测定对于酶功能预测,催化中心和底物结合的形成,免疫功能(抗原结合),转录因子(DNA结合)和转录后修饰(RNA结合)是重要的。丧失适当的结构会导致功能丧失,并且在某些情况下会导致可能导致神经退行性疾病(如阿尔茨海默病或帕金森病)的异常蛋白质的聚集。[37]
基于复合同源性的比较建模是预测蛋白质二级结构的一种可能方式,但是受现有注释良好的化合物的量限制。另一方面,机器学习从头预测是基于公认的具有公知结构的化合物的模式,但是还不够精确以至于不能实际使用。从头开始使用深度学习方法通过使用蛋白质测序数据改进了结构预测[38]。同样,深度学习已经被应用于使用ASTRAL数据库数据和复杂的三阶段方法来预测二级结构元素和氨基酸残基之间的接触和取向[39]。所使用的方法是分析偏倚和高度可变数据的有效工具。
三维结构的不变性在功能上也是重要的。然而,有几种蛋白质没有独特的结构参与基本的生物过程,如细胞周期的控制,基因表达的调控,分子信号传递。此外,最近的研究显示一些无序蛋白质的显着性[37]; 许多癌基因蛋白具有非结构域,并且错误折叠蛋白的异常聚集导致疾病发展[40]。这种没有固定三维结构的蛋白被称为固有无序蛋白(IDP),而没有恒定结构的结构域被称为固有无序区(IDR)。
许多参数将IDP / IDR与结构化蛋白质区分开来,从而使预测过程具有挑战性。这个问题可以使用深度学习算法来解决,这些算法能够考虑各种各样的特征。2013年,Eickholt和Cheng发表了一个基于序列的深度学习预测指标DNdisorder,与先进的预测指标相比,改进了对无序蛋白质的预测[41]。后来在2015年,Wang等人提出了一种新的方法,DeepCNF,使用来自蛋白质结构预测的临界评估(CASP9和CASP10)的实验数据,能够准确预测多个参数,如IDPs或具有IDR的蛋白质。DeepCNF算法通过利用众多特征,比基线单从头(从头算)预测指标执行得更好[42]。
另一类重要的蛋白质是结合单链或双链RNA的RNA结合蛋白。 这些蛋白质参与RNA的各种转录后修饰:剪接,编辑,翻译调控(蛋白质合成)和聚腺苷酸化。RNA分子形成不同类型的臂和环,需要识别和形成RNA和蛋白质之间连接的二级和三级结构。RNA的二级和三级结构是可预测的,并且已经被用于建模结构偏好偏好和通过应用深度信念网络预测RBP的结合位点[43]。深度学习框架在真正的CLIP-seq(交联免疫沉淀高通量测序)数据集上进行了验证,以显示从原始序列和结构分布中提取隐藏特征的能力,并准确预测RBP的位点。
药物发现和再利用。计算药物生物学和生物化学广泛应用于药物发现,开发和再利用的几乎每个阶段。过去数十年来,不同的研究团体和公司在全球范围内开发了大量用于计算机模拟药物发现和目标延伸的计算方法,以减少时间和资源消耗。虽然存在许多方法[44],但是还没有一个是最优的(例如,无法执行通量筛选或者通过蛋白质类别进行限制),现在一些研究表明深度学习是一个重要的考虑方法(表1)。
药物发现的重要任务之一就是预测药物靶点的相互作用。 靶标(蛋白质)通常具有一个或多个与底物或调节分子的结合位点; 这些可以用于建立预测模型。 然而,包括其他蛋白质的成分可能会给分析带来偏见。成对输入神经网络(PINN)接受具有从蛋白质序列和靶分布获得的特征的两个载体的能力被Wang等人用来计算靶标-配体相互作用[45]。神经网络的这种优势比其他代表性的靶标-配体相互作用预测方法有更好的准确性。
药物发现和评估是昂贵,耗时且具有风险; 计算方法和各种预测算法可以帮助降低风险并节省资源。一个潜在的风险是毒性; 例如,肝毒性(肝毒性)是从生产中去除药物的常见原因。用计算方法预测肝毒性可能有助于避免可能的肝毒性药物。使用深度学习,可以有效地确定原始化学结构的化合物毒性,而不需要复杂的编码过程[46]。使用CNN也可以预测诸如环氧化的性质,这意味着高反应性和可能的毒性; 这是休斯等人首次实施的。通过使用环氧化分子和氢氧化物分子的简化分子输入线入口规格(SMILES)格式数据作为阴性对照[47]。
多平台数据(Multiomics)。使用多平台数据的能力是深度学习算法的主要优势。 由于生物系统复杂,具有多个相互关联的元素,基因组学,表观基因组学和转录组学数据的系统级整合是提取最有效且有生物学意义的结果的关键。整合过程在计算上不是微不足道的,但收益是生物标志物特异性和灵敏度比单一来源方法的增加。
计算生物学中需要分析组合数据的主要领域之一是计算表观遗传学。有联合分析基因组,转录组,甲基化组特征和组蛋白修饰提供了准确的表观基因组预测。
一些研究人员已经开发出深度学习方法,可用于分析来自多个来源的数据(表1)。Alipanahi等人开发了基于深度学习的方法DeepBind(tools.genes.toronto.e/deepbind/),以在各种疾病中计算核苷酸序列结合转录因子和RNA结合蛋白的能力,并表征单点突变对结合特性的影响。DeepBind软件受CNN启发,对技术不敏感; 相反,它与从微阵列到序列的定性不同形式的数据是相容的。CPU的实现也允许用户并行化计算过程[48]。在另一个基于CNN的应用程序中,Zhou和Troyanskaya设计了DeepSEA框架来预测染色质特征和疾病相关序列变异的评估。与其他计算方法不同,他们的算法能够捕获每个结合位点的大规模上下文序列信息,用于注释从头序列变异体[49]。开发了类似的CNN管线,揭示了序列变异对染色质调控的影响,并对DNase-seq(DNase I测序)数据进行了培训和测试[50]。一种名为Bassed的深度学习软件优于基线方法,并且在所有数据集上达到平均AUC0.892。最后,随着深层特征选择模型的发展,深度学习被用于识别主动增强器和促进器,该模型利用了DNN对复杂非线性相互作用进行建模的能力,并学习了高层次的广义特征[51]。模型从多平台数据中选择特征,并按照重要性进行排序。在这些应用中,深度学习方法是染色质性质的更敏感和更有力的预测因子,也是复杂生物标志物发展的关键。
癌症是一组异质性疾病的广泛名称,其中一些是由基因突变引起的,因此使用多平台数据的癌症分类可以揭示潜在的病理学。Liang等人开发了一个具有多平台数据的深层信念网络模型,用于癌症患者的聚类[52]。使用受限玻尔兹曼机对每种输入模式定义的特征进行编码。这种方法的一个优点是深层信念网络不需要具有正态分布的数据,因为其他聚类算法和遗传(生物)数据不是正态分布的。
最后,从自然语言处理的角度来看,深度学习在通过巨大的非结构化(研究出版物和专利)和结构化数据(知识注释图,如基因本体论[53]或Chembl[54])浏览时,通过检验假设的合理性。这些数据库一起形成了一个庞大的,多平台的数据集,如果结合起来,这些数据集将更加丰富和全面。
总之,现代生物数据的庞大规模,对于以人为本的分析来说太庞大而复杂。 机器学习,特别是深度学习与人类专业知识相结合,是将多个大型多平台数据库完全集成的唯一途径。 深度学习使人类能够做到以前无法想象的事情:具有数百万输入的图像识别,语音识别以及接近人类能力的语音自动化。 虽然深度学习和特别是无监督的深度学习仍处于起步阶段,特别是在生物学应用方面,但最初的研究支持它作为一种有希望的方法,尽管在实施中不受限制和挑战,但可以克服生物学数据的一些问题, 对数百万间接和相互关联的疾病机制和途径的新见解。

Ⅱ 关于论文前言

我是复制的,希望对楼主能有所帮助

※ Multiplexing:一种同时采用多种样品的测序方法,能够大大提高测序速度。
※ 突变(Mutation):DNA序列上任一种可以被遗传的变易。
※ 核苷酸(Nucleotide):DNA和RNA的基本组成部分,通常包含一分子核糖,一分子磷酸和一分子碱基。多个核苷酸通过磷酸二酯键连接成一条链状。
※ 细胞核(Nucleos):真核细胞中的一种细胞器,内含遗传物质。
癌基因(Oncogene):一种能够导致癌症的基因。许多致癌基因都直接或间接地控制细胞的成长速度。
※ 噬菌体(phage):一种以细菌为宿主细胞的病毒。
※ 物理图谱(Physics Map):物理图谱描绘DNA上可以识别的标记的位置和相互之间的距离(以碱基对的数目为衡量单位),这些可以识别的标记包括限制性内切酶的酶切位点,基因等。物理图谱不考虑两个标记共同遗传的概率等信息。对于人类基因组来说,最粗的物理图谱是染色体的条带染色模式,最精细的图谱是测出DNA的完整碱基序列。
※ 质粒(Plasmid):质粒是细菌的染色体外能够自我复制的环状DNA分子。它能够和细胞核中的染色体明显地区别开来,而且并不是细胞生存的必要物质。一些质粒适宜于引入到宿主细胞中去,并利用宿主细胞的DNA大量繁殖,因此我们常常采用质粒作为外源DNA的载体,外源DNA借助于质粒在宿主细胞中大量繁殖。
※ 多基因病(Polygenic Disorder):有多个基因位点共同决定的遗传病(如心脏病、糖尿病、一些癌症等)。这类疾病的遗传由多个基因位点共同控制,因而比单基因病的遗传更为复杂。
※ 多聚酶链式反应(PCR):一种体外扩增DNA的方法。PCR使用一种耐热的多聚酶,以及两个含有20个碱基的单链引物。经过高温变性将模板DNA分离成两条链,低温退火使得引物和一条模板单链结合,然后是中温延伸,反应液的游离核苷酸紧接着引物从5‘端到3’端合成一条互补的新链。而新合成的DNA又可以继续进行上述循环,因此DNA的数目不断倍增。
※ 多聚酶(Polymerase):多聚酶具有催化作用,能够加快游离的核苷酸和DNA模板结合形成新链的反应速度。
※ 多态性(Polymorphism):多个个体之间DNA的差异称为多态性。DNA变异概率超过1%的变异,比较适宜作为绘制连接图谱的证据。
※ 引物(Primer):预先制备的比较短的核苷酸链,在新链合成过程中作为引物,游离的核苷酸在引物之后按顺序和模板上的碱基结合,形成新链。
※ 原核生物(Prokaryote):原核生物没有细胞膜,结构清晰的核以及其他细胞器。细菌是原核生物。
※ 探针(Probe):是一条DNA单链或者一条RNA链,具有特定的序列,并且使用放射性元素或者免疫特性物质进行标记。探针和克隆库中的某条互补片段结合成一条双链结构,我们可以借助于探针的检测来获知与其互补的链的位置。
※ 启动子(Promoter):DNA上的一个特定位点,RNA聚合酶在此和DNA结合,并由此开始转录过程。
※ 蛋白质(Protein):一种由一条或者多条肽链构成的大分子。每条肽链上核苷酸的顺序是由基因外显子部分的碱基序列决定的。蛋白质是细胞、组织和器官的重要组成部分,每种蛋白质都具有特定的功能。酶、抗体和激素等都是蛋白质。
※ 嘌呤(Purine):一种含氮的单环结构物。是核苷酸的重要组成部分,有腺嘌呤A和鸟嘌呤G两种。
※ 嘧啶(Pyrimidine):一种含氮的双环结构,是核苷酸的重要组成部分。分为胞嘧啶C,胸腺嘧啶T和尿嘧啶U三种。
※ 重组克隆(Recombinant Clone):将不同来源的DNA片段合成在一个DNA分子中,这种技术称为重组,得到的分子为重组克隆。
※ DNA重组技术(Recombinant DNA Technology):在细胞体外将两个DNA片段连接成一个DNA分子的技术。在适宜的条件下,一个重组DNA分子能够被引入到宿主细胞中并在宿主细胞中大量繁殖。
※ 调控序列(regulatory regions and sequence):一段控制基因表达的DNA片段。
※ 限制性内切酶(Restriction enzyme, endonuclease):这种酶能够识别出DNA上特定的碱基序列,并在这个位点将DNA酶切。细菌中有400中限制性内切酶,能够识别出100中DNA序列。
※ 酶切位点(Restriction Enzyme cutting site):DNA上一段碱基的特定序列,限制性内切酶能够识别出这个序列并在此将DNA酶切成两段。
※ 限制性长度多态性(Restriction fragment length polymorphsm):从不同个体制备的DNA,使用同一种限制性内切酶酶切,切得的片段长度各不相同。酶切片段的长度可以作为物理图谱或者连接图谱中的标记子。通常是在酶切位点处发生突变而引发的。
※ 核糖核酸RNA(Ribonucleic acid):从细胞的细胞核和细胞质部分分离出来的化学物质。在蛋白质合成和其他生化反应中起着重要作用,RNA的结构和DNA的结构类似,都是有核苷酸按照一定顺序排列成的长链。RNA可以分为信使RNA、转运RNA、核糖体RNA以及其他类型的RNA。
※ 核糖体RNA(Ribonsomal RNA rRNA):存在于核糖体中的RNA。
※ 核糖体(Ribonsome):细胞质中含有rRNA和相关蛋白质的细胞器,是蛋白质的合成场所。
序列位置标签(Sequence Tagged Site, STS):一段短的DNA序列(200-500个碱基对),这种序列在染色体上只出现一次,其位置和碱基顺序都是已知的。在PCR反应中可以检测处STS来,STS适宜于作为人类基因组的一种地标,据此可以判定DNA的方向和特定序列的相对位置。ETS是cDNA上的STS。
※ 性染色体(Sex Chromosome):在人类细胞中是X或者Y染色体,性染色体决定了个体的性别。雌性细胞中含有两个X染色体,而雄性细胞中含有1个X染色体和1个Y染色体。
※ 鸟枪法(Shotgun method):使用基因组中的随机产生的片段作为模板进行克隆的方法。
※ 单基因病(Single Gene Disorder):一个基因的等位基因之间发生了突变造成的疾病。
※ 体细胞(Somatic Cells):个体中除了生殖细胞及其母细胞之外的细胞,都是体细胞。
※ 串联重复序列(Tandem repeat sequences):在染色体上一段序列的多次重复,称为串联重复序列。常用来作为物理图谱中的标记子。
※ 端粒(Telomere):是染色体的末端部分,这一特殊结构区域对于线型染色体的结构和稳定起重要作用。
※ 转录(Transcription):以某一DNA链为模板,按照碱基互补原则形成一条新的RNA链的过程,是基因表达的第一步。
※ 转运RNA(tRNA):转运RNA具有特殊的结构,其一端包含3个特定的核苷酸序列,能和信使RNA上的密码子按照碱基配对原则进行结合。另一端则带有一个氨基酸。因此转运RNA能够同细胞质中游离的氨基酸结合并运到核糖体上,核糖体按mRNA上的遗传信息将氨基酸装配成蛋白质。
※ 转化(Transformation):将外源DNA整合到某一细胞基因组中的过程。。
※ 翻译(Translation):mRNA上携带的遗传信息指导蛋白质的合成过程,称为翻译。
※ 病毒(Virus):一种不具备细胞结构的生物体。只能寄生在宿主细胞中才能生存。病毒一般包含核酸以及外壳蛋白,有些动物的病毒的外面也偶尔覆盖一层细胞膜。病毒进入宿主细胞之后,利用宿主的合成机制复制出大量的后代。。
※ 酵母菌人工合成染色体(Yeast Artificial Chromosome):一种能够克隆长达400Kb的DNA片段的载体,含有酵母细胞中必需的端粒、着丝点和复制起始序列。
(卜东波、伍树明翻译整理)
生物信息名词
§§§ BLAST (Basic Local Alignment Search Tool),基本的基于局部对准的搜索工具;一种快速查找与给定序列具有连续相同片断的序列的技术。
§§§ Entrez 美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。
§§§ NCBI 美国国立生物技术信息中心(National Center for Biotechnology Information),1988年设立,为美国国家医学图书馆(NLM)和国家健康协会(NIH)下属部门之一。提供生物医学领域的信息学服务,如世界三大核酸数据库之一的GenBank数据库,PubMed医学文献检索数据库等。
§§§ Conserved sequence 保守序列。演化过程中基本上不变的DNA中的碱基序列或蛋白质中的氨基酸序列。
§§§ Domain 功能域。蛋白质中具有某种特定功能的部分,它在序列上未必是连续的。某蛋白质中所有功能域组合其起来决定着该蛋白质的全部功能。
§§§ EBI 欧洲生物信息学研究所(European Bioinformatics Institute)。 The National Center for Biotechnology Information (NCBI) at the NationalLibrary of Medicine (NLM), National Institutes of Health (NIH)
§§§ EMBL 欧洲分子生物学实验室(uropean Molecular Biology Laboratory)。
§§§ GenBank 由美国国家生物技术信息中心提供的核酸序列数据库。
§§§ Gene 基因。遗传的基本的物理和功能单位。一个基因就是位于某条染色体的某个位置上的核苷酸序列,其中蕴含着某种特定功能产物(如蛋白质或RNA分子)的编码。
§§§ DUST A program for filtering low complexity regions from nucleic acid sequences.
§§§ Gene expression 基因表达。基因中的编码信息被转换成行使特定功能的结构产物的过程。
§§§ Gene family 基因家族。一组密切相关的编码相似产物的基因。
§§§ Gene mapping 基因作图。对DNA分子(染色体或质粒)中基因的相对位置和距离进行确定的过程。
§§§ Genetic code 遗传密码。以三联体密码子的形式编码于mRNA中的核苷酸序列,决定着所合成蛋白质中的氨基酸序列。
Genome 基因组。某一物种的一套完整染色体组中的所有遗传物质。其大小一般以其碱基对总数表示。
§§§ Genomics 基因组学。从事基因组的序列测定和表征描述,以及基因活性与细胞功能关系的研究。
§§§ HGMP 英国剑桥的人类基因组绘图计划(Human Genome Mapping Project)。
§§§ Informatics 信息学。研究计算机和统计学技术在信息处理中的应用的学科。在基因组计划中,信息学的内容包括快速搜索数据库方法的开发、DNA序列信息分析方法的开发和从DNA序列数据中预测蛋白质序列和结构方法的开发。
§§§ Physical map 物理图谱。不考虑遗传,DNA中可识别的界标(如限制性酶切位点和基因等)的位置图。界标之间的距离用碱基对度量。对人类基因组而言,最低分辨率的物理图谱是染色体上的条带图谱;最高分辨率的物理图谱是染色体中完整的核苷酸序列。
§§§ Promoter 启动子。DNA中被RNA聚合酶结合并从此起始转录的位点。
§§§ Proteome 蛋白质组。一个基因组的全部蛋白产物及其表达情况。
§§§ Regulatory region or sequence 调控区或调控序列。控制基因表达的DNA碱基序列。
§§§ Ribosomal RNA 核糖体RNA。简写为rRNA。是一组存在于核糖体中的RNA分子。
§§§ Sequence tagged site 序列示踪位点,简写为STS。在人类基因组中只出现一次的位置和序列已知的长约200到500bp的短DNA序列片断。由于可以通过PCR检测到,STS在将来源于许多不同实验室的基因图谱和测序数据进行定位和定向时非常有用,并且STS在人类基因组的物理图谱中也具有界标的作用。表达的序列标签(ESTs)就是那些得自cDNAs的STSs。
§§§ Single-gene disorder 单基因病。由单个基因的等位基因的突变所导致的遗传病(如杜兴肌营养不良和成视网膜细胞瘤等)。
§§§ UniGene 美国国家生物技术信息中心提供的公用数据库,该数据库将GenBank中属于同一条基因的所有片断拼接成完整的基因进行收录。
§§§ 非蛋白质编码区(“Junk”DNA)占据了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体,它们至少包括以下类型的DNA成份或由其表达的RNA成分:内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(microsatellite)DNA、非均一核RNA(hmRNA)、短散置元(short interspersed elements)、长散置元(long interspersed elements)、伪基因(pseudogenes)等。除此之外,顺式调控元件,如启动子、增强子等也属于非编码序列。
双重序列对比 两序列间的对比分析。最常见的方法为Needle-Wunsch方法。能够利用的软件如BLAST、FASTA等。
§§§ Autosome 常染色体。与性别决定无关的染色体,人双倍体染色体组含有46条染色体,其中22对常染色体,一对与性别决定有关的性染色体(X和Y染色体)。
sex chromosome. 包括序列(核酸与蛋白)搜索,结构比较,结构预测,蛋白质域,模体(Motif ),测序,发育与进化分析,双向电泳成像分析,质谱蛋白质鉴定,三维蛋白结构模建与成像,基因组图谱比较,基因预测,非编码区功能位点识别,基因组重叠群集装,后基因组功能分析,结构基因组学以及药物基因组学等等。
在BLAST2.0,2.05新版中启用了gapped BLAST、PSI-BLAST 和PHI-BLAST。gapped BLAST是比原BLAST 更灵敏更快的局部相似联配(俗称局部同源)搜索法;PSI- BLAST用迭代型的剖面打分算法,每次迭代所费时间与前者相同,它可检索弱同源的目标;PHI-BLAST 98年刚出台,是模体(Motif )构造与搜索软件,是更灵敏的同源搜索软件。例如线虫§§§ 的CED4是apoptosis 的调控蛋白,含有涉及磷酸结合的P 环模体,在各种ATP 酶和GTP 酶中可发现。在用gapped BLAST搜索NR数据库时,CED4仅跟人凋亡调控蛋白Apaf-1显着同源或相似(其中含有P-loop保守区)。但PHI- BLAST搜索,另有一个显着同源(E=0.038 )目标,是植物抗病蛋白Arabidopsis thaliana T7N9.18,证实此动物与植物蛋白确实在apoptosis 中有相似的功能。另有,按PHI- BLAST搜索在MutL DNA修复蛋白中的ATP 酶域,II型拓扑异构酶,组氨酸激酶和HS90家族蛋白,发现一个新的真核蛋白族,共有HS90型ATP 酶域。再有在古核tRNA核苷酸转移酶中发现核苷酸转移酶域,在细菌DNA 引物酶的古核同源体中发现螺旋酶超家族II的模体VI。用以往的搜索法这些是得不到的。
深层事项:
后基因组时期的主要任务:Data mining ,即从完全测序的基因组中预测功能。
1 、序列、结构和功能 自分子生物学产生以来,均相信序列决定结构,结构决定功能。随着基因组学的发展,对此理解已有长足的深化。同源序列(具有共同祖先)未必具有相同的功能;相同功能未必源自同源序列。相异序列可能有相似的结构;序列与结构不相似的蛋白可能会有相似的功能。现在发现存在不相似(在序列与结构水平上)酶催化相同的生化反应。当然亦存在甚至结构水平上很相似的酶催化不同的生化反应。例如人与鼠的3?- 羟甾类脱氢酶,1AHH和1RAL;前者是Rossmann折叠,而后者是TIM-桶。肯定,这些相似酶不是共同祖先趋异的结果,而是不同祖先趋同的结果。如结构决定功能还是合理的,那么至少在功能活性位点具有相似结构特征(即3D- 功能模体)。属于今后研究的课题,对了解酶催化机制与功能蛋白的小分子模拟具有很大价值。 何谓功能?功能有层次的:表型的,细胞的和分子的。 目前开始高层功能预测,分子相互作用、代谢途径和调控网络。目前,已从结构基因组学,功能基因组学和蛋白质组学多种角度研究基因组功能。
2 、结构基因组学中的生物信息学 希望大通量地测定和模建完全测序基因组的全部蛋白三维结构。生物信息学可以发挥作用,一方面规划好测定的对象,另一方面可靠地模建结构。
3 、功能基因组学中的生物信息学 美国HGP 已编制1998-2003 的新五年计划。提出八项目标:其中目标7 特指生物信息学和计算生物学,其实几乎每项目标都要生物信息学,例如目标4 功能基因组学中的非编码区功能位点预测,基因表达分析(如DNA Chip)以及蛋白质全局分析(如蛋白质组学)。
§§§ 蛋 白 质 组 学(Proteomics)
1.蛋白质组学研究的目的和任务 20世纪中期以来,随着DNA双螺旋结构的提出和蛋白质空间结构的X射线解析,开始了分子生物学时代,对遗传信息载体DNA和生命功能的主要体现者蛋白质的研究,成为生命科学研究的主要内容。90年代初期,美国生物学家提出并实施了人类基因组计划,预计用15年的时间,30亿美元的资助,对人类基因组的全部DNA序列进行测定,希望在分子水平上破译人类所有的遗传信息,即测定大约30亿碱基对的DNA序列和识别其中所有的基因(基因组中转录表达的功能单位)。经过各国科学家8年多的努力,人类基因组计划已经取得了巨大的成绩,一些低等生物的DNA全序列已被阐明,人类3%左右DNA的序列也已测定,迄今已测定的表达序列标志(EST)已大体涵盖人类的所有基因。在这样的形势下,科学家们认为,生命科学已经入了后基因组时代。在后基因组时代,生物学家们的研究重心已经从解释生命的所有遗传信息转移到在整体水平上对生物功能的研究。这种转向的第一个标志就是产生了一门成为功能基因组学(Functional Genomics)的新学科。它采用一些新的技术,如SAGE、DNA芯片,对成千上万的基因表达进行分析和比较,力图从基因组整体水平上对基因的活动规律进行阐述。但是,由于生物功能的主要体现者是蛋白质,而蛋白质有其自身特有的活动规律,仅仅从基因的角度来研究是远远不够的。例如蛋白质的修饰加工、转运定位、结构变化、蛋白质与蛋白质的相互作用、蛋白质与其它生物分子的相互作用等活动,均无法在基因组水平上获知。正是因为基因组学(Genomics)有这样的局限性,于90年代中期,在人类基因组计划研究发展及功能基因组学的基础上,国际上萌发产生了一门在整体水平上研究细胞内蛋白质的组成及其活动规律的新兴学科——蛋白质组学(Proteomics),它以蛋白质组(Proteome)为研究对象。蛋白质组是指“由一个细胞或一个组织的基因组所表达的全部相应的蛋白质”。测定一个有机体的基因组所表达的全部蛋白质的设想,萌发在1975年双向凝胶电泳发明之时。1994年Williams正式提出了这个问题,而“蛋白质组”的名词则是由Wilkins创造的,发表在1995年7月的Electrophoresis杂志上。蛋白质组与基因组相对应,但二者又有根本不同之处:一个有机体只有一个确定的基因组,组成该有机体的所有不同细胞斗拱享用一个确定的基因组;而蛋白质组则是一个动态的概念,她不仅在同一个机体的不同组织和细胞中不同,在同一机体的不同发育阶段,在不同的生理状态下,乃至在不同的外界环境下都是不同的。正是这种复杂的基因表达模式,表现了各种复杂的生命活动,每一种生命运动形式,都是特定蛋白质群体在不同时间和空间出现,并发挥功能的不同组合的结果。基因DNA的序列并不能提供这些信息,再加上由于基因剪接,蛋白质翻译后修饰和蛋白质剪接,基因遗传信息的表现规律就更加复杂,不再是经典的一个基因一个蛋白的对应关系,一个基因可以表达的蛋白质数目可能远大于一。对细菌,可能为1.2~1.3;对酵母则为3;而对人,可高达10。后基因组和蛋白质组研究,是为阐明生命活动本质所不可缺少的基因组研究的远为复杂的后续部分,无疑将成为21世纪生命科学研究的主要任务。

Ⅲ 如何用生物信息学方法预测增强子

增强子及其生物信息学预测

真核生物基因表达调控是当代分子生物学研究的重要课题之一。增强子是主要的真核生物基因表达调控的顺式作用元件,能有效促进基因表达。因此,增强子的相关研究是当今分子生物学研究的重点之一。运用生物信息学方法具有方便、快捷以及成本低等优势,这使得生物信息学成为当代分子生物学研究的重要工具。本文简单综述了增强子相关研究进展和采用生物信息学策略对序列保守性增强子进行预测和定位的几个常用数据库和具体方法。

Ⅳ 怎么预测3‘端某个碱基突变对整个基因影响 已解决

我只知道一点肤浅的东西。3'-非编码序列又称3'-UTR,它对于一个基因可能有如下功能:1、含有转录因子或转录复合体的结合序列;2、含有增强子或抑制子的序列,可进行顺式或反式调节,即可能对相连和不相连的基因进行调节;3、可能含有任何元件,例如转座子;4、可能含有RNA剪接序列;5、可能含有阻止RNA聚合酶继续转录的序列,即影响到RNA聚合酶的延伸,使其提前终止转录或延迟终止转录;6、可能含有决定mRNA和其它RNA的胞质转运、定位、稳定性及降解时间的序列;7、可能影响到染色体的功能,比如更容易发生重组、交换或缺失,引发癌症。 DNA所具有的空间结构(大沟和小沟)通过氢键与任何可以与其结合的物质相互作用,例如转录因子、有毒化学物质、药物等。说到这,我想起来某些位点的突变会增加某些疾病的易感性,就是说某些基因更容易在某中种环境下表达不正常。那么这些位点很可能在3'-UTR中,它们在NCBI的孟德尔遗传病数据库(OMIM)都可以查到。哦,说道这,我给你提个建议,你先收集所有的人类和其他物种疾病和疾病易感性的突变位点吧,然后做个统计,看看哪些是3'-UTR中的突变。你必须使用计算机。 一个碱基的突变会改变这段序列(三维结构的序列)中氢键的分布,也就会增加或减少与这段序列相互作用的物质,从而影响到基因。找到这些增加或减少的物质对于研究对基因的影响是必要的。我想我这句话就是你的答案。如果让计算机自动来预测,必然要建立DNA序列和所有化合物的空间上电子云分布的数据库,然后再用软件来模拟各种反应,我想现在一定有科学家在做这个工作。我觉得让人来预测的工作量是巨大的。

Ⅳ 如何预测某基因的5

3'-非编码序列又称3'-UTR,它对于一个基因可能有如下功能:1、含有转录因子或转录复合体的结合序列;2、含有增强子或抑制子的序列,可进行顺式或反式调节,即可能对相连和不相连的基因进行调节;3、可能含有任何元件,例如转座子;4、可能含有RNA剪接序列;5、可能含有阻止RNA聚合酶继续转录的序列,即影响到RNA聚合酶的延伸,使其提前终止转录或延迟终止转录;6、可能含有决定mRNA和其它RNA的胞质转运、定位、稳定性及降解时间的序列;7、可能影响到染色体的功能,比如更容易发生重组、交换或缺失,引发癌症.
DNA所具有的空间结构(大沟和小沟)通过氢键与任何可以与其结合的物质相互作用,例如转录因子、有毒化学物质、药物等.说到这,我想起来某些位点的突变会增加某些疾病的易感性,就是说某些基因更容易在某中种环境下表达不正常.那么这些位点很可能在3'-UTR中,它们在NCBI的孟德尔遗传病数据库(OMIM)都可以查到.哦,说道这,我给你提个建议,你先收集所有的人类和其他物种疾病和疾病易感性的突变位点吧,然后做个统计,看看哪些是3'-UTR中的突变.你必须使用计算机.
一个碱基的突变会改变这段序列(三维结构的序列)中氢键的分布,也就会增加或减少与这段序列相互作用的物质,从而影响到基因.找到这些增加或减少的物质对于研究对基因的影响是必要的.我想我这句话就是你的答案.如果让计算机自动来预测,必然要建立DNA序列和所有化合物的空间上电子云分布的数据库,然后再用软件来模拟各种反应,我想现在一定有科学家在做这个工作.我觉得让人来预测的工作量是巨大的.

Ⅵ 目前,从基因组的角度出发来研究动物疾病(如乙肝等)的成果有哪些啊要有成果的而且要从基因组的角度出

科学家绘制完成2型糖尿病基因组图
美国麻省理工学院(MIT)和哈佛大学Broad研究院、瑞典隆德(Lund)大学以及瑞士诺华公司(Novartis)的研究人员近日宣布,他们完成了基因组层面上的基因差异图谱,这些基因差异与2型糖尿病等其他代谢疾病有密切关系。尽管2型糖尿病具有明显的家族遗传特点,但它的基因起源很大程度上并未得到深入了解,DGI旨在破译2型糖尿病的遗传成因。Broad研究院医学和人口遗传学计划主任、研究小组主要负责人David Altshuler表示,“人类基因组计划、国际人类基因组单体型图谱计划(HapMap)数据库以及新的基因组研究工具使找到引发疾病的异常DNA成为可能。糖尿病和心血管疾病是受多种基因、环境和行为影响的,找出单个基因的遗传作用需要这些强大的新手段”。2型糖尿病是受几种遗传因素影响的复杂疾病,尽管单个因素作用甚微,但合在一起就会显着增加一个人的患病风险。对DGI数据的初始分析反映了这种复杂性。现在全世界从事学术和产业开发的科学家都可以通过免费的数据验证他们对基因如何影响2型糖尿病的理论假设。

-----------------------------------

癌症基因组计划CGAP是一项重要的,多学科参与的研究计划,早在上个世纪一些国家就已经投入巨额进行相关研究,近期来自美国和英国的两个研究小组公布了癌症基因组序列的最新成果。

来自美国加州大学洛杉矶分校的研究人员公布了他们的最新研究成果:脑癌细胞系全基因组测序,这是首次对单个癌症细胞系所做的最为彻底的测序分析。通过使用最新技术,此项测序工作得以在一个月内完成,测序成本大约为3.5万美元。这一研究成果公布在《PLoS Genetics》杂志上。

这项测序工作是在U87成胶质瘤细胞系上完成的,在全世界范围内有超过1000个实验室正在使用U87细胞系开展研究。之所以选择该细胞系,是因为目前对其的研究最为充分。此项测序工作将使那些从事细胞系研究的科学家们对他们的研究发现重新进行阐述,并促使他们提出新的前进方向。

这一测序工作揭示了几乎所有潜在的致癌染色体易位及导致该癌症发展的基因缺失和突变。研究人员从细胞系中取出遗传物质的长链,然后随机地将其截断。该癌症的数十亿个不同的DNA片段可由新一代测序技术同时进行读取,遗传物质经由10亿次以上的分析后就可确保结果具有高灵敏度和精确度。

如果知道了是哪些基因发生了突变并驱动了癌症的发展,临床医生就能选择最适于攻击癌症特定分子签名的疗法,从而给患者提供更有效的治疗。该测序工作还可展现出驱动癌症发展的分子异常,揭示出的靶标或将有助于开发出只针对癌细胞进行攻击同时又不损害健康细胞的新疗法。

另外来自英国的研究人员破译了肺癌、皮肤癌和乳腺癌的基因密码,他们发现肺癌细胞基因组中包含了2.3万个突变基因,皮肤癌中包含了3.3万个突变的基因。大多数突变基因没什么害处,成为基因组的一部分,但是有些突变基因则会扣动癌症的扳机。

完全破解肺癌、皮肤癌和乳腺癌的基因,这让科学家们发现这些病变的肿瘤之下,是多么混乱的基因错误造成的。肺癌和皮肤癌的产生看起来是如乱码般衍生的变异基因在作祟,乳腺癌则复杂得多。在破译乳腺癌基因序列的过程中,研究者发现无数断裂了,又重新组合的基因序列,这令乳腺癌看起来不是一种疾病,而是二十几种潜在疾病的集合——因为不同的组合很有可能造成不同的结果,症状不同,治疗方法也不应该相同。

除此之外,研究人员还发现了与恶性前列腺癌患病风险相关的基因变异。尽管这项成果的临床应用仍比较有限,但将来有潜力与其他患病风险因素一道用来尽早预测哪类男性更易患恶性前列腺癌。这一研究成果公布在PNAS杂志上。

他们对4849名已发生扩散的恶性前列腺癌患者以及12205名病情发展缓慢的前列腺癌患者的遗传信息进行了对比分析。结果发现,一种名为rs4054823的基因如果发生变异,患恶性前列腺癌的风险将提高四分之一。

这项研究表明,人类基因组中的某些基因变异确实会提高男性患恶性癌的风险。如果将来能够发现更多患病风险因素,医生就能尽早确定男性患恶性前列腺癌的具体风险。

原文检索:

U87MG Decoded: The Genomic Sequence of a Cytogenetically Aberrant Human Cancer Cell Line

U87MG is a commonly studied grade IV glioma cell line that has been analyzed in at least 1,700 publications over four decades. In order to comprehensively characterize the genome of this cell line and to serve as a model of broad cancer genome sequencing, we have generated greater than 30× genomic sequence coverage using a novel 50-base mate paired strategy with a 1.4kb mean insert library. A total of 1,014,984,286 mate-end and 120,691,623 single-end two-base encoded reads were generated from five slides. All data were aligned using a custom designed tool called BFAST, allowing optimal color space read alignment and accurate identification of DNA variants. The aligned sequence reads and mate-pair information identified 35 interchromosomal translocation events, 1,315 structural variations (>100 bp), 191,743 small (<21 bp) insertions and deletions (indels), and 2,384,470 single nucleotide variations (SNVs). Among these observations, the known homozygous mutation in PTEN was robustly identified, and genes involved in cell adhesion were overrepresented in the mutated gene list. Data were compared to 219,187 heterozygous single nucleotide polymorphisms assayed by Illumina 1M Duo genotyping array to assess accuracy: 93.83% of all SNPs were reliably detected at filtering thresholds that yield greater than 99.99% sequence accuracy. Protein coding sequences were disrupted predominantly in this cancer cell line e to small indels, large deletions, and translocations. In total, 512 genes were homozygously mutated, including 154 by SNVs, 178 by small indels, 145 by large microdeletions, and 35 by interchromosomal translocations to reveal a highly mutated cell line genome. Of the small homozygously mutated variants, 8 SNVs and 99 indels were novel events not present in dbSNP. These data demonstrate that routine generation of broad cancer genome sequence is possible outside of genome centers. The sequence analysis of U87MG provides an unparalleled level of mutational resolution compared to any cell line to date.