当前位置:首页 » 数据仓库 » 三个一级核酸数据库
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

三个一级核酸数据库

发布时间: 2022-05-18 05:03:56

1. 全国儿童dna数据库怎么办理

摘要 全国儿童DNA数据库

2. 国际三大核酸数据库每间隔多长时间就互相交换数据库里的数据

1估计只有用PHP连二次数据库2一个为SQLITE端连接读取,3另一个则为MYSQL的连接;4分别取出需要显示在客户端的数据,5合并成一个数据,显示给客户端即可,6以前我连ACCESS和MSSQL也是这么弄的,效果不是完美,但至少可以达成目标;

3. 什么是生物信息学中的二级数据库

一、生物信息学数据库的种类

分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类:

基因组数据库

核酸和蛋白质一级结构数据库

生物大分子(主要是蛋白质)三维空间结构数据库

由上述3类数据库和文献资料为基础构建的二级数据库

一级数据库(一次数据库) :基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。

二级数据库(二次数据库) :是在一级数据库、实验数据、理论分析的基础上,衍生整理而得。它是根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库。
一般说来,一级数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。

二级数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。

序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。

GenBank:由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)建立(1979-1982)。该中心隶属于美国国家医学图书馆,位于美国家卫生研究院(NIH)内。

EMBL:由欧洲分子生物学实验室(European Molecular Biology Laboratory, 其下有European Bioinformatics Centre)建立(1982),主要位于英国剑桥Cambridge和德国汉堡Hamburg。

DDBJ:日本DNA数据库(DNA Data Bank of Japan)。由the National Institute of Genetics建立(1984-1987), NIG主管。

二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容。

一级数据库与二级数据库之间并无明确的界限。(例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色)。

4. 什么时候需要利用生物信息学获取核酸序列信息

什么时候需要利用生物信息学获取核酸序列信息
1.序列比对
序列比对其意义是从核酸、氨基酸的层次来比较两个或两个以上符号序列的相似性或不相似性,进而推测其结构功能及进化上的联系。研究序列相似性的目的是通过相似的序列得到相似的结构或功能,也可以通过序列的相似性判别序列之间的同源性,推测序列之间的进化关系。序列比对是生物信息学的基础,非常重要。
序列比对中最基础的是双序列比对,双序列比较又分为全局序列比较和局部序列比较,这两种比较均可用动态程序设计方法有效解决。在实际应用中,某些在生物学上有重要意义的相似性不是仅仅分析单条序列,只能通过将多个序列对比排列起来才能识别。比如当面对许多不同生物但蛋白质功能相似时,我们可能想知道序列的哪些部分是相似的,哪些部分是不同的,进而分析蛋白质的结构和功能。为获得这些信息,我们需要对这些序列进行多序列比对。多重序列比对算法有动态规划算法、星形比对算法、树形比对算法、遗传算法、模拟退火算法、隐马尔可夫模型等,这些算法都可以通过计算机得以解决。
2.数据库搜索
随着人类基因组计划的实施,实验数据急剧增加,数据的标准化和检验成为信息处理的第一步工作,并在此基础上建立数据库,存储和管理基因组信息。这就需要借助计算机存储大量的生物学实验数据,通过对这些数据按一定功能分类整理,形成了数以百计的生物信息数据库,并要求有高效的程序对这些数据库进行查询,以此来满足生物学工作者的需要。数据库包括一级数据库和二级数据库,一级数据库直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是对基本数据进行分析、提炼加工后提取的有用信息。
分子生物学的三大核心数据库是GenBank核酸序列数据库,SWISS-PROT蛋白质序列数据库和PDB生物大分子结构数据库,这三大数据库为全世界分子生物学和医学研究人员了解生物分子信息的组织和结构,破译基因组信息提供了必要的支撑。但是用传统的手工分析方法来处理数据显然已经无法跟上新时代的步伐,对于大量的实验结果必须利用计算机进行自动分析,以此来寻找数据之间存在的密切关系,并且用来解决实际中的问题。
3.基因组序列分析
基因组学研究的首要目标是获得人的整套遗传密码,要得到人的全部遗传密码就要把人的基因组打碎,测完每个小的序列后再把它们重新拼接起来。所以目前生物信息学的大量工作是针对基因组DNA序列的,建立快速而又准确的DNA序列分析方法对研究基因的结构和功能有非常重要的意义。对于基因组序列,人们比较关心的是从序列中找到基因及其表达调控信息,比如对于未知基因,我们就可以通过把它与已知的基因序列进行比较,从而了解该基因相关的生理功能或者提供疾病发病机理的信息,从而为研发新药或对疾病的治疗提供一定的依据,使我们更全面地了解基因的结构,认识基因的功能。因此,如何让计算机有效地管理和运行海量的数据也是一个重要问题。
4.蛋白质结构预测
蛋白质是组成生物体的基本物质,几乎一切生命活动都要通过蛋白质的结构与功能体现出来,因此分析处理蛋白质数据也是相当重要的,蛋白质的生物功能由蛋白质的结构所决定,因此根据蛋白质序列预测蛋白质结构是很重要的问题,这就需要分析大量的数据,从中找出蛋白质序列和结构之间存在的关系与规律。
蛋白质结构预测分为二级结构预测和空间结构预测,在二级结构预测方面主要有以下几种不同的方法:①基于统计信息;②基于物理化学性质;③基于序列模式;④基于多层神经网络;⑤基于图论;⑥基于多元统计;⑦基于机器学习的专家规则;⑧最邻近算法。目前大多数二级结构预测的算法都是由序列比对算法BLAST、FASTA、CLUSTALW产生的经过比对的序列进行二级结构预测。虽然二级结构的预测方法其准确率已经可以达到80%以上,但二级结构预测的准确性还有待提高。
在实际进行蛋白质二级结构预测时,往往会把结构实验结果、序列比对结果、蛋白质结构预测结果,还有各种预测方法结合起来,比较常用的是同时使用多个软件进行预测,把各个软件预测结果分析后得出比较接近实际的蛋白质二级结构。将序列比对与二级结构预测相结合也是一种常见的综合分析方法。
蛋白质二级结构指蛋白质多肽链本身的折叠和盘绕的方式。二级结构主要有α-螺旋、β-折叠、β-转角等几种形式,它们是构成蛋白质高级结构的基本要素,常见的二级结构有α-螺旋和β-折叠。三级结构是在二级结构的基础上进一步盘绕,折叠形成的。研究蛋白质空间结构的目标是为了了解蛋白质与三维结构的关系,预测蛋白质的二级结构预测只是预测蛋白质三维形状的第一步,蛋白质折叠问题是非常复杂的,这就导致了蛋白质的空间结构预测的复杂性。蛋白质三维结构预测方法有:同源模型化方法、线索化方法和从头预测的方法但是无论用哪一种方法,结果都是预测,采用不同的算法,可能产生不同的结果,因此还需要研究新的理论计算方法来预测蛋白质的三维结构。
图4.1 蛋白质结构
目前,已知蛋白质序列数据库中的数据量远远超过结构数据库中的数据量,并且这种差距会随着DNA序列分析技术和基因识别方法的进步越来越大,人们希望产生蛋白质结构的进度能够跟上产生蛋白质序列的速度,这就需要对蛋白质结构预测发展新的理论分析方法,目前还没有一个算法能够很好地预测出一个蛋白的三维结构形状,蛋白质的结构预测被认为是当代计算机科学要解决的最重要的问题之一,因此蛋白质结构预测的算法在分子生物学中显得尤为重要。
5.结束语
现如今计算机的发展已渗透到各个领域,生物学中的大量实验数据的处理和理论分析也需要有相应的计算机程序来完成,因此随着现代科技的发展,生物技术与计算机信息技术的融合已成为大势所趋。生物学研究过程中产生的海量数据需要强有力的数据处理分析工具,这样计算机科学技术就成为了生物科学家的必然选择,虽然人们已经利用计算机技术解决了很多生物学上的难题,但是如何利用计算机更好地处理生物学中的数据仍是一个长期而又复杂的课题。

5. 核酸序列、结构数据库有哪些

美国的核酸数据库GenBank
http://www.ncbi.nlm.nih.gov
欧洲核酸序列数据库EMBL
http://www.embl-heidelberg.de
日本核酸序列数据库DDBJ
http://www.ddbj.nig.ac.jp

这是目前世界三大核酸数据库.不本我们用的最多的还是NCBI,基本上是不用日本的!

6. 基因数据库 一般使用什么数据库

集合所有已知核酸的核苷酸序列,单核苷酸多态性、结构、性质以及相关描述,包括它们的科学命名、来源物种分类名称、参考文献等信息的资料库。基因和基因组的资料也包含在DNA数据库中。目前国际上比较重要的核酸(含蛋白质)一级数据库有美国的GenBank、欧洲的EMBL和日本的DDBJ。三个数据库信息共享,每日交换,故资料是一样的,唯格式有所不同。

7. ncbi,embl和什么并称三大数据库

DDBJ:DNA Data Base of Japan 是日本人建立的核酸数据库;
NCBI中的Genbank是美国建立的核酸数据库;
EMBL是欧洲建里的核酸数据库;
这三个数据库是连通的,数据共享。

8. YLWWINNER是什么

分子生物学数据库的演变经历了文献索引数据库、事实数据库和知识数据库三个阶段。

生物信息学涉及的数据库可大致分为二种:初级数据库和二级数据库。

一级数据库(初级数据库):数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。

二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

国际上着名的初级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等;基因组数据库等。
国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。
EMBL数据库的每个条目是一份纯文本文件。每一行最前面是由两个大写字母组成的识别标志, 欧洲国家的许多数据库如SWISS-PROT、ENZYME、TRANSFAC 都采用EMBL格式。

GenBank序列文件由单个的序列条目组成。序列条目是一个纯文本文件,由字段组成,每个字段由关键字(为完整的英文字,不用缩写)起始(每行左端或为空格),后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。

Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献着作和生物学注释。

PubMed系统是由美国国立生物技术信息中心(NCBI)开发的用于检索MEDLINE、PreMED-LINE数据库的网上检索系统。MEDLINE是美国国立医学图书馆(U.S.National Library of Medicine)最重要的书目文摘数据库,内容涉及医学、护理学、牙科学、兽医学、卫生保健和基础医学。

BLAST(Basic Local Alignment Search Tool):是目前常用的数据库搜索程序,意为“基本局部相似性比对搜索工具”。国际着名生物信息中心都提供基于网络的BLAST服务器。

SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库。

数据库查询(database query) :对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。有时也称数据库检索,它和互联网上通过搜索引擎 (Search engine) 查找需要的信息是一个概念。

数据库搜索(database search

是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。最为着名的信息检索系统是美国NCBI开发的Entrez数据检索系统和EBI开发的SRS序列检索系统

数据库相似性搜索工具最常见的是FASTA工具和BLAST工具。

EMBL的发送系统为WebIn

GenBank 的发送系统sequin

测序工作者可以把自己工作中获得的新序列提交给NCBI,添加到Genbank数据库。这个任务可以由基于Web界面的BankIt或独立程序Sequin来完成。

确定DNA序列之间或蛋白质序列之间相似性程度的过程称为序列比对(sequence alignment)。

双序列比对(pairwise alignment)是指通过一定算法对两个DNA或蛋白质序列进行比较,找出两者之间最大相似性匹配。

变异的种类主要有以下三种: 替代(substitution)插入或删除(insertion or deletion) indel 重排(rearrangement

同源序列是从某一共同祖先经趋异进化而形成的不同序列 。

相似性(similarity)指序列比对过程中用来描述序列之间相同或相似DNA碱基或氨基酸残基序列所占比例的高低。
同源性(homology)是指从一些数据中判断出两个基因在进化上曾具有共同祖先的结论。

全局比对(global alignment):
从全长序列出发,考察两个序列之间的整体相似性。

局部比对(local alignment):
着眼于序列中的某些特殊片断,比较这些片断之间的相似性、

(3)K-元法/字法

(k-tuple method /word method)

该方法从寻找完全匹配的短片断(称为k-元或字)出发,并以此为基础运用动态规划方法将这一片断向两端延伸,得到较长的相似性匹配。

在进行序列两两比对时,有两方面问题直接影响相似性分值:取代矩阵和空位罚分。

空位:序列中任意连续的尽可能长的空格

空位开放 (gap opening)

对新空位的产生进行的空位开放罚分(a)

空位延伸(gap extension )

对空位延伸所进行的空位延伸罚分(b)

空位罚分(Wk)的数学公式

Wk=a+bk k为连续空位个数

@空位处罚特点:1、同常对于a会选择一个高分(10-15分)对于b会选择一个低分(1-2分)

2、大的空位设置值配以很小的空位扩展罚值被普遍证实是最佳的设定思路

@目前最有名的蛋白质矩阵Blosum、PAM

@PAM矩阵要点:可观测突变百分率

核酸序列的检索

1.NCBI中的Entrez

*核酸中载体序列的识别和去除VecScreen

重复序列分析 有CENSOR(EMBL)和RepeatMasker

CpG岛识别 CpGPlot/CpGReport

启动子与转录因子结合位点的识别TRES、Neural Network Promoter Prediction、Dragon Promoter Finder、 promoterInspector、NNPP2.1、TSSG、promoter2.0、Mcpromoter 。

内含子-外显子剪接位点的识别SpliceView、NetGene2和BDGP中Splice Site Prediction等。

编码区统计特性分析GRAIL和GenMark

tRNA基因的识别tRNAscan-SE

其它综合基因预测工具GENSCAN

限制性内切酶分析REBASE(从google英文界面进入)

在线限制性酶切资源NEBcutter V2.0 WebCutter

PCR引物设计Primer 3 Genefisher

① 引物应用核酸系列保守区内设计并具有特异性。
② 产物不能形成二级结构。
③ 引物长度一般在15~30bp碱基之间,常用的是18~27bp,但不应大于38bp,两引物长度差异不超过3bp。
④ G+C含量在40%~60%之间。
⑤ 退火温度在42~57℃,但两引物间的退火温度的差不可大于5℃ 。
⑥ 引物自身不能有连续4个碱基的互补。
⑦ 引物之间不能有连续4个碱基的互补。
⑧ 引物5′端可以修饰(加酶切位点序列;标记生物素、荧光素、地高辛等 )。
⑨ 引物3′端不可修饰。
⑩ 引物3′端要避开密码子的第3位,一般避免使用碱基A,最好为G和C。

PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,

PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。

ProtParam工具这是用于计算蛋白质的各种物理化学性质的工具,包括蛋白质的相对分子质量、理论pI值、氨基酸组成、原子组成、消光系数、半衰期、不稳定系数以及总平均亲水性等。

Compute pI/MW工具 是ExPASy工具包中的程序,计算蛋白质的等电点和分子量。对于碱性蛋白质,计算出的等电点可能不准确。

AACompldent工具 根据氨基酸组成辨识蛋白质。

PeptideMass工具 是分析蛋白质在各种蛋白酶和化学试剂处理后的内切产物。

蛋白质二级结构预测

nnpredict工具 (不能用,二级结构预测改用GOR)

HNN工具- Hierarchical Neural Network method

ProtScale工具蛋白质的疏水性分析

Tmpred---跨膜结构分析

COILS---卷曲螺旋预测

SignalP ---信号肽预测工具

蛋白质三级结构预测

SWISS-Model工具 自动蛋白质同源模建服务器,有三个工作模式:Automated Mode、 Alignment Mode和 Project Mode。程序先把提交的序列在ExPdb晶体图像数据库中搜索相似性足够高的同源序列,建立最初的原子模型,再对这个模型进行优化产生预测的结构模型。

最为着名的三大核心数据库:PDB 生物大分子结构数据库;SWISS-PROT 蛋白质序列数据库;

GENBANK 核酸数据库

公认三大核酸数据库:NCBI(美) EMBL(欧洲) DDBJ(日)

9. 常用核酸序列数据库的介绍

并通过计算机网络每天都将新发现或更新过的数据进行交换,以保证这三个数据库序列信息的完整性。