当前位置:首页 » 数据仓库 » 基因整合数据库
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

基因整合数据库

发布时间: 2022-10-28 08:28:55

㈠ DNA数据库的GenBank

大型数据库分成若干子库,有许多好处。首先,可以把数据库查询限定在某一特定部分,以便加快查询速度。其次,基因组计划快速测序得到的大量序列尚未加以注释,将它们单独分类,有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列(High Throughput Genomic Sequences,HTG)、表达序列标记(Expressed Sequence Tags,EST)、序列标记位点(Sequence Tagged Sites,STS)和基因组概览序列(Genome Survey Sequences,GSS)单独分类。尽管这些数据尚未加以注释,它们依然是GenBank的重要组成部分。
可通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外,通过该系统的文献摘要数据库MEDLINE,可获取有关序列的进一步信息。在万维网上,进入NCBI的主页,可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索(详见第六章)。
完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发,价格比较便宜。随着数据库容量的增长,一套最新版的GenBank需要12张光盘存放,不仅生产成本很高,也不便于使用。现在,光盘分发的方式已经停止,可以通过网络下载GenBank数据库。
GenBank中最常用的是序列文件。序列文件的基本单位是序列条目,包括核甘酸碱基排列顺序和注释两部分。目前,许多生物信息资源中心通过计算机网络提供该数据库文件。下面,我们介绍序列文件的结构。
序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。
序列条目的关键字包括代码(LOCUS),说明(DEFINITION), 编号(ACCESSION),核酸标识符(NID),关键词(KEYWORDS),数据来源(SOURCE),文献(REFERENCE),特性表(FEATURES),碱基组成(BASE COUNT)及碱基排列顺序(ORIGIN)。
代码LOCUS是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。例如,图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容,如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述,如本例为人环氧化酶-2的mRNA全序列。
序列代码具有唯一性和永久性,如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列,在文献中引用这个序列时,应该以此代码为准。核酸标识符NID对序列信息的当前版本提供?
关键词字段由该序列的提交者提供,包括该序列的基因产物以及其它相关信息,如本例中还氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。 数据来源字段说明该序列是从什么生物体、什么组织得到的,如本例中人脐带血管(umbilical vein)。次关键字种属(ORGANISM)指出该生物体的分类学地位,如本例人、真核生物等等。文献字段说明该序列中的相关文献,包括作者(AUTHORS),题目(TITLE)及杂志名(JOURNAL)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。
FEATURES是具有自己的一套结构,用来详细描述序列特性的一个表格。在这个表格内,带有‘/db-xref/’标志的字符可以连接到其它数据库内(本例,您看到的是一个分类数据库(taxon 9606),以及一个蛋白质数据库(PID:g181254));序列中各部分的位置都加以标明,5’非编码区(1-97),编码区(98-1912),3非编码区(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面,但已经足以说明特性表给出信息的详细程度。
接下来是BASE COUNT记录,计算出不同碱基在整个序列中出现的次数(1010A,712个C,633个G,1032个T)。ORIGIN那一行,指出了序列第一个碱基在基因组中可能的位置。最后,核酸的序列全部列出,并以//作为结尾。

㈡ 国家基因库生命大数据平台是什么能提供哪些服务

生物信息数据库主要建设储存基因信息的高性能数据管理系统,构建个人健康管理和支持生命科学研究的可运营大数据平台和全社会广泛参与的大数据系统。目前已构建四十多个数据库,总访问量达1.18亿;千万级民生项目数据库,涵盖HPV、地贫、耳聋等等;科学杂志GigaScience在综合性期刊类别中排名全球第六。基于大数据共享理念开发的生物大数据时代的搜索引擎国家基因库信息库统一检索系统,已经整合了超过8千个物种/品种、27个人种、1千万个基因、5亿条序列数据、3亿条变异信息和关联1Pb原始数据量,实现总可检索条目数8.8亿条。 生物信息数据库致力于存储人类健康及生物多样性相关的数字化遗传资源,构建生物数据库及数据分析平台,实现数据存储、分析的贯穿,为后续科研及产业提供大数据源头保障,支撑国家精准医学和精准农业发展,促进大数据分析、构建健康云服务,引领互联网+健康的合作,成为大数据生物学时代研究生物生长发育、衰老、死亡以及向产业化推广的有利工具。

㈢ pan-cancer的基因表达在哪个数据库

数据库名称:Oncomine数据库。
基因表达差异分析(通过检索基因表达谱差异,挖掘具有研究价值的靶分子,检索特定研究靶分子,分析其在肿瘤中的表达情况),多基因共表达分析,Oncomine和TCGA相比的优势就是,它除了数据,还提供了一些简洁易操作的分析工具,如差异表达分析、共表达分析等,分析后可以直接出图用在文章里。另外它还整合了TCGA和GEO的部分数据。

㈣ 基因组数据库的介绍

基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的网络全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。

㈤ GO 和 KEGG 的区别

1、属性不同

Go(又称 Golang)是 Google 的 Robert Griesemer,Rob Pike 及 Ken Thompson 开发的一种静态强类型、编译型语言。功能:内存安全,GC(垃圾回收),结构形态及 CSP-style 并发计算。

KEGG 是了解高级功能和生物系统(如细胞、 生物和生态系统),从分子水平信息,尤其是大型分子数据集生成的基因组测序和其他高通量实验技术的实用程序数据库资源,是国际最常用的生物信息数据库之一,以“理解生物系统的高级功能和实用程序资源库”着称。

2、性质不同

go是计算机编程语言。

KEGG基因组破译方面的数据库。

(5)基因整合数据库扩展阅读:

Go的语法接近C语言,但对于变量的声明有所不同。Go支持垃圾回收功能。Go的并行模型是以东尼·霍尔的通信顺序进程(CSP)为基础,采取类似模型的其他语言包括Occam和Limbo。

但它也具有Pi运算的特征,比如通道传输。在1.8版本中开放插件(Plugin)的支持,这意味着现在能从Go中动态加载部分函数。

与C++相比,Go并不包括如枚举、异常处理、继承、泛型、断言、虚函数等功能,但增加了 切片(Slice) 型、并发、管道、垃圾回收、接口(Interface)等特性的语言级支持。Go 2.0版本将支持泛型,对于断言的存在,则持负面态度,同时也为自己不提供类型继承来辩护。

不同于Java,Go内嵌了关联数组(也称为哈希表(Hashes)或字典(Dictionaries)),就像字符串类型一样。

KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。

人工创建了一个知识库,这个知识库是基于使用一种可计算的形式捕捉和组织实验得到的知识而形成的系统功能知识库。它是一个生物系统的计算机模拟。

与其他数据库相比,KEGG 的一个显着特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其所要研究的代谢途径有一个直观全面的了解。

㈥ 基因组数据库的简介

基因组数据库是分子生物信息数据库的重要组成部分。基因组数据库内容丰富、名目繁多、格式不一,分布在世界各地的信息中心、测序中心、以及和医学、生物学、农业等有关的研究机构和大学。基因组数据库的主体是模式生物基因组数据库,其中最主要的是由世界各国的人类基因组研究中心、测序中心构建的各种人类基因组数据库。小鼠、河豚鱼、拟南芥、水稻、线虫、果蝇、酵母、大肠杆菌等各种模式生物基因组数据库或基因组信息资源都可以在网上找到。随着资源基因组计划的普遍实施,几十种动物、植物基因组数据库也纷纷上网,如英国Roslin研究所的ArkDB包括了猪、牛、绵羊、山羊、马等家畜以及鹿、狗、鸡等基因组数据库,美国、英国、日本等国的基因组中心的斑马鱼、罗非鱼(Tilapia)、青鳉鱼(Medaka)、鲑鱼(Salmon)等鱼类基因组数据库。英国谷物网络组织(CropNet)建有玉米、大麦、高粱、菜豆农作物以及苜蓿(Alfalfa)、牧草(Forage)、玫瑰等基因组数据库。除了模式生物基因组数据库外,基因组信息资源还包括染色体、基因突变、遗传疾病、分类学、比较基因组、基因调控和表达、放射杂交、基因图谱等各种数据库。

㈦ 基因数据库有哪些

单核苷酸多态性、结构、性质以及相关描述。
集合所有已知核酸的核苷酸序列,单核苷酸多态性、结构、性质以及相关描述,包括它们的科学命名、来源物种分类名称、参考文献等信息的资料库。
基因和基因组的资料也包含在DNA数据库中。目前国际上比较重要的核酸(含蛋白质)一级数据库有美国的GenBank、欧洲的EMBL和日本的DDBJ。三个数据库信息共享,每日交换,故资料是一样的,唯格式有所不同。

㈧ 分析miRNA的数据库都有哪些

1、starBase

一个高通量实验数据CLIP-Seq(或称为HITS-CLIP,PAR-CLIP,iCLIP)和mRNA降解组测序数据支持的microRNA靶标数据库,包含了miRNA-mRNA,miRNA-lncRNA,miRNA-circRNA,miRNA-ceRNA 和RNA-protein等的调控关系。整合和构建多个流行的靶标预测软件的交集和调控关系。最新版本发布时间:2013年11月。

2、miRbase

众所周知的microRNA基因注释数据库。目前miRBase只提供了microRNA的靶标的预测软件的链接(如:PicTar)。最新版本发布时间:2010年9月。

3、ChIPBase

整合CLIP-Seq和ChIP-Seq的数据探讨microRNA的转录和转录后调控,构建转录因子->microRNA->靶标的调控网络。最新版本发布时间:2012年11月。

4、Tarbase

一个收集已被实验验证的microRNA靶标数据库。最新版本发布时间:2009年1月。

5、miRecords

一个整合的microRNA靶标数据库。整合多个靶标预测软件的调控关系。最新版本发布时间:2010年11月。

6、targetScan

基于靶mRNA序列的进化保守等特征搜寻动物的microRNA靶基因。是预测microRNA靶标假阳性率较低的软件。而且是microRNA领域大牛Bartel实验室开发的。最新版本发布时间:2009年4月。

7、PicTar

基于microRNA或microRNA靶标联合作用等特征开发的搜寻动物的microRNA靶基因。假阳性率也较低。是microRNA领域大牛Rajewsky实验室开发的。最新版本发布时间:2007年3月。

8、PITA

基于靶位点的可接性和自由能预测microRNA的靶标。是着名的生物信息学家Segal实验室开发的。最新版本发布时间:2008年8月。

9、RNA22

基于序列特征预测microRNA的结合位点。是几个流行的microRNA靶标预测软件的其中一个。IBM公司的研究团队开发的。最新版本发布时间:2007年。

10、miRanda和microRNA.org

是着名的MemorialSloan-Kettering 癌症研究中心的研究人员开发的软件和数据库。miRanda的最新版本又叫mirSVR。最新版本发布时间:2010年8月。

11、MicroCosm

EMBL-EBI的Enright 实验室开发的microRNA靶标数据库。最新版本发布时间:2010年8月。

12、miRTarBase

整合实验证实的microRNA靶标的数据库。最新版本发布时间:2010年10月。

13、miRGator v2.0

整合microRNA表达、靶标和疾病相关信息的数据库。最新版本发布时间:2010年11月。

14、MiRNAMap

动物的microRNA基因及其靶标的数据库。最新版本发布时间:2008年1月。

15、miRDB

动物microRNA靶标预测和功能注释数据库。最新版本发布时间:2010年8月。

16、RNAhybrid

一个基于miRNA-target配对自由能预测microRNA的靶标。最新版本发布时间:2011年6月。

17、miRGen

microRNA基因和microRNA靶标数据库。最新版本发布时间:2007年1月。

㈨ 国家基因库的简介


深圳国家基因库着眼于为本国生命科学研究和生物产业发展提供基础性和公益性服务平台,储存和管理本国特有的遗传资源、生物信息和基因数据,是维系一个民族生存与发展的命脉,具有国家水平、服务国家战略需求的公益性创新科研和产业基础项目。
国家基因库集生物资源样本库、生物信息数据库和生物资源信息网络为一体,通过建立高水平的生物资源样本库、高效的生物信息数据处理、存储与管理系统以及覆盖广泛的联盟网络,有效保护、合理开发和利用我国生物资源及基因数据资源,充分调动、发挥及整合各地区、各单位的资源和技术优势, 积极开展广泛交流与合作,搭建信息资源研究开发的基础性支撑平台,提高我国生命科学研究水平和国际影响力, 促进我国生物产业发展。

㈩ 国家基因库:人类存储健康信息的“生命银行”

深圳市大鹏新区大鹏街道下沙片区禾塘仔,这里依山傍海,环境优美,背山面海的几栋白色的建筑并不起眼,但令人难以置信的是,庞大的数据如同螺旋一般,每天从这里源源不断地涌出。这些白色的梯田造型的建筑就是中国首个获批筹建的国家基因库,也是目前全球最大的综合性基因库。

国家基因库项目一期占地面积4.75万平方米,拥有基因测序房、超级计算房以及冷冻资源房,相较于其庞大的建筑规模,它丰富的内容更是令人瞠目结舌:国家基因库目前已存储多种生物资源样本1000万份,可检索生物信息条目数已经超过一个亿,我国更是计划把它打造成为中国的诺亚方舟,建立一个巨大的生物活体库,保护和保存世界约三十万种植物、百万种动物、近千万种微生物活体资源。如此大手笔、高规格的项目究竟什么来头?建立国家基因库的意义何在?下面就让我们一起走进关于国家基因库的专业解读。

“科普中国”是中国科协携同社会各方利用信息化手段开展科学传播的科学权威品牌。

本文由科普中国融合创作出品,转载请注明出处。