当前位置:首页 » 数据仓库 » geo数据库怎么筛选数据
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

geo数据库怎么筛选数据

发布时间: 2022-11-27 05:14:11

A. 怎么才能从凌乱的数据库里筛选出需要的数据

这个需要根据条件检索查询的。检索是数据库最基本的一个功能。

比如我们可以查某年某月的数据或者查张三、李四的数据。根据不同条件去数据库查询,然后把符合条件的数据列出来。

B. 如何在GEO数据库中找到需要的数据

假设这组数据在A1:A100这个区域 ,公式:
=INDEX(A:A,INT(RAND()*100)+1)

或者:
=OFFSET(A1,INT(RAND()*100),)

C. 数据库怎么筛选出同一项目下的所有数据

将Excel表格中单位名称导入access中,表取名单位名称,原有数据表名为单位(单位名称、地址、电话),建查询:将单位名称和单位这两个表都加到查询设计窗格中,两个共同字段:单位名称建立连接,单击那条线—右键—选2,包括“单位名称”中的所有记录和“单位”中联接字段相等的那些记录。然后单位名称表选单位名称,单位表选地址、电话。象下图这样,就可以了。

D. 如何对GEO数据库中已有的数据进行分析

差异表达基因的筛选(阀值)以及后面的生物信息分析都可以做的。

差异表达基因筛选步骤:选择GEO数据——下载芯片数据——差异分析(方法有很多:SAM法,R包处理,T-test检验等)——选择想要的阈值(Fold change >4)

E. kegg数据库和geo数据库区别

GEO筛选差异,KOBAS注释分析。
GEO数据库来筛选差异表达基因,KOBAS进行KEGG注释分析
利用基因在不同物种之间的保守性,任何基因组的数据都可以映射到这些数据库中去。

F. geo数据库有牛的吗

GEO数据库是一个储存芯片、二代测序以及其他高通量测序数据的一个数据库。利用这个数据库,我们可以检索到其他一些人上传的一些实验测序数据。
由于GEO数据库和我们之前介绍的gene数据库a以及我们常用来搜索文献的pubmed都是一个机构的。使用这个数据库,我们需要做的就是就是就是提供检索式。检索式可以是简单的几个关键词,也可以是制定特殊的检索式。我们一般可以用到的进一步筛选的过程就是:在样本类型当中寻找自己想要的物种。由于GEO包括了很多不同组学的数据,如果我们有特定的检索目的的话,我们可以在aStudyaType当中来选择合适的数据类型。默认的检索结果的排序是基于检索相关性来排序的。而我们再找目标数据的时候。有时候需要看样本量,一般来说样本量越大其实也就越好的。所以我们可以改变一下检索结果的排序。

G. 基因芯片数据分析-1: 使用GEOquery 包从GEO获取数据

GEOquery 包使用指南

GEO(The NCBI Gene Expression Omnibus)是NCBI专门储存高通量测序的库。如基于芯片数据(mRNA、DNA、蛋白丰度),蛋白质质谱数据和高通量测序数据。
GEO数据主要有4种基本类型。Sample, Platform 和 Series是由作者上传的数据,dataset是由GEO官方从做和提交的数据整理出来的。

## 1.1 Platforms
GEO 号:GPLxxx。
芯片的组成信息,例如 cDNAs, oligonucleotide probesets, ORFs, antibodies 。或者其它定量检测平台信息,例如SAGE tags, peptides。

## 1.2 Samples
GEO 号: GSMxxx

描述单个样本信息,处理步骤、处理条件以及实验测得的结果。一个样本可能属于多个研究(Series)。

## 1.3 Series
GEO 号:GSExxx

涉及同一个研究的记录,包括处理过的数据、总结和分析;信息可以从GSEMatrix文件解析快速得到。

##1.4 Datasets
GEO 号:GDSxxx

一套经过整理的GEO 数据集。每套数据都是可以进行生物学或者统计学上比较的样本,是GEO自带工具进行数据分析和展示的基础。一个 GDS数据集来自同一个平台,数据分析和标准化都具有一致性。

getGEO 函数可以从GEO官网获取数据或者将固定格式数据解析为R格式的数据。

GEOquery 数据结构大致分为两类。第一种是GDS, GPL和GSM,他们的操作和数据类型差不多;第二种是GSE,GSE数据是由GSM和GPL整合而成。

## 3.1 GDS, GSM 和 GPL

这些数据类组成

可以使用show()查看这些数据类。

##3.2 GSE类

GSE类组成:

GEO datasets与limma 数据结构MAList 和Biobase数据结构 ExpressionSet比较相似。可以相互转换:

## 4.1 Getting GSE Series Matrix files as an ExpressionSet
GEO Series是一套实验数据的集合,有SOFT,MINiML格式文件,以及一个 Series Matrix File(s)文本。Series Matrix File是tab-delimited text, getGEO 函数可以解析,解析结果就是ExpressionSets。

一个GSE下如果存在多个GPL测序,筛选特定的GPL数据;GSE会有多个列表 gset[[idx]]

##4.2 Converting GDS to an ExpressionSet

##4.3 Converting GDS to an MAList
ExpressionSet不包含注释信息, getGEO 可以帮助我们获取。

与ExpressionSet不同,the limma MAList 包含基因注释信息。上面的gpl包含注释信息。

MAList不仅包含数据,还包含样本信息,和注释信息。

4.4 Converting GSE to an ExpressionSet
GSE转换成ExpressionSet

这个GSE包含两个GPLs,GPL96 和 GPL97。

筛选使用GPL96 的GSM。

获取表达矩阵:

构造ExpressionSet

##6.1 Getting all Series Records for a Given Platform

英文版原文见:[Using the GEOquery Package

H. 如何在geo数据库找想要的数据库

1、首先GEO数据库是个什么鬼呢?
GEO数据库全称GENE EXPRESSION
OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。
2、那GEO数据库有哪些检索入口呢?
最常用的有两种方式,如果你知道GSE编号可以通过网址http://www.ncbi.nlm.nih.gov/geo直接进入,具体编号介绍文件下载方法见:https://www.omicsclass.com/article/1100
另外一种就是通过NCBI主页的入口基因搜索下载。通常是不知道GEO编号,通过样品类型,实验处理,平台信息等搜索筛选想要的GEO数据:https://www.ncbi.nlm.nih.gov/,进入NCBI主页,搜索数据选择GEO DataSets,如果搜索某个基因表达量可选择GEO Profiles。