当前位置:首页 » 数据仓库 » tcga数据库中样本编号的意义
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

tcga数据库中样本编号的意义

发布时间: 2022-09-26 23:29:00

1. 如何处理TCGA的数据

首先说下背景,我毕论有大量涉及到生存曲线分析。针对某个我们已挖掘到白血病中的差异基因,利用了TCGA上的临床数据。

需要的数据:TCGA上的临床数据。当你下下来时会发现有一大堆。这时需要你做的就是筛选你所需要的。你需要的有:目的基因的表达量、患者生存时间、患者生存/死亡状态。这里的目的基因可以是你前期差异基因分析/通路分析/临床分析等所得到的一个或几个基因,你需要在下一步生存分析中进一步验证其预后影响。

软件:SAS、Grapdprism、SPSS、R语言都可以用。但个人感觉SAS的算法更精准,Gradprism在画图上更漂亮且易操作。看你需求了。

检验算法:采用Kaplan-Meier (K-M) 生存分析法来计算生存时间及生存率,采用Log-rank检验比较生存差异,取P值小于0.05为有统计学意义。

具体操作原理:根据目的基因的表达量,将患者分为高表达组和低表达组。这里的分组方法,可以是根据平均值,也可以是中值。我查阅了大量文献,认为中值更合理。将分组后的两组患者数据导入软件,这里的软件可以是上所述的任意一种,而数据包括了患者生存时间、患者生存/死亡状态。注:表达量只用来分组,不用来画生存分析。

2. tcga数据库样本哪些是肿瘤哪些是正常

答案就在TCGAbarcode,样本标签描述了样本类型,是正常的还是异常的。还是对照组。比如胶质瘤RNAseq的barcode,有174个样本类似于这个:

TCGA-06-0681-11A-41R-A36H-07

TCGA-06-0649-01B-01R-1849-01

第四个字段:11A和01B描述的就是样本类型,1-9是肿瘤,10-19是正常,20-29是对照。A和B我也不知道啥意思。由于TCGAbarcode字段宽度是严格的。因此用substr就可提取

names=colnames(RNAseq_dat)

a=as.numeric(substr(names,14,15))

table(a)

可以看见数据中有5个是正常组织样本

----------------------

Xena网站(网页链接)有整理好的TCGA数据,包括数据集和样本表格。样本表格数据详细,包含生存期,肿瘤分期分级,突变,亚型等等。

3. 请教关于TCGA数据的问题

Case列显示的是该文件里数据来自于多少cases。比如569,说明这个文件整合了所有569个cases的genotyping数据,有些数字为1的,说明这个文件里只有一个case的数据。
对于RNAseq后续的分析,如果要用软件比如limma,edgeR比较表达差异的基因,就用counts数据。如果你想自己做t-test,下载counts数据自己做normalization再进行比较也行,或者下载已经做过normalization的RPKM/RPKM-UQ直接比较也行
癌旁的数据也包含在这些cases里了,下载metadata就能看到每个sample的信息,你会发现有些是来自solid tissue normal,这些都是癌旁的数据

4. 如何快速掌握TCGA数据库

tcga工作组发的文章。
The Cancer Genome Atlas (TCGA,https://tcga-data.nci.nih.gov/tcga/tcgaHome2.jsp)数据库。TCGA数据源大部分都是公开的。
目前来能够从TCGA数据库中提取数据的处理工具有cBioPortal(http://www.cbioportal.org/public-portal/cgds_r.jsp),ICGC(http://dcc.icgc.org/download/current)和GenePattern(http://www.broadinstitute.org/cancer/software/genepattern/download/index)。

5. 如何快速掌握TCGA数据库

如何快速掌握TCGA数据库
读tcga工作组发的文章,直接读发在cell上的一篇泛癌症的文章,正文➕附件,能复现文章中的结果,就行了。

6. 如何快速掌握TCGA数据库

‍‍

在proportional里面搜你感兴趣的肿瘤,然后就会出现很多研究,在每个研究后面都有summary,你点击进去就有临床数据,有的还有变异和拷贝数变化的数据。目前个人感觉临床数据这块还是proportional这儿比较方便,其他的例如基因表达的数据cancer browser还是可能会好些,各种各样的都可以试试,不过原始的TCGA数据还是觉得一般是高手才去弄,新手还是多学习,站在巨人的肩膀上再去。The Cancer Genome Atlas,TCGA, 数据库。TCGA数据源大部分都是公开的。目前来能够从TCGA数据库中提取数据的处理工具有proportional。

‍‍

7. 如何查询TCGA数据库中哪些数据是可以公开获取的

咨询记录 · 回答于2021-10-13

8. 关于TCGA数据库的问题,新手求助

这种东西是看不出来是否判断与肿瘤有关的,肿瘤本身具有远端转移特性,从各个组织中都有可能存在。所以如果想要看pathway是否与肿瘤相关,就需要点进去查看相关文献,把各种蛋白摸透,才能够搞定,如果仅仅凭借go数据库的pathway来的就能判断了