當前位置:首頁 » 數據倉庫 » tcga資料庫中樣本編號的意義
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

tcga資料庫中樣本編號的意義

發布時間: 2022-09-26 23:29:00

1. 如何處理TCGA的數據

首先說下背景,我畢論有大量涉及到生存曲線分析。針對某個我們已挖掘到白血病中的差異基因,利用了TCGA上的臨床數據。

需要的數據:TCGA上的臨床數據。當你下下來時會發現有一大堆。這時需要你做的就是篩選你所需要的。你需要的有:目的基因的表達量、患者生存時間、患者生存/死亡狀態。這里的目的基因可以是你前期差異基因分析/通路分析/臨床分析等所得到的一個或幾個基因,你需要在下一步生存分析中進一步驗證其預後影響。

軟體:SAS、Grapdprism、SPSS、R語言都可以用。但個人感覺SAS的演算法更精準,Gradprism在畫圖上更漂亮且易操作。看你需求了。

檢驗演算法:採用Kaplan-Meier (K-M) 生存分析法來計算生存時間及生存率,採用Log-rank檢驗比較生存差異,取P值小於0.05為有統計學意義。

具體操作原理:根據目的基因的表達量,將患者分為高表達組和低表達組。這里的分組方法,可以是根據平均值,也可以是中值。我查閱了大量文獻,認為中值更合理。將分組後的兩組患者數據導入軟體,這里的軟體可以是上所述的任意一種,而數據包括了患者生存時間、患者生存/死亡狀態。註:表達量只用來分組,不用來畫生存分析。

2. tcga資料庫樣本哪些是腫瘤哪些是正常

答案就在TCGAbarcode,樣本標簽描述了樣本類型,是正常的還是異常的。還是對照組。比如膠質瘤RNAseq的barcode,有174個樣本類似於這個:

TCGA-06-0681-11A-41R-A36H-07

TCGA-06-0649-01B-01R-1849-01

第四個欄位:11A和01B描述的就是樣本類型,1-9是腫瘤,10-19是正常,20-29是對照。A和B我也不知道啥意思。由於TCGAbarcode欄位寬度是嚴格的。因此用substr就可提取

names=colnames(RNAseq_dat)

a=as.numeric(substr(names,14,15))

table(a)

可以看見數據中有5個是正常組織樣本

----------------------

Xena網站(網頁鏈接)有整理好的TCGA數據,包括數據集和樣本表格。樣本表格數據詳細,包含生存期,腫瘤分期分級,突變,亞型等等。

3. 請教關於TCGA數據的問題

Case列顯示的是該文件里數據來自於多少cases。比如569,說明這個文件整合了所有569個cases的genotyping數據,有些數字為1的,說明這個文件里只有一個case的數據。
對於RNAseq後續的分析,如果要用軟體比如limma,edgeR比較表達差異的基因,就用counts數據。如果你想自己做t-test,下載counts數據自己做normalization再進行比較也行,或者下載已經做過normalization的RPKM/RPKM-UQ直接比較也行
癌旁的數據也包含在這些cases里了,下載metadata就能看到每個sample的信息,你會發現有些是來自solid tissue normal,這些都是癌旁的數據

4. 如何快速掌握TCGA資料庫

tcga工作組發的文章。
The Cancer Genome Atlas (TCGA,https://tcga-data.nci.nih.gov/tcga/tcgaHome2.jsp)資料庫。TCGA數據源大部分都是公開的。
目前來能夠從TCGA資料庫中提取數據的處理工具有cBioPortal(http://www.cbioportal.org/public-portal/cgds_r.jsp),ICGC(http://dcc.icgc.org/download/current)和GenePattern(http://www.broadinstitute.org/cancer/software/genepattern/download/index)。

5. 如何快速掌握TCGA資料庫

如何快速掌握TCGA資料庫
讀tcga工作組發的文章,直接讀發在cell上的一篇泛癌症的文章,正文➕附件,能復現文章中的結果,就行了。

6. 如何快速掌握TCGA資料庫

‍‍

在proportional裡面搜你感興趣的腫瘤,然後就會出現很多研究,在每個研究後面都有summary,你點擊進去就有臨床數據,有的還有變異和拷貝數變化的數據。目前個人感覺臨床數據這塊還是proportional這兒比較方便,其他的例如基因表達的數據cancer browser還是可能會好些,各種各樣的都可以試試,不過原始的TCGA數據還是覺得一般是高手才去弄,新手還是多學習,站在巨人的肩膀上再去。The Cancer Genome Atlas,TCGA, 資料庫。TCGA數據源大部分都是公開的。目前來能夠從TCGA資料庫中提取數據的處理工具有proportional。

‍‍

7. 如何查詢TCGA資料庫中哪些數據是可以公開獲取的

咨詢記錄 · 回答於2021-10-13

8. 關於TCGA資料庫的問題,新手求助

這種東西是看不出來是否判斷與腫瘤有關的,腫瘤本身具有遠端轉移特性,從各個組織中都有可能存在。所以如果想要看pathway是否與腫瘤相關,就需要點進去查看相關文獻,把各種蛋白摸透,才能夠搞定,如果僅僅憑借go資料庫的pathway來的就能判斷了