當前位置:首頁 » 數據倉庫 » 關於tcga資料庫的使用
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

關於tcga資料庫的使用

發布時間: 2022-10-20 20:51:29

1. 關於TCGA資料庫的問題,新手求助

這種東西是看不出來是否判斷與腫瘤有關的,腫瘤本身具有遠端轉移特性,從各個組織中都有可能存在。所以如果想要看pathway是否與腫瘤相關,就需要點進去查看相關文獻,把各種蛋白摸透,才能夠搞定,如果僅僅憑借go資料庫的pathway來的就能判斷了

2. tcga資料庫樣本哪些是腫瘤哪些是正常

答案就在TCGAbarcode,樣本標簽描述了樣本類型,是正常的還是異常的。還是對照組。比如膠質瘤RNAseq的barcode,有174個樣本類似於這個:

TCGA-06-0681-11A-41R-A36H-07

TCGA-06-0649-01B-01R-1849-01

第四個欄位:11A和01B描述的就是樣本類型,1-9是腫瘤,10-19是正常,20-29是對照。A和B我也不知道啥意思。由於TCGAbarcode欄位寬度是嚴格的。因此用substr就可提取

names=colnames(RNAseq_dat)

a=as.numeric(substr(names,14,15))

table(a)

可以看見數據中有5個是正常組織樣本

----------------------

Xena網站(網頁鏈接)有整理好的TCGA數據,包括數據集和樣本表格。樣本表格數據詳細,包含生存期,腫瘤分期分級,突變,亞型等等。

3. TCGA資料庫怎麼下載mi RNA信息

TCGA資料庫下載mi RNA信息的方法:
第一步,登錄TCGA數據獲取網站;
第二步,在搜索欄搜索自己關注的癌症類型;
第三步,選擇下載的數據類型:(我需要下載的是mi RNA數據);
第四步,對數據進行進一步篩選;
第五步,將所有文件添加到購物車;
第六步,點擊下載即可。

4. 如何快速掌握TCGA資料庫

如何快速掌握TCGA資料庫
讀tcga工作組發的文章,直接讀發在cell上的一篇泛癌症的文章,正文➕附件,能復現文章中的結果,就行了。

5. TCGA 數據分析實戰 —— WGCNA

加權基因共表達網路分析( WGCNA , Weighted gene co-expression network analysis )是一種用來描述不同基因在樣本中的表達關聯模式的系統生物學方法。

通過將表達高度相關的基因聚集成不同的模塊,並探究不同模塊與樣本表型之間的關聯。還可以探究模塊內的關鍵基因的功能,作為潛在的生物標志物或治療靶點進行後續分析

WGCNA 模塊識別演算法大致包含以下幾個步驟:

輸入數據的格式要符合行為樣本,列為基因的矩陣格式,因為計算的是基因之間的相關性,所以數據可以是標准化的表達值或者是 read counts 。

探針集或基因可以通過平均表達量或方差(如中位數或絕對中位差)進行過濾,因為低表達或無變化的基因通常代表噪音。

注意 :並不推薦使用差異基因作為輸入矩陣,通過差異表達基因過濾將會導致一個(或幾個高度相關的)基因聚成一個模塊,同時,也破壞了無標度拓撲的假設,所以通過無標度拓撲擬合來選擇軟閾值的將會失敗。

主要是過濾一些離群或異常的樣本,可以對樣本數據進行聚類,如果存在異常樣本,則其在聚類圖中會顯示出離群現象,可考慮將其剔除。

首先,對基因的表達量進行 0-1 標准化,即

其中, 為樣本方差

然後,使用 pearson 計算基因之間的相關性

兩個基因的共表達相似性表示為

然後將基因之間的相似度轉換為鄰接值,對於非加權網路,計算方式為

其中 為硬閾值,大於等於該閾值表示這兩個基因之間存在連接,而低於閾值則認為兩個基因沒有連接。它們並不能反映共表達信息的連續性質,因此可能導致信息損失。例如,閾值為 0.8 ,那 0.79 是不是應該也有一定的相關性呢?

在介紹軟閾值之前,我們先引出兩個圖論的概念:

度表示為節點所連接的邊的數量

無標度網路具有很好的魯棒性,網路中某些節點的錯誤並不會導致整個網路的癱瘓,具有很多的代償連接。而這一特點,與生物體中的復雜生化網路非常類似,只有少數的基因執行著關鍵性的功能,而大多數的基因執行較為單一的功能。

無標度網路中,節點 d 的度為 k 的概率滿足冪律分布

通過對數變換,變為

從這個公式可以看出,節點的度數與其出現的概率是負相關的,通過計算各個節點的度數 k 與該度數 k 在所有節點度數中的佔比的 pearson 相關性,我們可以得到關於無標度網路的適應系數。該系數越接近 1 則越像無標度網路,越接近 0 則越像隨機網路。

所以,對於加權網路,其鄰接值的計算方式為:

當軟閾值 時,會讓相關系數小的更小,而大的更大。

可以根據適應系數來篩選軟閾值

光有鄰接矩陣是不夠的,基因間的相似性應該要同時體現在其表達和網路拓撲水平,為了能能夠盡可能地最小化噪音和假陽性的影響,因此引入了拓撲重疊矩陣

這個概念的主要表達的是,兩個基因 a 和 b 之間的相關性,不光考慮兩個基因的表達相關性,還需要考慮一些 A 和 B 共有的表達相關基因 u ,如果 u 足夠多,則說明 A 與 B 的網路重疊性強,應該被聚成一類

換個說法,兩個人之間的親密度不僅與他們兩人之間有關,還與他們的共同好友有關,共同好友越多,說明他們兩人之間應該越親密

計算公式為:

其中, 分別為 i 和 j 的度數

表示的是兩個基因的相似性,轉換成距離度量就是 ,並使用該值來進行聚類,並分割模塊

我們以 TCGA 的乳腺癌數據作為示例,來完整的做一遍 WGCNA 分析

先安裝模塊

獲取 50 個樣本的 FPKM 數據, WGCNA 最少需要 15 個樣本, 20 個以上的樣本會更好,樣本越多越好,這里為了方便,我們只挑了 50 個樣本

過濾基因,取絕對中位差 top 5000 的基因

過濾異常樣本

確定軟閾值的時候,需要選擇網路類型,不同的網路類型,其計算鄰接值的方法是不一樣的。

默認為 unsigned

我在 RStudio 中使用 enableWGCNAThreads() 會引發下面的錯誤

所以,我改用了 allowWGCNAThreads() ,就可以運行了

繪制軟閾值曲線

其中橫坐標為軟閾值的梯度,第一幅圖的縱坐標為無標度網路適應系數,越大越好;第二幅圖的縱坐標為節點的平均連通度,越小越好。

查看系統給我們推薦的軟閾值

與我們從圖上看到的結果是一致的,如果出現了異常的值,也就是說在有效的 power 梯度范圍內(無向網路在 power 小於 15 ,有向網路 power 小於 30 ),無法使適應系數的值超過 0.8 ,且平均連接度在 100 以上

可能是由於部分樣品與其他樣品差別較大。這可能是由於批次效應、樣品異質性或實驗條件對表達影響太大等因素造成的。

可以對樣本繪制聚類圖來查看有無異常樣品,如果這確實是由於生物學差異引起的,也可以使用下面的經驗 power 值。

一步法構建網路,我們使用上面推薦的軟閾值 5

查看各模塊的基因數量

可以使用 labels2colors 函數將數值轉換為顏色名稱

使用 plotDendroAndColors 函數來展示各個模塊的層次聚類結果

其中,無法聚類到模塊中的基因會標示為灰色,如果灰色區域較多,可能由於樣本中基因共表達趨勢不明顯,可能需要調整基因過濾的方法。

展示模塊之間的相關性

展示 TOM 矩陣,為了節省時間,我們只使用第一個聚類分支

或者更換一種配色

顏色越深表示基因表達的相關性更高,我們可以看到,模塊內的基因之間具有較高的共表達,而模塊之間的表達相關性較低

將整個網路全部導出成 Cytoscape 輸入文件

保存網路

也可以提取某一模塊的基因

獲取到基因之後,可以進行富集分析找到相關的生物學通路

我們可以分析各網路模塊與樣本表型之間的關系,從而找到與我們感興趣表型相關的模塊。

樣本表型可以是各種指標,比如腫瘤分期分級、已知的分類亞型、葯物響應等,並計算模塊與這些表型之間是否具有顯著相關性

但是模塊是一個矩陣,無法直接計算矩陣和向量之間的相關性,需要轉換為向量之間的相關性。

而 WGCNA 選擇使用 PCA 的方法對數據降維,並將第一主成分定義為 eigengenes ,然後計算 eigengenes 與表型之間的相關性

先獲取並處理臨床數據

計算模塊與 ER 狀態的相關性

如果使用的是其他相關性方法,則可以使用 bicorAndPvalue 函數來計算顯著性

繪制相關性圖

可以看到有些模塊的相關性挺高的,而且也具有顯著性。我們計算出模塊與表型之間相關性之後,可以挑選最相關的那些模塊來進行後續分析。但是,模塊本身可能還包含很多的基因,還需要進一步識別關鍵基因基因。

如何尋找關鍵基因呢?我們可以計算所有基因與模塊之間的相關性,也可以計算基因與表型之間的相關性。如果存在一些基因,既與表型顯著相關又跟某個模塊顯著相關,那麼這些基因可能就是非常重要的關鍵基因了

從上圖中,我們可以看到 paleturquoise 具有較高的相關性,且具有顯著性,我們就來嘗試找找這個模塊的關鍵基因

計算基因與模塊的相關性

再計算基因與表型的相關性

展示模塊內基因與模塊和表型之間的相關性

從圖中我們可以看出,基因與表型的相關性和基因與模塊的相關性還是有一定的線性趨勢的,這說明與表型高度相關的基因,通常也是該表型對應模塊內比較重要的基因。

因此,當我們要選擇關鍵基因時,推薦選取散點圖中右上角部分的基因,即兩個相關性均較大的基因

我們可以導出這個模塊的網路

6. 如何處理TCGA的數據

首先說下背景,我畢論有大量涉及到生存曲線分析。針對某個我們已挖掘到白血病中的差異基因,利用了TCGA上的臨床數據。

需要的數據:TCGA上的臨床數據。當你下下來時會發現有一大堆。這時需要你做的就是篩選你所需要的。你需要的有:目的基因的表達量、患者生存時間、患者生存/死亡狀態。這里的目的基因可以是你前期差異基因分析/通路分析/臨床分析等所得到的一個或幾個基因,你需要在下一步生存分析中進一步驗證其預後影響。

軟體:SAS、Grapdprism、SPSS、R語言都可以用。但個人感覺SAS的演算法更精準,Gradprism在畫圖上更漂亮且易操作。看你需求了。

檢驗演算法:採用Kaplan-Meier (K-M) 生存分析法來計算生存時間及生存率,採用Log-rank檢驗比較生存差異,取P值小於0.05為有統計學意義。

具體操作原理:根據目的基因的表達量,將患者分為高表達組和低表達組。這里的分組方法,可以是根據平均值,也可以是中值。我查閱了大量文獻,認為中值更合理。將分組後的兩組患者數據導入軟體,這里的軟體可以是上所述的任意一種,而數據包括了患者生存時間、患者生存/死亡狀態。註:表達量只用來分組,不用來畫生存分析。

7. 如何利用tcga的基因組資料庫

一個良好的開端就是分析感興趣基因的突變和其它異常,ICGC數據門戶提供了幾條研究路線。輸入一個基因名稱,NCBI登錄號,或者Ensembl基因ID,點擊基因報告(Gene Report),就能在突變摘要(Mutation Summary)中找到已發現的突變和拷貝數變化,以及迄今為止,這些突變在腫瘤中出現的頻率。COSMICsection就在體細胞突變列表下方,包括了點突變,少量缺失,以及插入突變等方面的數據。

8. 請教關於TCGA數據的問題

Case列顯示的是該文件里數據來自於多少cases。比如569,說明這個文件整合了所有569個cases的genotyping數據,有些數字為1的,說明這個文件里只有一個case的數據。
對於RNAseq後續的分析,如果要用軟體比如limma,edgeR比較表達差異的基因,就用counts數據。如果你想自己做t-test,下載counts數據自己做normalization再進行比較也行,或者下載已經做過normalization的RPKM/RPKM-UQ直接比較也行
癌旁的數據也包含在這些cases里了,下載metadata就能看到每個sample的信息,你會發現有些是來自solid tissue normal,這些都是癌旁的數據