全基因組重測序資料庫_全基因組重測序（whole genome sequencing

『壹』 TBtools | 基因組重測序數據分析常用上游軟體「三兄弟」，聚齊了~

是的，最後，我選擇了「一條路走到黑」~ 咱們先不管一些人如何看，東西先整出來。大體如下。

沒錯。從「原始測序數據」到「SNP Calling」，也就是從 .fastq 到 .vcf，一套聚齊了。其中涉及到三個目前最常用的軟體：

有了這三個插件，所有的「TBtools」用戶，可以在 Windows 或者 MacOS 下，點點點，分析自己想分析的數據。當然，時間成本前面有提到，最好是按照至少一天跑一個樣品來算。做做 BSAseq 或者少數兩三個樣品還是可以的。大的群體，那麼就可能需要足夠好配置的機器....這個暫時不是咱們要考慮的事情。
前兩個插件都介紹過了。今天介紹「BCFtools GUI Wrapper」，整體如下。

一次包括兩個功能，變異檢測和變異過濾。

從界面來看，比較簡單。只需要將 MarkDup.PositionSorted.bam 都拖拽放置進去就可以了。

邏輯上需要等一些時間，可以得到初步的 bcf 文件。

「SNP Calling」之後，幾乎所有情況下，都會做下一步過濾。具體過濾參數會對後續分析產生一定的影響。此處，默認給了一個相對嚴格的過濾參數，盡量保留「真陽性」SNP。具體使用方法如下。

簡單來說...就是把文件放進去，然後設置一下輸出目錄，最後點擊「Start」即可。

基本完事。三個「玩具」，歡迎「試玩」。我覺得，BSAseq真的可以試試了。因為有了 VCF 之後，剩下的其實就是一個 R包的事兒。這個就用 R-Plugin 了。而如果你的 PC 真的強，你甚至還可以用搞 GWAS，因為有了 VCF，剩下的不就是？ R 包嗎？

『貳』如何在ncbi上查找重測序資料庫

以基因的名稱（AP1）和物種的名稱（如楊樹）去檢索，如果只需要cDNA序列，資料庫選擇unigene。如果需要該基因的基因組序列，選擇genome.

『叄』全基因組重測序（whole genome sequencing,WGS）技術簡介及常見問題

全基因組重測序（whole genome sequencing,WGS）對全基因組進行測序掃描，能在全基因組范圍之內解讀所有常見和稀有變異信息，全面檢測單核苷酸多態位點（Single Nucleotide Polymorphisms, SNP）、插入缺失位點（Insertion Deletion, InDel）、結構變異（Structure Variation，SV）以及拷貝數變異（Copy Number Variation, CNV）。

按照Illumina公司提供的標准 protocol 執行，包括樣品質量檢測、文庫構建、文庫質量檢測和文庫測序等流程。

全基因組重測序生物信息分析流程

染色體覆蓋深度分布圖

SNP突變類型分布圖

各類型變異在染色體的分布

遺傳病致病機制、疾病發生發展、腫瘤分子分型、疾病風險篩查。

Cancer Sci. 2018;109(3):513-522. Nakagawa H, Fujita M. Whole genome sequencing analysis for cancer genomics and precision medicine.

APMIS. 2019;127(5):303-315 Rossing M, Sørensen CS, Ejlertsen B, Nielsen FC. Whole genome sequencing of breast cancer

Leukemia, 2018;32(2):332-342 Burns A, Alsolami R, Becq J, et al. Whole-genome sequencing of chronic lymphocytic leukaemia reveals distinct differences in the mutational landscape between IgHVmut and IgHVunmut subgroups

BMC Genomics. 2019;20(1):231. Published 2019 Mar 20 Li T, Unger ER, Rajeevan MS. Universal human papillomavirus typing by whole genome sequencing following target enrichment: evaluation of assay reprocibility and limit of detection.

『肆』全基因組重測序的概述

全基因組重測序是對已知基因組序列的物種進行不同個體的基因組測序，並在此基礎上對個體或群體進行差異性分析。全基因組重測序的個體，通過序列比對，可以找到大量的單核苷酸多態性位點（SNP），插入缺失位點（InDel，Insertion/Deletion）、結構變異位點（SV，Structure Variation）位點和拷貝數變異位點（CNV， number variation)。SBC可以協助客戶，通過生物信息手段，分析不同個體基因組間的結構差異，同時完成注釋。

『伍』全基因組重測序的介紹

全基因組重測序是對已知基因組序列的物種進行不同個體的基因組測序，並在此基礎上對個體或群體進行差異性分析。SBC將不同梯度插入片段（Insert-Size）的測序文庫結合短序列（Short-Reads）、雙末端（Paired-End）進行測序，幫助客戶在全基因組水平上掃描並檢測與重要性狀相關的基因序列差異和結構變異，實現遺傳進化分析及重要性狀候選基因預測。

『陸』全基因組測序，有必要做嗎

要不要做，先得了解全基因組測序是在做什麼。普通大眾是不會關心高端復雜的基因技術和遺傳原理的，但是大家可以關心一下，做了全基因測序之後，你得到的是什麼。作為已經做過的，我以國內某公司的基因檢測報告來跟大家解釋一下。

一、祖源分析

不得不說，這個很有用。不同的葯物，不同的人服用後會在效果和副作用上有不同的反應。有時候，對於同一病症，有多種治療葯物，我們需要選擇對於自身副作用最小、效果最好的。

哇擦，嚇死我了，以後再也不喝感冒靈了。

以上就是對於全基因測序主要項目類型的說明，如果經濟條件允許，測一下還有可以有的，理論上越早測越好。

『柒』動植物重測序--BSA

針對目標性狀，選擇表型極端差異的親本構建家系，對該家系目標性狀表型極端的子代分別混合得到的兩個樣本池進行全基因組重測序，檢測到的兩池間DNA差異片段即為候選區域，可進一步定位到目標性狀相關的基因或標記。利用該方法，可以快速的對單一性狀進行精細定位，加速目標性狀的功能基因組研究進程。

對，BSA最主要的要求就是研究的這個性狀在親本和子代中一定是極端差異，這樣結果才能更准確。

樣本要求：2個親本+2個子代池（每個子代池≥20個樣本）（200mg組織夠提DNA即可）

文庫類型：WGS文庫（有參）

測序數據量：親本10x/個，子代池≥20x/池（若子代池混樣30個，就測30x）

子代池選擇：家系群體（F2，RILS，BC，DH等）

1）參考基因組：參考基因組組裝質量好壞以及注釋是否完全對BSA結果有一定的影響。建議盡量選擇組裝至染色體水平，且基因組注釋較完全的參考基因組。

2）分離群體：理論上任何一對具有相對性狀的親本雜交後產生的分離後代都適用於集群分離分析法。但常用的分離群體為：F2代群體、回交群體、重組自交系、雙單倍體群體。

3）親本選擇：親本間目標性狀要求差異顯著，盡量選用純度高的親本，並進一步通過自交進行純化；並且，除了關注的1個目標性狀外，其他性狀盡量一致，無其他性狀發生分離。

4）混池個體數：混池的樣本數通常選取極端性狀（群體總樣本數的5～10%內）的個體進行混池。混池中若極端性狀個體數太少，可能造成樣品數不夠，不具備代表性；若樣本數過高可能會引入雜合個體，產生干擾。

5）表型統計：表型統計不準確，或表型由多個微效基因控制，可能會引起定位效果不佳。

1、群體完整度對定位效果的影響？

下表參考鏈接中有經驗統計。2 親本+2 子代池是最優選擇，次之為⼀個親本+2 個子代池；再次為 2 個親本+1 個子代池； 1 個親本+1 個子代池；最次為只有子代池，如果只有親本，那麼建議⽼師去做變異檢測。若是 mutmap （突變體與野生型雜交），則可提供1個野生型親本+1個突變型子代池，或者兩個子代池。不同群體的index演算法原理上稍有不同。

2、如果該物種沒有參考基因組怎麼辦？或者如果樣品是兩個品種的雜交後代，⽽兩個品種都有參考基因組，該選擇哪個參考基因組？

如果該物種沒有參考基因組，⽽近緣物種有參考基因組，可以選擇近緣物種的參考基因組進⾏⽐對分析。如果兩個品種都有參考基因組，則要根據樣品的表型和其他數據選擇⼀個與樣品差異較⼩的品種作為參考基因組。

3、如何構建混池？混池規模多⼤能夠滿⾜要求？

通過表型調查，篩選具有極端表型的個體構建兩個混池，質量性狀（1： 2： 1）具有主效位點的數量性狀（正態分布）。表型統計不準確，或由多個微效基因控制，會影響定位效果。混池個體性狀不極端，存在較多中間型，同樣會導致定位結果不佳。⼀般選擇群體的 5%到 10%個體構建極端混池，建議極端樣品在 30+30 以上。通常在樣本量等情況允許的條件下越⼤越好，能夠更進⼀步的縮⼩候選區域。具體需根據物種、樣本情況等設計方案。

4、簡化基因組測序適合做 BSA 性狀定位嗎？

針對微效多基因控制的數量性狀，與⽬標性狀相關的位點很多，簡化基因組或許有幸捕獲到少數位點，但絕⼤部分會被遺漏，這對後續的研究很不利。針對質量性狀或由少數主效基因控制的數量性狀，簡化基因組 BSA 的⽅法風險更⾼。諾⽲致源不做簡化基因組的 BSA性狀定位。

5、能否保證定位到的候選區域的⼤⼩和候選基因的個數？

候選區域的⼤⼩和候選基因個數的多少，與群體的⼤⼩、親本材料差異的⼤⼩、⽬標性狀特點、測序深度的多少、分析物種的基因組⽔平等多項因素相關，因此不能給出統⼀的標准，但可以參考已完成的項⽬經驗進⾏估計。

6、BSA 能否檢測 SV、 CNV？

不建議⽤ BSA 的結果檢測 SV、 CNV，第⼀、測序深度不夠；第⼆、 BSA ⼦代是混池樣本，混池樣本做⼤結構變異檢測誤差較⼤，且沒有分析意義；想做⼤結構變異檢測，建議⽤新技術做， Bionano、三代、 10X Genomics 或者測 30X ⼆代做分析。

該方法參考於2019年7月發表在《自然-通訊》（ Nature Communications ）雜志上發表了題為 Dissecting a heterotic gene through GradedPool-Seq mapping informs a rice-improvement strategy 的研究論文。

文中將F2群體不同表型均進行了混池測序，100-150個個體/池，個體平均測序深度0.5x，測序數據比對，變異檢測，SNP標記篩選，統計檢驗-背景降噪-定位。這個降噪後分析結果看上去要比SNP-index的結果簡單很多，精度也會高。如果樣本足夠，經費闊綽，建議可以用這個分析方法嘗試一下。

參考學習：

1、 BSA你真得懂了嗎?

2、 BSA的原理

3、 GPS的論文報道

『捌』 gwas和全基因組重測序的區別

基於第二代高通量測序技術，對於有參考序列的物種，針對不同的真菌菌株，可通過全基因組重測序的方法獲得全基因組范圍內完整的變異信息，討論群體的遺傳結構、影響群體遺傳平衡的因素以及物種形成的機制，定位重要性狀位點，為後續分子育種打下堅實基礎。同時，通過全基因組大樣本重測序對真菌重要菌株進行全基因組的基因型鑒定，並與關注的表型數據進行全基因組關聯分析（GWAS），找出與關注表型相關的SNP位點，定位性狀相關基因。隨著測序成本降低和擁有參考基因組序列的物種增多，基因組重測序也成為育種研究中迅速有效的方法之一，在全基因組水平掃描並檢測出與重要性狀相關的變異位點，具有重大的科研價值和產業價值。
近日，Nature Genetics發表的一篇文章就充分利用了微生物基因組測序與以全基因組重測序為基礎的全基因組關聯分析結合的方法，揭示了裂殖酵母遺傳與表型多樣性之間的聯系。研究者選取裂殖酵母Schizosaccharomyces pombe作為研究對象，在全球20個國家范圍內收集了時間跨度為100年的161個野生株系的S.Pombe，進行了全基因組測序，推測裂殖酵母在公元前340年開始廣泛大量出現，祖先種到達美洲的時間為公園1623年。後續研究者又選取223個菌種進行全基因組關聯分析，發現至少89個性狀表現出一個關聯。每個性狀最顯著的檢測到的變異可以解釋平均22%的表型差異，且indel的影響比SNP更大。

『玖』基因組重測序SNP_calling

基因組重測序是對已知基因組序列的物種進行不同個體的基因組測序，並在此基礎上對個體或群體進行差異性分析。

基於全基因組重測序技術，人們期望快速進行資源普查篩選，尋找到大量遺傳變異，實現遺傳進化分析及重要性狀候選基因的預測。隨著測序成本降低和擁有參考基因組序列物種增多，全基因組重測序成為動植物育種和群體進化研究迅速有效的方法。

• SNP 強調群體在這個位點有多樣性。

• Genotype 強調個體在這個位點是哪種基因型。SNV屬於genotype的范疇，表示這個genotype 是個突變，是第一無二的。

• 首先利用 bwa , samtools , picard 對參考基因組ref.fa建立索引，隨後使用基因組比對軟體 bwa 將fastq文件比對回參考基因組，生成sam文件(這里使用例子數據由於小於10M，所以使用bwa的-is參數，當參考基因組很大的時候，使用bwtsw參數)

• 使用 picard 對sam文件排序後生成bam文件(這里如果使用samtools的話會刪除重復位點，而picard只會標記重復並不會刪除)。之後使用 samtools 對bam文件建立索引，利用已經注釋過的indel.vcf文件對indel周圍進行realignment，這個操作有兩個步驟，第一步生成需要進行realignment的位置的信息，第二步才是對這些位置進行realignment，最後生成一個重排好的BAM。

• 接下來對mapping得到的bam文件進行矯正，消除偏態，去除假陽性，這里主要針對測序質量不是特別好的數據，可以根據fastqc結果對測序結果進行解讀，如果比較好的話可以跳過。

• 使用 HaplotypeCaller 發現變異並生成gvcf文件。隨後使用 CombineGVCFs 將不同文件整合， GenotypeGVCFs 函數輸出vcf文件。

• 下一步使用 VariantRecalibrator 校準，並根據可視化結果確定最佳參數，確定參數之後再運行一次 VariantRecalibrator 得出結果

• 如何確定參數：(1) an注釋信息選擇:從圖中可以看出，這個模擬結果可以很好的將真實的變異位點和假陽性變異位點分開，形成了明顯的界限，也就是說，如果一個變異位點的這兩個注釋值，只要有一個落在了界限之外，就會被過濾掉。最主要的是要看右邊兩個圖片，只要能很好的區分開novel和known以及filtered和retained就可以。其實在如何選擇注釋值存在一定得主觀性，因此，在做VariantRecalibrator時可以做兩次，第一次盡可能的多的選擇這些注釋值，第一遍跑完之後，選擇幾個區分好的，再做一次VariantRecalibrator，然後再做ApplyRecalibration。 (2) tranche值的設定:如果這個值設定的比較高的話，那麼最後留下來的變異位點就會多，但同時假陽性的位點也會相應增加； run兩遍VariantRecalibrator，第一遍的時候多寫幾個閾值，看哪個閾值結果好，選擇一個最好的閾值，再run一遍 VariantRecalibrator。區分標准： 1. 看結果中已知變異位點與新發現變異位點之間的比例，這個比例不要太大，大多數新發現的變異都是假陽性，如果太多的話，可能假陽性的比例就比較大； 2. 看保留的變異數目，這個就要根據具體的需求進行選擇了。 – 3. 看TI/TV值，對於人類全基因組，這個值應該在2.15左右，對於外顯子組，這個值應該在3.2左右，不要太小或太大，越接近這個數值越好，這個值如果太小，說明可能存在比較多的假陽性。千人中所選擇的tranche值是99，僅供參考。

• 最後使用 annovar 對vcf進行注釋並可視化結果

對於基因組

對於轉錄組

基因組使用bwa

轉錄組使用STAR 2-pass，第一步比對

根據比對結果重新建立索引

進行第二次比對

基因組使用 SortSam.jar

轉錄組使用 AddOrReplaceReadGroups.jar

由於 STAR 軟體使用的 MAPQ 標准與 GATK 不同，而且比對時會有 reads 的片段落到內含子區間，需要進行一步 MAPQ 同步和 reads 剪切，使用 GATK 專為 RNA-seq 應用開發的工具 SplitNCigarReads 進行操縱，它會將落在內含子區間的 reads 片段直接切除，並對 MAPQ 進行調整。DNA 測序的重測序應用中也有序列比對軟體的 MAPQ 與 GATK 無法直接對接的情況，需要進行調整。

之後就是可選的 Indel Realignment，對已知的 indel 區域附近的 reads 重新比對，可以稍微提高 indel 檢測的真陽性率，如果對於某些物種沒有已知indel區域的話官網推薦可以跳過這步直接生成vcf文件，之後使用第一次生成的vcf文件作為已知indel再走一遍流程。

主要是針對測序質量不是特別高的數據

隨後可以使用 annovar 對vcf文件進行注釋，可以使用 convert2annovar.pl 進行格式轉換。比如將 VCF 和 pileup 格式的文件轉換為 annovar 的輸入格式。

『拾』全基因組重測序的生物信息分析內容

1．數據量產出
總鹼基數量、Totally mapped reads、Uniquely mapped reads統計，測序深度分析。
2．一致性序列組裝
與參考基因組序列（Reference genome sequence）的比對分析，利用貝葉斯統計模型檢測出每個鹼基位點的最大可能性基因型，並組裝出該個體基因組的一致序列。
3．SNP檢測及在基因組中的分布
提取全基因組中所有多態性位點，結合質量值、測序深度、重復性等因素作進一步的過濾篩選，最終得到可信度高的SNP數據集。並根據參考基因組序列對檢測到的變異進行注釋。
4．InDel檢測及在基因組的分布
在進行mapping的過程中，進行容Gap的比對並檢測可信的Short InDel。在檢測過程中，Gap的長度為1~5個鹼基。
5．Structure Variation檢測及在基因組中的分布
目前SBC能夠檢測到的結構變異類型主要有：插入、缺失、復制、倒位、易位等。根據測序個體序列與參考基因組序列比對分析結果，檢測全基因組水平的結構變異並對檢測到的變異進進行注釋。
全基因組重測序生物信息學分析流程

全基因組重測序資料庫

與全基因組重測序資料庫相關的內容