糖果派对手机版注册

高效,精準,快速

糖果派对手机版注册

1 項目概況

1.1合同分析內容

(1) 測序得到不低于50倍覆蓋度的數據量。

(2) 樣本質量評估︰

????a)外源物種污染率評估;

????b)線粒體含量評估;

(3) 基因組評估︰

????a) 基因組大小評估;

????b) 雜合率評估;

????c) 重復序列比例評估;

????d) GC含量評估。

1.2 分析結果概述

(1) 測序獲得xx ?Gb數據,總測序深度約為xx ×,Q20比例達到xx %以上,Q30比例達到xx %以上。

(2) 通過與NT庫比對表明樣品不存在污染。

(3) 對物種的線粒體評估,發現線粒體含量很低。

(4) 估計基因組的大小約xx Mb,雜合率約xx %,重復序列含量約xx %。

(5) 估計基因組的GC含量約xx %。

1.3 項目分析總結

????????分析表明,樣品不存在外源物種污染,且質體含量低,能用于構建精細圖;同時,估計基因組大小約xx? Mb,基因組的雜合率約xx %,重復序列含量約xx %,因此該物種基因組屬于高雜合的復雜基因組。推薦的測序方案為xx? ×的270 bp文庫數據和xx? ×的20 Kb三代測序文庫數據。見表1。

表1 ??精細圖文庫建庫方案

Sequence dataLibraryDepth (×)Data (Gb)
Fragment library270 bp (sequenced)xxxx
Pacbio20 Kbxxxx
Totalxxxx

2 項目流程

2.1 實驗流程

????????實驗流程按照Illumina公司提供的標準protocol執行,包括︰DNA文庫制備實驗和測序實驗。實驗流程見圖1

圖1 實驗流程圖

????????提取基因組DNA ,進行小片段文庫建庫測序。分為以下四個步驟︰

(1)文庫構建︰物理破碎法(超聲波震蕩)將合格的基因組DNA破碎至目的片段(270 bp),然後經過末端修復、加A、加接頭、目標片段選擇和PCR等步驟構建小片段測序文庫文庫;

(2)文庫質檢︰利用2100和Q-PCR檢測文庫片段大小和文庫定量,確定文庫是否符合測序標準 ;

(3)芯片固定︰通過橋式PCR將文庫固定到測序芯片上;

(4)上機測序利用Hiseq測序儀對文庫進行雙端150 bp(PE 150)測序,測序所產生的數據經過質控後用于下一步信息分析。

2.2 信息分析流程

雙端測序數據通過評估雙端測序數據通過評估(GC分布統計、質量值Q20、Q30評估)、過濾後得到高質量的數據(clean reads),用于基因組大小的評估、基因組的組裝、GC含量的統計、雜合率的統計(以及組裝後的評估)。具體信息分析流程見圖2。

圖2 基因組調研圖信息分析流程

3 分析結果

3.1 測序結果統計

????????使用醫蛭樣品的基因組DNA構建270 bp文庫,在 Illumina Hiseq測序平台測序並過濾得到12.43 Gb高質量的數據,總測序深度約為76 ×,測序數據Q20比例均在95.34%以上,Q30比例均在89.23%以上,滿足合同要求的50 ×以上的測序數據量。文庫高質量的數據量的統計信息見表2。

表2 ??樣品測序結果統計表

LibraryData (Gb)Depth (×)Q20 (%)Q30 (%)
270 bp8.965496.2790.93
270 bp_add3.472195.3489.23
Total12.4376

注︰Library︰調研圖的測序文庫;Data (Gb)︰相應測序文庫的測序數據量;Depth (×)︰測序深度;Q20 (%)︰測序質量值在20以上的堿基比例;Q30 (%)︰測序質量值在30以上的堿基比例。

3.2 樣本質量評估

3.2.1 樣品污染評估

????????樣品如果存在污染不僅會降低有效數據量,同時還會影響調研圖分析結果的準確性,導致基因組大小、雜合率、重復序列比例和GC含量等基因組特征評估結果出現較大偏差,使得基因組組裝建庫策略出現偏差,最終影響後續的基因組組裝效果。為了判斷提取的樣品DNA是否受到污染,我們從測序得到的270 bp文庫中,隨機取10,000條單端reads,與NT庫進行BLAST[1]比對,270 bp文庫能夠比對上NT庫的reads分別佔總reads數的1.71%,其中比對到xx 和xx上的reads數分別佔比對上NT庫reads數的34.5%和6.43%,這兩個物種皆為醫蛭的近緣物種,且比對結果中未發現植物等異常比對,因此該樣品測序數據不存在污染,可用于基因組調研圖分析。一般的評估標準︰如果有一定比例的reads比對上進化距離較遠的物種如植物,微生物等,則判斷樣品可能存在污染,需要進一步檢查原因。具體比對統計表見表3。

表3 ??270 bp文庫NT庫比對詳表

SpeciesAligned percentage (%)
A34.5
B6.43
C2.92
D2.92
E2.33

注︰Species︰比對上的物種名稱;Aligned percentage (%)︰比對到該物種的reads佔所有比上NT庫reads的比例。

3.2.2 線粒體含量評估

????????由于線粒體中存在核酸序列,如果物種測序文庫中線粒體DNA含量過高時,會影響後期基因組組裝。因此評估文庫中線粒體DNA含量對判斷數據能否用于後續基因組組裝非常必要。為了評估測序數據中線粒體的含量,我們利用Illumina Hiseq測序得到的270 bp文庫與醫蛭近緣物種的線粒體序列(42,362 bp)進行SOAP[2]比對。比對結果發現雙端比上的reads數為166,佔總reads的0.00%,單端比上的reads數為13,佔總reads的0.00%,這兩個的比例都低于經驗值5%。由此判斷270 bp文庫測序數據的質體含量很低,不影響後期基因組的組裝。比對統計結果見表4。

表4-1 ??270 bp文庫SOAP比對結果統計表

TypeAligned reads numberTotal reads numberPercentage (%)
Paired-read16659,800,4900.00
Single-read1359,800,4900.00

注︰Type︰比對上的reads的類型;Aligned reads number︰比對上的reads條數;Total reads number︰總的reads條數;Percentage (%)︰比對上的reads佔總的比例。

3.3 基因組特征評估

????????利用基因組調研圖進行基因組特征的評估,分為四個方面︰

1) 評估基因組大小;

2) 評估重復序列比例;

3) 評估雜合情況;

4) GC含量情況。

3.3.1 基因組大小、重復序列比例和雜合率評估

????????利用270 bp文庫數據構建k=19的kmer分布圖(見圖3),進行基因組大小、重復序列比率和雜合率的評估。由圖3知,平均kmer深度即主峰對應的kmer深度為62。kmer深度出現在主峰對應深度2倍以上的序列為重復序列,即深度大于125的kmer序列為重復序列。kmer深度出現在主峰對應深度一半處的序列為雜合序列,即深度出現在31附近的kmer序列為雜合序列。根據kmer深度信息,總kmer數目/平均kmer深度即為基因組大小,估計基因組大小約162.99 Mbp。依據kmer分布情況,估計重復序列含量約16.23%,評估出的雜合率約為1.79%,因此該物種基因組屬于高雜合的復雜基因組。

圖3 Kmer分布圖

3.3.2 評估GC含量

????????基因組GC含量對二代基因組測序的隨機性有較大影響。過高(>65%)或過低(<25%)的GC含量會導致測序偏向性,嚴重影響基因組分析結果。物種GC含量是評估調研圖分析準確性和後續基因組組裝難度的重要指標之一。通過對調研圖文庫測序數據分析,該物種基因組的GC含量約38.03%,較為適中,不會影響調研圖分析的準確性。見表5。

表5 ??基因組GC含量評估

SpeciesGC content (%)
Hirudo nipponia38.03

注︰Species︰物種名;GC content (%)︰GC含量。

????????綜上所述,該基因組大小約為162.99 Mb,重復序列比例約16.23%,雜合率約1.79%,基因組的GC含量約38.03%,從基因組基本結構特征上看,該物種基因組屬于高雜合的復雜基因組。

參考文獻

Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ: Basic local alignment search tool. Journal of molecular biology 1990, 215:403-410.

Li R, Li Y, Kristiansen K, Wang J: SOAP: short oligonucleotide alignment program. Bioinformatics 2008, 24:713-714.

其他案例

基因組de novo測序是什麼?

基因組de novo測序也叫基因組從頭測序,主要針對未知物種的基因組序列以及需要更新的基因組,通過構建基因組DNA文庫,並進行測序。然後通過生物信息學的方法對測序所得到的數據進行拼接、組裝和注釋,從而獲得該物種完整的基因組序列圖譜。

三代基因組相比二代基因組的優勢有哪些?

三代測序具有長度長的特點,平均讀長在10-15Kb,而二代測序的讀長為PE125-250bp,所以二代測序在遇到重復序列,雜合難題時,就很無力。而三代測序能有效的解決這些問題。所以三代基因組具有超高的組裝指標,組裝錯誤率更低,組裝的完整性更好等優點。

三代的錯誤率高能否用于基因組組裝?

三代的錯誤率是隨機的堿基錯誤率,錯誤率達15%,但隨著自身覆蓋度的增加就可以進行糾錯,當覆蓋度在30X以上時,堿基準確度達99.99%以上。所以三代數據用于基因組組裝是完全沒有問題的。

基因組的樣品選擇?

基因組精細圖的樣品要盡量與調研圖樣品為同一個體,植物樣品最好選擇無污染的組培苗、嫩葉等,而動物樣品最好選擇全血或者內髒組織。

糖果派对手机版注册 | 下一页