第一代定序與 NGS 次世代定序原理 (Illumina) -3

瀏覽次數: 580

定序的迭代

「定序」就是將一段序列判讀出 ATCG 排列的順序，「迭代」則是為了接近最終目標而反覆改良的過程。為了能精準有效率知道生物的基因序列，DNA 定序技術一代一代的不斷精進改良。

定序的歷史其實很有趣，從利用嗜菌體定序、2D電泳，人類基因組計畫之民間與政府的技術競賽，故事於網路上資源相當多就不再贅述。這邊則以 1977 年 Sanger 大師發明 Chain-termination 為界線，往後介紹人類解開生物程式碼的逆向工程。

第一代定序 Sanger Sequencing

又名 Sequencing-Based Typing

Gauthier, M. G., 2008

將樣本加熱，使 DNA 雙股打開
將有興趣的片段複製變多，以此得到一大堆有興趣的片段 (用一般的 PCR 放大特定片段)
加上引子 (Primer)
準備 4 個管子，皆含有聚合酶，dNTP，
但分別加入 ddATP、ddTTP、ddCTP、ddGTP 在不同管子 (以4種顏色示意)
開始合成 (PCR)，過程中聚合酶合成某片段時，若抓到 ddNTP 的材料，會使得下一個 cycle，該片段因聚合酶無法繼續延長而終止
因為遇上 ddNTP 的機率是隨機，最終管內會有長度不一個 DNA 片段 (末端含有 ddNTP )，然後將原始 Template (模板)移除
把 4 個管分別跑在不同 well 的膠上，開始跑電泳~
由下往上讀，就是目標DNA的序列啦!

其採用的原理是 Chain-termination，也就是藉由合成中終止的方式，獲得長度不一片段，用跑膠判斷序列：

現今已經使用毛細管電泳及機器偵測 (右上)，因為第一代定序成本較低，時至今日，PCR 或切膠產物的低通量定序還是使用 Sanger 為主。Reference : Microbe Notes

次世代定序 NGS – 以 Illumina 為例

為了解決長片段、大量定序需求以及效率低落等等心累的問題，經歷多家廠商的競爭，Illumina 公司開發的新技術成功打贏市場，目前 RNA seq、Single cell sequencing、Whole genome sequencing、Metagenomic (16S, 18S 等等)，主流都採用 Illumina 的 NGS，他們的原理相同，差別在於樣本的前處理 (e.g 轉 cDNA or 夾16S) 以及後續分析軟體的流程。而 Illumina 採用的原理是 Bridge amplification + Sequencing by Synthesis (SBS)，

他們設計一款 Flow cell 並在像是跑道的地方舖上一層草皮 (lawn)，草皮長了兩種 oligos 序列(像是長了兩種小草，分別為紫色跟藍色)。oligos 指的是短片段單股的 DNA 或 RNA ，又名 Oligonucleotides。

接下來，了解下列步驟非常重要，因為後續分析會用到步驟中很多的觀念 :

Part A – 前處理

將 DNA 樣本打碎 (約 80 bp) (第一次看到先打碎序列其實蠻反邏輯的XD
加入Adapters，並使用連接酶加在序列片段頭尾 (可以想像改良過的 Primer，差別是頭尾都有，後續可以幫助放大片段)
- Adapters = 目標序列結合位 (sequencing binding site) (綠)
- indices(黃、紅) + oligos 互補序列 (紫、藍)
  oligos 互補序列就是為了跟草皮 (lawn) 小草 (oligos) 結合
- indices 又名 index，帶有 barcode，每個 DNA 樣本都會有獨特的條碼。能同時將不同樣本放在同一個 Flow cell 多樣本大量定序，這樣子 Pooling 的方式稱為 Sample Multiplexing。像是大家帶著條碼手環泡在大眾池，這動作英文稱為 pooling，然後再拿著條碼器 (定序) 快速逼手環就知道誰是誰了。
帶有 Adapters 序列片段與 oligos 結合
聚合酶開始複製，使得草皮上的 oligos 被延長 後也長得與序列片段相同。被延長後的 oligos 稱為 Hybridized fragment (雜合片段)，再將原序列片段洗去，他不要了，只留下 lawn上的雜合片段。
因為另一端也與 lawn 上 oligos 互補，所以雜合片段會彎腰結合，形成像是橋 (Bridge) 狀的序列，接著聚合酶又來複製了，形成兩座 DNA 橋 (Double stranded bridge)
重複第 4~5 很多很多次，形成上百萬座橋
- 稱為橋式放大(Bridge amplification)。
然後就會獲得很多根巧克力棒，洗去紫色底座 oligos 上的雜合片段，留下藍色底座 oligos 上的雜合片段
- 紫色底座的序列都飛走惹，剩下藍色底座。

Part B – Forward 端定序

在開始定序前，3′ 端的 oligos 會用一小段序列擋住，因為這段序列是加上去的，不需要被定序，接下來，帶有四種螢光的 dNTP 加入到 Flow cell 中，只要結合到雜合片段，就會發光 ! 稱為 Sequencing by Synthesis (SBS) ，因為一邊合成一邊定序。
電腦就會偵測螢光出現的順序，進行讀取，其實超級漂亮的 !!
加入一段能辨識 indices 的 primer，再加入dNTP 與聚合酶，一樣用螢光讀取的方式獲得這些目標序列的 barcode。
- 稱為 Index Read。
洗去indices的primer 還有各種一切，留下巧克力棒 (Hybridized fragment)，Forward 定序讀完了，來讀 Reverse
- 稱為 Paired-End Sequencing。

Part C – Reverse 端定序

雜合片段彎腰與另一個 oligos 結合，並加入dNTP與聚合酶，
獲得 Reverse 的 Index (與 Forward Index相同)
可愛聚合酶又登場啦，延長形成兩座 DNA 橋 (Double stranded bridge)，
其實有上百萬對橋
與 7. 相反，這次洗去 Forward oligos 上的雜合片段，
留下 Reverse oligos 上的雜合片段
同 8.，oligos 會用一小段序列去擋住，
因為這段序列是加上去的，不需要被定序
同 9.，一邊合成一邊定序因為步驟與 Part C 類似，就不放動畫了，有興趣可以觀看 Illumina出品的動畫。

Part D 初步資料分析

Illumina 會利用演算法將這些上述 Barcode、80 bp 的破碎序列資訊，
分類並組成一條一條完整序列，
最終長度則是依照給予的樣本為定，
以本系列文章為例，我們選擇 16S V3~V4區域，
每個檔案的就會含有數萬條長度為 250 bp 的序列，
並且每個樣本會有 2 個檔案，
因為 Paired-End Sequencing 含有 Forward 與 Reverse，
檔案內也會根據螢光偵測到的波型完整度，
給予每個 mer 判定後的品質分數 (Quality score)。

Reference : Illumina