第一代定序與 NGS 次世代定序原理 (Illumina) -3

定序的迭代

「定序」就是將一段序列判讀出 ATCG 排列的順序,「迭代」則是為了接近最終目標而反覆改良的過程。為了能精準有效率知道生物的基因序列,DNA 定序技術一代一代的不斷精進改良。

定序的歷史其實很有趣,從利用嗜菌體定序、2D電泳,人類基因組計畫之民間與政府的技術競賽,故事於網路上資源相當多就不再贅述。這邊則以 1977 年 Sanger 大師發明 Chain-termination 為界線,往後介紹人類解開生物程式碼的逆向工程。

第一代定序 Sanger Sequencing

又名 Sequencing-Based Typing

Gauthier, M. G., 2008
  1. 將樣本加熱,使 DNA 雙股打開
  2. 將有興趣的片段複製變多,以此得到一大堆有興趣的片段 (用一般的 PCR 放大特定片段)
  3. 加上引子 (Primer)
  4. 準備 4 個管子,皆含有聚合酶,dNTP,
    但分別加入 ddATP、ddTTP、ddCTP、ddGTP 在不同管子 (以4種顏色示意)
  5. 開始合成 (PCR),過程中聚合酶合成某片段時,若抓到 ddNTP 的材料,會使得下一個 cycle,該片段因聚合酶無法繼續延長而終止
  6. 因為遇上 ddNTP 的機率是隨機,最終管內會有長度不一個 DNA 片段 (末端含有 ddNTP ),然後將原始 Template (模板)移除
  7. 把 4 個管分別跑在不同 well 的膠上,開始跑電泳~
  8. 由下往上讀,就是目標DNA的序列啦!

其採用的原理是 Chain-termination,也就是藉由合成中終止的方式,獲得長度不一片段,用跑膠判斷序列:

現今已經使用毛細管電泳及機器偵測 (右上),因為第一代定序成本較低,時至今日,PCR 或切膠產物的低通量定序還是使用 Sanger 為主。Reference : Microbe Notes

次世代定序 NGS – 以 Illumina 為例

為了解決長片段、大量定序需求以及效率低落等等心累的問題,經歷多家廠商的競爭,Illumina 公司開發的新技術成功打贏市場,目前 RNA seq、Single cell sequencing、Whole genome sequencing、Metagenomic (16S, 18S 等等),主流都採用 Illumina 的 NGS,他們的原理相同,差別在於樣本的前處理 (e.g 轉 cDNA or 夾16S) 以及後續分析軟體的流程。而 Illumina 採用的原理是 Bridge amplification + Sequencing by Synthesis (SBS),

ezgif com-gif-maker (9)
他們設計一款 Flow cell 並在像是跑道的地方舖上一層草皮 (lawn),草皮長了兩種 oligos 序列(像是長了兩種小草,分別為紫色跟藍色)。oligos 指的是短片段單股的 DNA 或 RNA ,又名 Oligonucleotides。

接下來,了解下列步驟非常重要,因為後續分析會用到步驟中很多的觀念 :

Part A – 前處理

  1. 將 DNA 樣本打碎 (約 80 bp) (第一次看到先打碎序列其實蠻反邏輯的XD
  2. 加入Adapters,並使用連接酶加在序列片段頭尾 (可以想像改良過的 Primer,差別是頭尾都有,後續可以幫助放大片段)
    ezgif com-gif-maker (15)

    frame_148_delay-0 1s
    • Adapters = 目標序列結合位 (sequencing binding site) (綠)
    • indices(黃、紅) + oligos 互補序列 (紫、藍)
      oligos 互補序列就是為了跟草皮 (lawn) 小草 (oligos) 結合
    • indices 又名 index,帶有 barcode,每個 DNA 樣本都會有獨特的條碼。能同時將不同樣本放在同一個 Flow cell 多樣本大量定序,這樣子 Pooling 的方式稱為 Sample Multiplexing。像是大家帶著條碼手環泡在大眾池,這動作英文稱為 pooling,然後再拿著條碼器 (定序) 快速逼手環就知道誰是誰了。
  3. 帶有 Adapters 序列片段與 oligos 結合
    ezgif com-gif-maker
  4. 聚合酶開始複製,使得草皮上的 oligos 被延長 後也長得與序列片段相同。被延長後的 oligos 稱為 Hybridized fragment (雜合片段),再將原序列片段洗去,他不要了,只留下 lawn上的雜合片段。
    ezgif com-gif-maker
  5. 因為另一端也與 lawn 上 oligos 互補,所以雜合片段會彎腰結合,形成像是橋 (Bridge) 狀的序列,接著聚合酶又來複製了,形成兩座 DNA 橋 (Double stranded bridge)
    ezgif com-gif-maker
  6. 重複第 4~5 很多很多次,形成上百萬座橋
    ezgif com-gif-maker
    • 稱為橋式放大(Bridge amplification)。
  7. 然後就會獲得很多根巧克力棒,洗去紫色底座 oligos 上的雜合片段,留下藍色底座 oligos 上的雜合片段
    ezgif com-gif-maker
    • 紫色底座的序列都飛走惹,剩下藍色底座。

Part B – Forward 端定序

  1. 在開始定序前,3′ 端的 oligos 會用一小段序列擋住,因為這段序列是加上去的,不需要被定序,接下來,帶有四種螢光的 dNTP 加入到 Flow cell 中,只要結合到雜合片段,就會發光 ! 稱為 Sequencing by Synthesis (SBS) ,因為一邊合成一邊定序。
    ezgif com-gif-maker
  2. 電腦就會偵測螢光出現的順序,進行讀取,其實超級漂亮的 !!
    ezgif com-gif-maker
  3. 加入一段能辨識 indices 的 primer,再加入dNTP 與聚合酶,一樣用螢光讀取的方式獲得這些目標序列的 barcode。
    ezgif com-gif-maker
    • 稱為 Index Read。
  4. 洗去indices的primer 還有各種一切,留下巧克力棒 (Hybridized fragment),Forward 定序讀完了,來讀 Reverse
    ezgif com-gif-maker
    • 稱為 Paired-End Sequencing。

Part C – Reverse 端定序

  1. 雜合片段彎腰與另一個 oligos 結合,並加入dNTP與聚合酶,
    獲得 Reverse 的 Index (與 Forward Index相同)
  2. 可愛聚合酶又登場啦,延長形成兩座 DNA 橋 (Double stranded bridge),
    其實有上百萬對橋
  3. 與 7. 相反,這次洗去 Forward oligos 上的雜合片段,
    留下 Reverse oligos 上的雜合片段
  4. 同 8.,oligos 會用一小段序列去擋住,
    因為這段序列是加上去的,不需要被定序
  5. 同 9.,一邊合成一邊定序 因為步驟與 Part C 類似,就不放動畫了,有興趣可以觀看 Illumina出品 的動畫。

Part D 初步資料分析

  1. Illumina 會利用演算法將這些上述 Barcode、80 bp 的破碎序列資訊,
    分類並組成一條一條完整序列,
    最終長度則是依照給予的樣本為定,
    以本系列文章為例,我們選擇 16S V3~V4區域,
    每個檔案的就會含有數萬條長度為 250 bp 的序列,
    並且每個樣本會有 2 個檔案,
    因為 Paired-End Sequencing 含有 Forward 與 Reverse,
    檔案內也會根據螢光偵測到的波型完整度,
    給予每個 mer 判定後的品質分數 (Quality score)。
    ezgif com-gif-maker (21)

Reference : Illumina


QIIME2 創業 培養 定序 彰師 微生物分析 鐵人賽系列