NGS QIIME2 : 分析與繪製微生物基因功能預測 PICRUSt2 + STAMP (下) -20

分析學術定序報告請至本頁中 →STAMP 圖形化介面視覺化軟體 章節開始閱讀。

預測酵素及代謝途徑豐富度

PICRUSt2 強大之處可以藉由菌相資料預測獲得 Enzyme Commission (E.C number)、KEGG Orthology (KO)、MetaCyc pathway 豐富度資料,用比較輕鬆的說法就是 : PICRUSt2 可以預測菌群中的酵素及代謝途徑豐富度

利用 PICRUSt2 的 E.C number 預測結果繪製的組間酵素豐富度比較。

PICRUSt2 輸出資料的註釋

PICRUSt2 分析後主要利用下列的檔案解壓縮後視覺化,分別是以E.C、KO、Pathway,現在的我們並沒有上述的檔案,需要先進行以下步驟。

  1. EC_metagenome_out/
    pred_metagenome_unstrat_descrip.tsv.gz
  2. pathways_out/
    path_abun_unstrat_descrip.tsv.gz

由於 PICRUSt2 原始輸出時僅含有酵素及代謝途徑編號,為方便人類判讀,會使用 PICRUSt2 Add descriptions 功能替編號加上註釋 :

操作下列指令時需先啟動 PICRUSt2 環境並 cd 到 picrust2_out_pipeline 資料夾 。

dd_descriptions.py \
  -i EC_metagenome_out/pred_metagenome_unstrat.tsv.gz \
  -m EC \
  -o EC_metagenome_out/pred_metagenome_unstrat_descrip.tsv.gz
add_descriptions.py \
  -i pathways_out/path_abun_unstrat.tsv.gz \
  -m METACYC \
  -o pathways_out/path_abun_unstrat_descrip.tsv.gz
  1. 將此輸出的檔案
    path_abun_unstrat_descrip.tsv.gz
    pred_metagenome_unstrat_descrip.tsv.gz
    拉到本機端並解壓縮,可以獲得分別含有 KO/EC/Pathway、註釋、樣本名、豐富度的 tsv 三個檔案。注意 KO 與 EC 出來的檔名相同,避免混淆可以重新命名。
  2. 這三個 tsv 各複製一個新檔案,新檔案以 Excel 開啟 (怕不小心用壞了)。
  3. 可選擇刪除 function/pathway column 或是 description column,這個動作是決定後續本教學的縱軸顯示(如開頭圖)。
  4. 本篇範例使用 EC_metagenome_out/pred_metagenome_unstrat_descrip.tsv.gz
    解壓縮後刪除 function column ,完成後檔案如下所示 :
    description	CRC_A	CRC_B	CRC_C	CRC_D	...
    Alcohol dehydrogenase 18794.29 19032.78 31185.93 17137.23 ...
    3-oxoacyl-[acyl-carrier-protein] reductase 43579.57 32083.94 60889.85 31771.04
    .
    .
    .
  5. sample-metadata.tsv拉到本機端,並刪除#q2:types 那一行,完成後如下 :
    sample_name	Index	Sex
    CRC_A	CRC_A	Female
    CRC_B	CRC_B	Female
    CRC_C	CRC_C	Female
    CRC_D	CRC_D	Male
    CRC_E	CRC_E	Male
    CRC_F	CRC_F	Male

STAMP 圖形化介面視覺化軟體

以下介紹使用者友善的菌相功能預測視覺化軟體 STAMP :

There are many possible ways to analyze PICRUSt2 output. STAMP is one tool that can be used that requires no background in scripting languages.
Reference : picrust

安裝與匯入

  1. 先下載 Windows 版下載Mac 下載方式,純指令的 Linux 系統 是開不起來的,需使用圖形化作業系統。
  2. Ctrl + O 載入檔案,Profile file 是 pred_metagenome_unstrat_descrip.tsv/
    pred_metagenome_unstrat.tsv,Group metadata file 是 sample-metadata.tsv:

    使用 pred_metagenome_unstrat_descrip.tsv 可能因檔案中的酵素代號不同但名稱相同,出現錯誤而無法載入,(Data does not form a strict hierarchy…),可以選擇至 Excel 表格中篩選出重複的代號,並重新命名為如 (1) (2) 等,或建議改用 pred_metagenome_unstrat.tsv

參數操作

  1. 將組別設定切換進來,範例我們調整到 Sex 組 (因為 Index 一人一組在這裡無意義),若有不同組別可之後再調整:
  2. STAMP 提供三種類別,多重組別、兩組比較、兩樣本比較,先選 Two samples (左圖),再選擇產圖方式,這邊我們選 Profile bat plot (右圖):
  3. 仔細看軟體有很多參數可以調整(選擇樣本、統計檢定方式、p value等),也能在 Configure plot 調整圖片參數。調整完後可以按 Ctrl + s 存圖,檔名用英文,中文會報錯!

STAMP 視覺化結果

以下皆使用軟體預設的統計方式 :

  • Profile bar plot
E.C. number abundance / Two samples / CRC_A & CRC_B / Profile bar plot
  • Extended error bar
E.C. number abundance / Two groups / Female & Male / Extended error bar
  • Heatmap plot
Pathway abundance / Mutiple groups / Heatmap plot / Width : 12, Height : 50 in Configure plot (原圖過長已裁切)

本篇使用到的輸入檔案 :
EC_metagenome_out/
pred_metagenome_unstrat.tsv.gz

pathways_out/
path_abun_unstrat.tsv.gz

學完基礎 NGS 16S rRNA 生資分析了 !

經歷觀念介紹、檔案製備、品質管制、視覺化資料、多樣性統計、功能性預測等,最難的永遠不是產圖,而是找出數據背後的生物意義。喘一口氣,下篇整理過去點點滴滴,最後幾篇迎接更炫炮的第三代定序 (TGS) 資料分析 !!


QIIME2 創業 培養 定序 彰師 微生物分析 鐵人賽系列