分析學術定序報告請至本頁中 →STAMP 圖形化介面視覺化軟體 章節開始閱讀。
預測酵素及代謝途徑豐富度
PICRUSt2 強大之處可以藉由菌相資料預測獲得 Enzyme Commission (E.C number)、KEGG Orthology (KO)、MetaCyc pathway 豐富度資料,用比較輕鬆的說法就是 : PICRUSt2 可以預測菌群中的酵素及代謝途徑豐富度。

PICRUSt2 輸出資料的註釋
PICRUSt2 分析後主要利用下列的檔案解壓縮後視覺化,分別是以E.C、KO、Pathway,現在的我們並沒有上述的檔案,需要先進行以下步驟。
EC_metagenome_out/
pred_metagenome_unstrat_descrip.tsv.gz
pathways_out/
path_abun_unstrat_descrip.tsv.gz
由於 PICRUSt2 原始輸出時僅含有酵素及代謝途徑編號,為方便人類判讀,會使用 PICRUSt2 Add descriptions 功能替編號加上註釋 :
操作下列指令時需先啟動 PICRUSt2 環境並 cd 到 picrust2_out_pipeline 資料夾 。
dd_descriptions.py \
-i EC_metagenome_out/pred_metagenome_unstrat.tsv.gz \
-m EC \
-o EC_metagenome_out/pred_metagenome_unstrat_descrip.tsv.gz
add_descriptions.py \
-i pathways_out/path_abun_unstrat.tsv.gz \
-m METACYC \
-o pathways_out/path_abun_unstrat_descrip.tsv.gz
- 將此輸出的檔案
path_abun_unstrat_descrip.tsv.gz
、pred_metagenome_unstrat_descrip.tsv.gz
拉到本機端並解壓縮,可以獲得分別含有 KO/EC/Pathway、註釋、樣本名、豐富度的 tsv 三個檔案。注意 KO 與 EC 出來的檔名相同,避免混淆可以重新命名。 - 這三個 tsv 各複製一個新檔案,新檔案以 Excel 開啟 (怕不小心用壞了)。
- 可選擇刪除 function/pathway column 或是 description column,這個動作是決定後續本教學的縱軸顯示(如開頭圖)。
- 本篇範例使用
EC_metagenome_out/pred_metagenome_unstrat_descrip.tsv.gz
解壓縮後刪除 function column ,完成後檔案如下所示 :description CRC_A CRC_B CRC_C CRC_D ...
Alcohol dehydrogenase 18794.29 19032.78 31185.93 17137.23 ...
3-oxoacyl-[acyl-carrier-protein] reductase 43579.57 32083.94 60889.85 31771.04
.
.
. - 將
sample-metadata.tsv
拉到本機端,並刪除#q2:types 那一行,完成後如下 :sample_name Index Sex CRC_A CRC_A Female CRC_B CRC_B Female CRC_C CRC_C Female CRC_D CRC_D Male CRC_E CRC_E Male CRC_F CRC_F Male
STAMP 圖形化介面視覺化軟體
以下介紹使用者友善的菌相功能預測視覺化軟體 STAMP :
There are many possible ways to analyze PICRUSt2 output. STAMP is one tool that can be used that requires no background in scripting languages.
Reference : picrust
安裝與匯入
- 先下載 Windows 版下載、Mac 下載方式,純指令的 Linux 系統 是開不起來的,需使用圖形化作業系統。
Ctrl + O
載入檔案,Profile file 是pred_metagenome_unstrat_descrip.tsv
/pred_metagenome_unstrat.tsv
,Group metadata file 是sample-metadata.tsv
:使用 pred_metagenome_unstrat_descrip.tsv
可能因檔案中的酵素代號不同但名稱相同,出現錯誤而無法載入,(Data does not form a strict hierarchy…),可以選擇至 Excel 表格中篩選出重複的代號,並重新命名為如 (1) (2) 等,或建議改用pred_metagenome_unstrat.tsv
。
參數操作
- 將組別設定切換進來,範例我們調整到 Sex 組 (因為 Index 一人一組在這裡無意義),若有不同組別可之後再調整:
- STAMP 提供三種類別,多重組別、兩組比較、兩樣本比較,先選 Two samples (左圖),再選擇產圖方式,這邊我們選 Profile bat plot (右圖):
- 仔細看軟體有很多參數可以調整(選擇樣本、統計檢定方式、p value等),也能在 Configure plot 調整圖片參數。調整完後可以按
Ctrl + s
存圖,檔名用英文
,中文會報錯!
STAMP 視覺化結果
以下皆使用軟體預設的統計方式 :
- Profile bar plot

- Extended error bar

- Heatmap plot

本篇使用到的輸入檔案 :
EC_metagenome_out/
pred_metagenome_unstrat.tsv.gz
pathways_out/
path_abun_unstrat.tsv.gz
學完基礎 NGS 16S rRNA 生資分析了 !
經歷觀念介紹、檔案製備、品質管制、視覺化資料、多樣性統計、功能性預測等,最難的永遠不是產圖,而是找出數據背後的生物意義。喘一口氣,下篇整理過去點點滴滴,最後幾篇迎接更炫炮的第三代定序 (TGS) 資料分析 !!