可以去掉條數不多的樣本嗎? 取樣深度 (Sampling depth)
還記得 [第 09 篇] 提及的品質控制 (Quality control) 嗎?

在範例的檔案中,可以發現六個樣本經過篩選條數如下: (其實就是上圖中最右邊的條數)
樣本名 | 篩選後條數 |
---|---|
CRC_A | 24671 |
CRC_B | 25003 |
CRC_C | 50131 |
CRC_D | 19914 |
CRC_E | 21046 |
CRC_F | 29772 |
可以挑掉剩餘條數不多的樣本嗎?
例如我們可以發現 CRC_D 19914 條數略少於其他組。而假設今天樣本 N=100 分成四組,總有一些定序後條數明顯少於其他樣本,因為後續將進行物種多樣性的分析統計等,深怕影響最終結果,希望能將一些樣本去除,畢竟條數少可能造成偏差 (Bias)。
如果你是生科相關科系學生,在做蛋白質定量法繪製標準曲線 (Standard curve) 時,若做了蠻多個點,可能也會刪去幾個讓 R^2 結果更漂亮 (笑 :

取樣深度要設多少? 低於多少需要挑掉?
這題並無標準答案,據 QIIME2 開發團隊表示,分析者必須在:留下最多的序列條數 (The most sequences) 及留下最多的樣本 (The most samples) 做平衡,如果樣本數少、當作練習、樣本很難採集,且條數差距不大(可能都有幾萬條),可以考慮都留下,若樣本數多,動輒數百,則 QIIME2 提供取樣深度網頁拖拉服務,提供切一刀的數字參考 :
先將 [第 09 篇] 得到的 table-dada2-240.qza
轉換為 qzv
qiime feature-table summarize \
--i-table table-dada2-240.qza \
--o-visualization table-dada2-240.qzv \
--m-sample-metadata-file sample-metadata.tsv
完成後會顯示 :
'
Saved Visualization to: table-dada2-240.qzv
'
拖曳到 QIIME2 VIEW,右側有個滑桿~
可以依據組別進行觀察 (sample-metadata.tsv
中含有 Index 一人一組與 Sex),
深度取的越深,留下來的樣本就越少(紅色代表該樣本會被篩掉),


在範例我們取 Sampling depth = 19914 ,也就是取最低的 CRC_D 值,即全數保留。
主因是樣本數很少 (N=6) 很可憐了,捨不得放棄他們,再者其實條數都算多,之後的稀疏分析 (Alpha Rarefaction) 會介紹,實務上,其實有上萬條都很足夠,但若遇到同採集條件的樣本卻只有一兩千條,就要思考要不要去除。
如果你心中叛逆的性格被挑起了,範例檔案可以設 19915,(即只高最低的樣本1,使得 N=5 ),不影響後續教學。而每次 QC 結果剩餘的條數因演算法關係,可能略有不同,就算同為範例檔案,也可能有個位數條數差異,所以在這裡深度以自己跑分析的結果為主。
怎麼辦,我有選擇困難,都有上萬條我不知道誰要留阿 QQ,覺得都好重要,都留下吧! 不然跟教授解釋200個樣本下去分析怎麼剩下150個也是蠻麻煩的,取樣深度取最低的樣本序列條數 = 全部保留 (翻找好多 QIIME2 社群問答歸納的結論XD)
本篇使用到的輸入/輸出檔案 :Input
: table-dada2-240.qza、sample-metadata.tsvOutput
: table-dada2-240.qzv
拿起一張便條紙記下 Sampling depth,
以及最大的序列條數 (範例是: 50131) 之後會使用到~
下回是多樣性統計!