新聞中心
NEWS
生信專題
測序數(shù)據(jù)比對后處理
”
Mosdepth是一款快速計算全基因組測序覆蓋度的工具,專用于評估 BAM 或 CRAM 文件中基因組的每個堿基位置或基因組區(qū)域的深度,常用來評估單條染色體的覆蓋深度。
優(yōu)勢
1、每個堿基深度的計算速度是傳統(tǒng)samtools depth的約2倍。
2、可計算給定窗口大小的平均每個窗口深度,非常方便后續(xù)CNV calling。
3、可計算給定區(qū)域的BND文件的每個區(qū)域的平均值。
4、在設(shè)定相應(yīng)的閾值后,可以展示基因組和每個染色體的堿基分布比例。
5、可以合并相鄰堿基的量化輸出。
6、每條染色體和每條染色體指定區(qū)域內(nèi)的平均深度的總結(jié)。
下載安裝
從官網(wǎng)直接下載編譯好的文件,修改權(quán)限即可使用。
使用
準(zhǔn)備
計算深度
參數(shù)
● –t:設(shè)定自己需要的線程數(shù)。
● –c:設(shè)定待分析的染色體號。
● out:待輸出的文件前綴。
● sample.bam:待輸入分析的bam文件。
● –b sample.bed:待輸入的指定區(qū)域文件,當(dāng)分析整個基因組時,可去掉該參數(shù)。
● –n:不逐個輸出堿基深度。如果跳過此輸出,可以顯著提升程序執(zhí)行速度。建議優(yōu)先使用量化或閾值的深度值進(jìn)行測試。
● –f:用于CRAM文件的參考序列(fasta格式)。
●--d4:將堿基深度文件輸出為d4格式。
結(jié)果
out.mosdepth.summary.txt
該文件詳細(xì)記錄了每條染色體及整個基因組的相關(guān)信息,包括以下內(nèi)容:染色體名稱、序列長度、映射的堿基數(shù)量、覆蓋深度的平均值、覆蓋深度的最小值以及最大值。這些數(shù)據(jù)能夠全面反映基因組中不同區(qū)域的測序覆蓋情況。以下是一個示例格式:
out.mosdepth.global.dist.txt
文件中包含累積分布信息,用于表示在不同覆蓋率閾值下,被覆蓋的總堿基比例。該文件包含三列數(shù)據(jù),分別是:染色體名稱或 total(表示全基因組統(tǒng)計)、覆蓋深度閾值、以及達(dá)到或超過該覆蓋深度的堿基比例。以下是一個示例:
還可以使用腳本 python scripts/plot-dist.py *global.dist.txt 繪制覆蓋度分布圖。此腳本會生成一個名為 dist.html 的輸出文件,直觀展示整個基因組的覆蓋度分布情況。在運行該命令之前,請確保 scripts/plot-dist.py 腳本和覆蓋度統(tǒng)計文件(以 *global.dist.txt 結(jié)尾)位于正確的目錄中。生成的 dist.html 文件可在瀏覽器中打開,查看全基因組覆蓋度分布的詳細(xì)圖示。
out.per-base.bed.gz
Mosdepth支持輸出每個堿基的深度信息,即在基因組中對每個位置的覆蓋深度進(jìn)行逐一記錄。這種輸出方式提供了精確的深度分布數(shù)據(jù),適用于需要詳細(xì)覆蓋度分析的場景,例如檢測局部變異或基因熱點區(qū)域。然而,由于逐堿基深度輸出會生成大量數(shù)據(jù),其處理和存儲需求較高,因此在需要提高運行速度時,可以通過跳過此類輸出(使用 -n 參數(shù))來優(yōu)化執(zhí)行效率。
out.per-base.bed.gz.csi
該文件是一個索引文件,與壓縮的逐堿基深度文件 out.per-base.bed.gz 對應(yīng),用于加速數(shù)據(jù)的隨機(jī)訪問和查詢操作。