新聞中心
NEWS
生信專題
測(cè)序數(shù)據(jù)比對(duì)后處理
”
Mosdepth是一款快速計(jì)算全基因組測(cè)序覆蓋度的工具,專用于評(píng)估 BAM 或 CRAM 文件中基因組的每個(gè)堿基位置或基因組區(qū)域的深度,常用來(lái)評(píng)估單條染色體的覆蓋深度。
優(yōu)勢(shì)
1、每個(gè)堿基深度的計(jì)算速度是傳統(tǒng)samtools depth的約2倍。
2、可計(jì)算給定窗口大小的平均每個(gè)窗口深度,非常方便后續(xù)CNV calling。
3、可計(jì)算給定區(qū)域的BND文件的每個(gè)區(qū)域的平均值。
4、在設(shè)定相應(yīng)的閾值后,可以展示基因組和每個(gè)染色體的堿基分布比例。
5、可以合并相鄰堿基的量化輸出。
6、每條染色體和每條染色體指定區(qū)域內(nèi)的平均深度的總結(jié)。
下載安裝
從官網(wǎng)直接下載編譯好的文件,修改權(quán)限即可使用。
使用
準(zhǔn)備
計(jì)算深度
參數(shù)
● –t:設(shè)定自己需要的線程數(shù)。
● –c:設(shè)定待分析的染色體號(hào)。
● out:待輸出的文件前綴。
● sample.bam:待輸入分析的bam文件。
● –b sample.bed:待輸入的指定區(qū)域文件,當(dāng)分析整個(gè)基因組時(shí),可去掉該參數(shù)。
● –n:不逐個(gè)輸出堿基深度。如果跳過(guò)此輸出,可以顯著提升程序執(zhí)行速度。建議優(yōu)先使用量化或閾值的深度值進(jìn)行測(cè)試。
● –f:用于CRAM文件的參考序列(fasta格式)。
●--d4:將堿基深度文件輸出為d4格式。
結(jié)果
out.mosdepth.summary.txt
該文件詳細(xì)記錄了每條染色體及整個(gè)基因組的相關(guān)信息,包括以下內(nèi)容:染色體名稱、序列長(zhǎng)度、映射的堿基數(shù)量、覆蓋深度的平均值、覆蓋深度的最小值以及最大值。這些數(shù)據(jù)能夠全面反映基因組中不同區(qū)域的測(cè)序覆蓋情況。以下是一個(gè)示例格式:
out.mosdepth.global.dist.txt
文件中包含累積分布信息,用于表示在不同覆蓋率閾值下,被覆蓋的總堿基比例。該文件包含三列數(shù)據(jù),分別是:染色體名稱或 total(表示全基因組統(tǒng)計(jì))、覆蓋深度閾值、以及達(dá)到或超過(guò)該覆蓋深度的堿基比例。以下是一個(gè)示例:
還可以使用腳本 python scripts/plot-dist.py *global.dist.txt 繪制覆蓋度分布圖。此腳本會(huì)生成一個(gè)名為 dist.html 的輸出文件,直觀展示整個(gè)基因組的覆蓋度分布情況。在運(yùn)行該命令之前,請(qǐng)確保 scripts/plot-dist.py 腳本和覆蓋度統(tǒng)計(jì)文件(以 *global.dist.txt 結(jié)尾)位于正確的目錄中。生成的 dist.html 文件可在瀏覽器中打開,查看全基因組覆蓋度分布的詳細(xì)圖示。
out.per-base.bed.gz
Mosdepth支持輸出每個(gè)堿基的深度信息,即在基因組中對(duì)每個(gè)位置的覆蓋深度進(jìn)行逐一記錄。這種輸出方式提供了精確的深度分布數(shù)據(jù),適用于需要詳細(xì)覆蓋度分析的場(chǎng)景,例如檢測(cè)局部變異或基因熱點(diǎn)區(qū)域。然而,由于逐堿基深度輸出會(huì)生成大量數(shù)據(jù),其處理和存儲(chǔ)需求較高,因此在需要提高運(yùn)行速度時(shí),可以通過(guò)跳過(guò)此類輸出(使用 -n 參數(shù))來(lái)優(yōu)化執(zhí)行效率。
out.per-base.bed.gz.csi
該文件是一個(gè)索引文件,與壓縮的逐堿基深度文件 out.per-base.bed.gz 對(duì)應(yīng),用于加速數(shù)據(jù)的隨機(jī)訪問(wèn)和查詢操作。