新聞中心
NEWS
Unicycler 是一款專為細(xì)菌基因組設(shè)計的混合組裝工具,由 Ryan Wick 博士團隊開發(fā)。它巧妙結(jié)合了二代測序中短讀長(Illumina)的高準(zhǔn)確性與三代測序中長讀長(PacBio/Oxford Nanopore)的跨重復(fù)優(yōu)勢,特別適用于高重復(fù)、高雜合或復(fù)雜結(jié)構(gòu)的微生物基因組組裝。同時,它也是一款可以獨立完成二代測序基因組組裝、三代測序基因組組裝以及二三代測序數(shù)據(jù)混合組裝的優(yōu)秀生信軟件,下文將著重介紹二三代測序數(shù)據(jù)混合組裝。
相較于傳統(tǒng)組裝工具(如SPAdes、IDBA-UD),Unicycler 在解決細(xì)菌基因組中重復(fù)序列和質(zhì)粒環(huán)狀結(jié)構(gòu)時表現(xiàn)卓越,尤其適合單菌分離樣本或宏基因組分箱后的精細(xì)化組裝。
軟件功能亮點
1、混合組裝引擎
短讀長糾錯:利用Illumina數(shù)據(jù)校正長讀長的測序錯誤,提升組裝準(zhǔn)確性。
長讀長橋接:通過PacBio/Nanopore長讀長跨越重復(fù)區(qū)域,連接短讀長無法覆蓋的斷裂區(qū)域。
2、自動化流程整合
內(nèi)置Bowtie2比對與Pilon糾錯,支持從原始數(shù)據(jù)到最終環(huán)化基因組的全流程自動化。
3、環(huán)狀結(jié)構(gòu)識別
自動檢測染色體和質(zhì)粒的環(huán)狀結(jié)構(gòu),生成完整的閉環(huán)序列(若數(shù)據(jù)支持)。
4、靈活輸入支持
兼容Illumina雙端測序、PacBio CLR/CCS及Nanopore數(shù)據(jù),適應(yīng)不同實驗設(shè)計需求。
算法核心解析
Unicycler 的算法設(shè)計融合了De Bruijn圖與字符串圖(String Graph)的優(yōu)勢,分三階段實現(xiàn)高效組裝:
1、短讀長糾錯與初步組裝
De Bruijn圖構(gòu)建:將短讀長拆分為k-mer,構(gòu)建圖結(jié)構(gòu),通過尋找歐拉路徑生成初始Contig。
錯誤剔除:基于k-mer頻率和一致性過濾低覆蓋分支,避免測序噪聲干擾。
2、長讀長進(jìn)行的圖優(yōu)化
長讀長比對與糾錯:將長讀長比對至初始Contig,校正其測序錯誤并填充缺口。
字符串圖構(gòu)建:基于長讀長的重疊關(guān)系構(gòu)建字符串圖,解決重復(fù)區(qū)域的路徑歧義。
3、路徑選擇與環(huán)化處理
啟發(fā)式搜索最優(yōu)路徑:結(jié)合讀長覆蓋度和拓?fù)浣Y(jié)構(gòu)選擇最可能的路徑,生成線性或環(huán)狀Scaffold。
自動環(huán)化檢測:通過比對末端重疊識別環(huán)狀結(jié)構(gòu),輸出完整染色體/質(zhì)粒序列。
軟件安裝
Github官網(wǎng)上有提供相應(yīng)源碼,可直接下載安裝,下面提供一種安裝方案,可以安裝最新版的Unicycler。
實戰(zhàn)示例
案例背景:對一株耐藥性的大腸桿菌進(jìn)行基因組組裝,數(shù)據(jù)源包含illumina雙端測序(150bp)數(shù)據(jù)和Nanopore長讀長(N50=15kb)數(shù)據(jù)。
1、運行命令
? -1/-2:illumina 雙端數(shù)據(jù)
? - l:長讀長數(shù)據(jù)
? - o:輸出目錄
2、輸出結(jié)果文件
? assembly.fasta: 最終組裝序列
? assembly.gfa: 組裝圖文件,可用Bandage軟件來可視化
? unicycler.log:詳細(xì)日志文件,可用于調(diào)試與性能評估
結(jié)果解讀與優(yōu)化策略
1、評估指標(biāo)
Contig N50:若N50接近基因組預(yù)期大?。ㄈ绱竽c桿菌~4.6Mb),表明組裝連貫性高。
環(huán)化比例:理想情況下,主染色體和質(zhì)粒應(yīng)標(biāo)記為環(huán)狀。
BUSCO完整性:使用細(xì)菌通用單拷貝基因集評估基因區(qū)域的完整性(目標(biāo)>95%)。
2、常見問題與對策
碎片化Contig:增加長讀長數(shù)據(jù)中的覆蓋度或調(diào)整--min_kmer_coverage參數(shù)。
環(huán)化失敗:檢查長讀長是否跨越重復(fù)區(qū)域,或手動使用Circlator等工具進(jìn)行補環(huán)。
嵌合體污染:結(jié)合參考基因組比對或基于覆蓋度差異篩選異常區(qū)域進(jìn)行后續(xù)分析。
結(jié)語
Unicycler 憑借其混合算法與自動化設(shè)計,已成為微生物基因組研究的標(biāo)桿工具。無論是臨床病原體溯源還是環(huán)境微生物挖掘,它都能提供高完整度、低錯誤率的組裝結(jié)果。下一期我們將帶來Unicycler單獨進(jìn)行二代測序數(shù)據(jù)或者三代測序數(shù)據(jù)組裝的詳細(xì)介紹,敬請期待!