新聞中心
NEWS
生信專題
Nanopore測序原始數(shù)據(jù)文件
”
在早期版本中,Nanopore儲存原始的電信號主要采用的是.fast5。作為一種HDF5文件,.fast5包含nanopore測序數(shù)據(jù)所需要的所有信息,并且現(xiàn)在仍是一種可選擇的文件存儲方式。隨著技術(shù)不斷提升,測序所產(chǎn)生的數(shù)據(jù)會越來越大,為了提升文件的讀寫速度,改善計(jì)算機(jī)資源和內(nèi)存占用等問題,逐漸使用POD5文件格式取代.fast5。那么,究竟什么是pod文件?我們該如何處理pod文件?讓我們一起看看吧!
文件信息識別
由于POD5是種二進(jìn)制文件,無法直接看出其儲存的信息,這就需要其他工具進(jìn)行解析和轉(zhuǎn)化,Pod5Viewer提供一直圖形化界面可以直觀地了解POD5文件儲存的一些基本信息。
下載Pod5Viewer:
打開github(https://github.com/dietvin/pod5Viewer),按提示選擇windows版本,進(jìn)行本地安裝。
選取準(zhǔn)備好的pod5文件,即可顯示每條reads的ID,以及一一對應(yīng)的測序基本信息,如選用的測序儀器、所用的試劑盒、測序開始的時間和進(jìn)行分析的軟件版本等。
文件處理方法
在對pod5文件進(jìn)行合并、格式轉(zhuǎn)化和提取等操作時,可以用pod5 python包進(jìn)行操作。
安裝pip install pod5:
1. pod5 view
pod5 view test.pod5 > pod5.txt
輸出一個類似sequencing summary的表,包含測序的一些基本信息。
2. pod5 inspect
用來檢查pod5文件的完整性。
pod5 inspect read
查看指定reads的信息
3. pod5 merge
pod5 merge test01.pod5 test02.pod5 --output merge.pod5
可對不同的pod5文件進(jìn)行合并,但不能出現(xiàn)重復(fù)的reads ID。
4. pod5 filter
pod5 filter test01.pod5 --output filtered_test01.pod5 --ids reads_ID.txt
提取指定reads ID的pod5文件信息。
5. pod5 subset
pod5 subset test01.pod5 --csv mapping.csv
構(gòu)建csv,tsv或table文件進(jìn)行比對,生成多個pod文件。
6. pod5 repack
pod5 repack inputs/*.pod5 repacked/
重新構(gòu)建pod5文件。
7. pod5 convert fast5
pod5 convert fast5 fast5/test01.0_0.fast5 --output converted.pod5
可將fast5文件轉(zhuǎn)換成pod5文件。
8. pod5 convert to_fast5
pod5 convert to_fast5 test01.pod5 --output fast5/
可將pod5文件轉(zhuǎn)換成fast5文件。
參考文獻(xiàn)
[1] Dietrich V, Alagna N, Helm M, Gerber S, Butto T. Pod5Viewer: a GUI for inspecting raw nanopore sequencing data. Bioinformatics. 2024 Nov 28;40(12):btae665.
[2] https://gicthub.com/nanoporetech/pod5-file-format