新聞中心
NEWS
生信專題 Nanopore測序原始數(shù)據(jù)文件 ” 在早期版本中,Nanopore儲存原始的電信號主要采用的是.fast5。作為一種HDF5文件,.fast5包含nanopore測序數(shù)據(jù)所需要的所有信息,并且現(xiàn)在仍是一種可選擇的文件存儲方式。隨著技術(shù)不斷提升,測序所產(chǎn)生的數(shù)據(jù)會越來越大,為了提升文件的讀寫速度,改善計算機(jī)資源和內(nèi)存占用等問題,逐漸使用POD5文件格式取代.fast5。那么,究竟什么是pod文件?我們該如何處理pod文件?讓我們一起看看吧! 文件信息識別 由于POD5是種二進(jìn)制文件,無法直接看出其儲存的信息,這就需要其他工具進(jìn)行解析和轉(zhuǎn)化,Pod5Viewer提供一直圖形化界面可以直觀地了解POD5文件儲存的一些基本信息。 下載Pod5Viewer: 打開github(https://github.com/dietvin/pod5Viewer),按提示選擇windows版本,進(jìn)行本地安裝。 選取準(zhǔn)備好的pod5文件,即可顯示每條reads的ID,以及一一對應(yīng)的測序基本信息,如選用的測序儀器、所用的試劑盒、測序開始的時間和進(jìn)行分析的軟件版本等。 文件處理方法 在對pod5文件進(jìn)行合并、格式轉(zhuǎn)化和提取等操作時,可以用pod5 python包進(jìn)行操作。 安裝pip install pod5: 1. pod5 view pod5 view test.pod5 > pod5.txt 輸出一個類似sequencing summary的表,包含測序的一些基本信息。 2. pod5 inspect 用來檢查pod5文件的完整性。 pod5 inspect read 查看指定reads的信息 3. pod5 merge pod5 merge test01.pod5 test02.pod5 --output merge.pod5 可對不同的pod5文件進(jìn)行合并,但不能出現(xiàn)重復(fù)的reads ID。 4. pod5 filter pod5 filter test01.pod5 --output filtered_test01.pod5 --ids reads_ID.txt 提取指定reads ID的pod5文件信息。 5. pod5 subset pod5 subset test01.pod5 --csv mapping.csv 構(gòu)建csv,tsv或table文件進(jìn)行比對,生成多個pod文件。 6. pod5 repack pod5 repack inputs/*.pod5 repacked/ 重新構(gòu)建pod5文件。 7. pod5 convert fast5 pod5 convert fast5 fast5/test01.0_0.fast5 --output converted.pod5 可將fast5文件轉(zhuǎn)換成pod5文件。 8. pod5 convert to_fast5 pod5 convert to_fast5 test01.pod5 --output fast5/ 可將pod5文件轉(zhuǎn)換成fast5文件。
參考文獻(xiàn) [1] Dietrich V, Alagna N, Helm M, Gerber S, Butto T. Pod5Viewer: a GUI for inspecting raw nanopore sequencing data. Bioinformatics. 2024 Nov 28;40(12):btae665. [2] https://gicthub.com/nanoporetech/pod5-file-format