新聞中心
NEWS
生信專題 FASTA序列分析工具 ” 在對測序數(shù)據(jù)進行分析時,經(jīng)常會碰到fasta文件的處理,如基因組組裝、RNA-seq和蛋白質(zhì)組學(xué)的分析等。使用現(xiàn)有的分析工具如SeqKit統(tǒng)計長度,往往需要手動篩選序列,再利用R或Python進行分析數(shù)據(jù)的可視化。這無疑是會導(dǎo)致操作的冗余且容易出錯。本文介紹一款處理fasta數(shù)據(jù)的分析軟件——SeqLengthPlot,其可將序列長度分析全流程(統(tǒng)計→篩選→可視化)整合為單一命令行工具,顯著提升效率。
簡介
SeqLengthPlot是一種一體化序列長度分析與可視化工具,其主要功能是可對fasta文件進行統(tǒng)計。此外,還可對序列進行自定義長度的拆分,得到兩種長度的序列文件(“長序列”和“短序列”)。同時,在分析過程中可進行直方圖,直觀展示數(shù)據(jù)特征。 圖 軟件工作流程 軟件安裝 直接Clone到分析服務(wù)器的目錄之中 git clone https://github.com/danydguezperez/SeqLengthPlot.git 進入SeqLengthPlot目錄 cd SeqLengthPlot/ 執(zhí)行命令 python SeqLengthPlot_v2.0.2.py -i input.fasta 實例展示 執(zhí)行軟件命令 python SeqLengthPlot_v2.0.2.py -i Assembly_Ss_SE.Trinity.fasta -o output --cutoff 1000 –nt --showplot 發(fā)現(xiàn)直接執(zhí)行上述命令會發(fā)生錯誤 原因是TkAgg是Matplotlib 的交互式后端,依賴 tkinter(Python的GUI 庫)。在 Linux 服務(wù)器等無顯示器的環(huán)境中,GUI不可用,導(dǎo)致此錯誤。這里解決的方案是使用非交互式后端(如Agg),并執(zhí)行以下命令: python SeqLengthPlot_v2.0.2.py -i Assembly_Ss_SE.Trinity.fasta -o output --cutoff 1000 --nt --showplot --backend Agg 成功,無報錯信息,獲取結(jié)果文件。 參數(shù)信息 基本選項: ? -h, --help:顯示幫助信息; ? -i INPUT, --input INPUT:必選參數(shù),指定輸入FASTA文件的路徑; ? -o OUTPUT, --output OUTPUT:指定輸出文件的目錄。如果沒有提供,默認(rèn)使用輸入文件所在的目錄。 序列處理選項: ? --cutoff CUTOFF:設(shè)置分割序列的長度閾值(默認(rèn)值為200); ? --nt:指定輸入文件包含核苷酸序列(默認(rèn)選項); ? --prot:指定輸入文件包含蛋白質(zhì)序列。 可視化選項: ? --showplot:啟用交互式顯示圖表(默認(rèn)不顯示); ? --backend BACKEND:設(shè)置繪圖的后端引擎(默認(rèn)是 TkAgg),對于Mac用戶,可以指定 MacOSX 以獲得更好的兼容性。 結(jié)果展示 以上為自定義長度≥1000bp和<1000bp序列長度分布圖(PNG 格式)。 在結(jié)果文件中,還包含長度 ≥1000bp和<1000bp拆分后的fasta文件,seq_length_stats_by_cutoff_1000bp.txt文件可快速獲取數(shù)據(jù)集的統(tǒng)計摘要。 與其他工具比較 參考文獻(xiàn) [1] Domínguez-Pérez D, Agüero-Chapin G, Leone S, Modica MV. SeqLengthPlot v2.0: an all-in-one, easy-to-use tool for visualizing and retrieving sequence lengths from FASTA files. Bioinform Adv. 2024 Nov 20;5(1):vbae183. [2] https://github.com/danydguezperez/SeqLengthPlot