亚洲国产综合精品 在线 一区,国产午夜无码视频在线观看,亚洲色欲色欲综合网站站,久久国产福利一区二区

 

新聞中心

NEWS

生信篇 | FASTA序列分析工具

來源: | 作者:/ | 發(fā)布時間: 2025-04-02 | 165 次瀏覽 | 分享到:

生信專題

FASTA序列分析工具

在對測序數(shù)據(jù)進行分析時,經(jīng)常會碰到fasta文件的處理,如基因組組裝、RNA-seq和蛋白質(zhì)組學(xué)的分析等。使用現(xiàn)有的分析工具如SeqKit統(tǒng)計長度,往往需要手動篩選序列,再利用R或Python進行分析數(shù)據(jù)的可視化。這無疑是會導(dǎo)致操作的冗余且容易出錯。本文介紹一款處理fasta數(shù)據(jù)的分析軟件——SeqLengthPlot,其可將序列長度分析全流程(統(tǒng)計→篩選→可視化)整合為單一命令行工具,顯著提升效率。

1

圖片

簡介

SeqLengthPlot是一種一體化序列長度分析與可視化工具,其主要功能是可對fasta文件進行統(tǒng)計。此外,還可對序列進行自定義長度的拆分,得到兩種長度的序列文件(“長序列”和“短序列”)。同時,在分析過程中可進行直方圖,直觀展示數(shù)據(jù)特征。

圖片

圖 軟件工作流程

2

圖片

軟件安裝


直接Clone到分析服務(wù)器的目錄之中

git clone https://github.com/danydguezperez/SeqLengthPlot.git


進入SeqLengthPlot目錄

cd SeqLengthPlot/


執(zhí)行命令

python SeqLengthPlot_v2.0.2.py -i input.fasta

3

圖片

實例展示


執(zhí)行軟件命令

python SeqLengthPlot_v2.0.2.py -i Assembly_Ss_SE.Trinity.fasta -o output --cutoff 1000 –nt --showplot

發(fā)現(xiàn)直接執(zhí)行上述命令會發(fā)生錯誤

圖片

原因是TkAgg是Matplotlib 的交互式后端,依賴 tkinter(Python的GUI 庫)。在 Linux 服務(wù)器等無顯示器的環(huán)境中,GUI不可用,導(dǎo)致此錯誤。這里解決的方案是使用非交互式后端(如Agg),并執(zhí)行以下命令:

python SeqLengthPlot_v2.0.2.py -i Assembly_Ss_SE.Trinity.fasta -o output --cutoff 1000 --nt --showplot --backend Agg

成功,無報錯信息,獲取結(jié)果文件。


參數(shù)信息

圖片

基本選項:

?  -h, --help:顯示幫助信息;

?  -i INPUT, --input INPUT:必選參數(shù),指定輸入FASTA文件的路徑;

?  -o OUTPUT, --output OUTPUT:指定輸出文件的目錄。如果沒有提供,默認(rèn)使用輸入文件所在的目錄。

序列處理選項:

?  --cutoff CUTOFF:設(shè)置分割序列的長度閾值(默認(rèn)值為200);

?  --nt:指定輸入文件包含核苷酸序列(默認(rèn)選項);

?  --prot:指定輸入文件包含蛋白質(zhì)序列。

可視化選項:

?  --showplot:啟用交互式顯示圖表(默認(rèn)不顯示);

?  --backend BACKEND:設(shè)置繪圖的后端引擎(默認(rèn)是 TkAgg),對于Mac用戶,可以指定 MacOSX 以獲得更好的兼容性。

4

圖片

結(jié)果展示

圖片
圖片
圖片
圖片

以上為自定義長度≥1000bp和<1000bp序列長度分布圖(PNG 格式)。

圖片

在結(jié)果文件中,還包含長度 ≥1000bp和<1000bp拆分后的fasta文件,seq_length_stats_by_cutoff_1000bp.txt文件可快速獲取數(shù)據(jù)集的統(tǒng)計摘要。

5

圖片

與其他工具比較

圖片

參考文獻(xiàn)

[1] Domínguez-Pérez D, Agüero-Chapin G, Leone S, Modica MV. SeqLengthPlot v2.0: an all-in-one, easy-to-use tool for visualizing and retrieving sequence lengths from FASTA files. Bioinform Adv. 2024 Nov 20;5(1):vbae183.

[2] https://github.com/danydguezperez/SeqLengthPlot