2017-02-22
BLASTX优化方案
本文总结了生物信息人员在使用BLASTX的一些经验,期待与其他同行交流BLASTX的优化经验。
0 前言
1 使用ncbi-blast+工具替换blastall
NCBI在1989年引入BLAST软件包,现在叫legacy_blast,主要是通过blastall 去调用 blastx,blastall最后一个版本更新在2016年。2009年,NCBI发布了检索速度更快,输出格式更为多样化的 ncbi-blast+软件包 。BLAST+的特点为:擅长处理长查询序列,将长序列切成短序列,即减少了内存消耗又更好的利用CPU计算架构,提高了比对效率,详情见 Command Line Applications User Manual 。BLAST+软件包将BLASTN,BLASTP和BLASTX单独拆分出来并分别进行了优化和处理,因而计算速度比blastall有了很大的提升。具体测试结果可以看ncbi-blast+的 user_manual 。
2 使用blastx-fast模式
表1 query数据(DNA)
表5 结果一致性比较表
sample_name | num_seqs | sum_len(bp) | min_len(bp) | avg_len(bp) | max_len(bp) |
---|
blast2go在其官网一些案例使用的是blastx-fast模式。 官方帮助文档 ,参考第10页也是使用blastx-fast。
3 充分利用cpu并行任务
表6 不同数据切分和cpu的组合试验
seq_name | blastx_query_num | blastx-fast_query_num | (交集数/blastx_query)% | (交集数/blastx-fast_query) | blastx_特有 | blastx-fast_特有 |
---|
seq_name | db_name | threads(n) | *Mem(MB) | *time(min) |
---|