首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Numpy和Biopython必须集成吗?

Numpy和Biopython必须集成吗?
EN

Stack Overflow用户
提问于 2012-11-25 16:22:12
回答 1查看 984关注 0票数 5

例如..。我有两个脚本来查看一个(多序列对齐) MSA是否有50多个列,缺口小于50%。

第一个使用BioPython的是4.2秒,包含16281个序列,列为609列(PF00085格式为fasta格式)。Biopython的多序列比对对象的图腾方法耗费了大量的时间。

第二种方法使用简单的IO来生成2D Numpy Array和MSA,使用1.2秒的进行相同的对齐。

我认为MSA对象的Numpy方法可能更有用、更快,例如,可以使用布尔numpy数组来选择特定的行和列。实际上,删除和选择列(例如,删除具有50%间隙的列)非常耗时,在Biopython中没有很好地实现。我认为这对于PDB坐标的nx3 numpy数组也是有用的。

我有五个想法,也许其中一个或两个是有用的:

1-基于numpy而不是str创建一个Seq和多序列对齐对象(Bio.Align.MultipleSeqAlignment)。这可能是一个兼容性问题..。也许这不是个好主意。我不知道。

2-在Biopython中创建一个更快的方法,以便从Biopython对象获得numpy数组版本。我尝试为多个序列对齐对象生成numpy数组,但是这会对getitem方法进行多次调用,它比单独使用Biopython更耗时。但是,也许拥有更多编程技能的人可以做一些更好的事情。

3-为numpy或scipy创建一个模块,为对齐和PDB提供IO支持。也许更简单更有用的想法。

4-创建另一个完整的Bio模块,但基于numpy。可能是在枕骨里或者裸体里。

类似于思想2和3,创建模块和方法,以便在Biopython和numpy对象之间实现更快、更高效的兼容性。

,你觉得呢?什么想法更好呢?你有什么更好的主意吗?可以做点什么吗?我想和Biopython项目合作..。我认为与numpy的集成是一个好的开始。

非常感谢;)

我的两个剧本..。slow,基于Biopython:

代码语言:javascript
运行
复制
#!/usr/bin/python2.7

from sys import argv
from Bio import AlignIO
aln = AlignIO.read(open(argv[1],"r"), "fasta")
longitud = aln.get_alignment_length()
if longitud > 150:
    corte = 0.5 * len(aln)
    j = 0
    i = 0
    while j<50 and i<longitud:    
        if aln[:,i].count("-") < corte:
            j += 1
        i += 1
    if j>=50:
        print argv[1]

而基于numpy数组的最快方法是:

代码语言:javascript
运行
复制
#!/usr/bin/python2.7

from sys import argv
import numpy as np

with open(argv[1],'r') as archivo:
    secuencias=[]
    identificadores=[]
    temp=[]
    for linea in archivo:
        if linea[0]=='>':
            identificadores.append(linea[1:].replace('\n',''))
            secuencias.append(list(temp))
            temp=""
        else:
            temp += linea.replace('\n','')
    secuencias.append(list(temp))

sec = np.array(secuencias[1:])
ide = np.array(identificadores)

if len(ide)>150:
    corte = len(ide) * 0.5
    if np.sum(np.sum(sec=='-',1) < corte) >= 50:
        print argv[1]
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-11-25 18:43:16

如果要对MSA对象执行许多操作,将它们作为字符数组处理是有用的,那么我只需使用Biopython的AlignIO加载对齐,然后将其转换为一个NumPy字符数组。例如:

代码语言:javascript
运行
复制
import numpy as nump
from Bio import AlignIO
filename = "opuntia.aln"
format = "clustal"
alignment = AlignIO.read(filename, format)
align_array = numpy.array([list(rec) for rec in alignment], numpy.character)

这个快速示例可以作为to_array方法轻松地添加到对齐对象中,或者包含在本教程中。有帮助吗?

当然,您仍然要支付所有对象创建(Seq对象、SeqRecord对象、空注释字典、对齐对象等)的开销,但这是AlignIO接口的缺点--它适用于一个相对繁重的对象模型。对于FASTA和Clustal这样的简单格式来说,这并不是真正需要的,但是对于诸如斯德哥尔摩这样的丰富的对齐格式来说,这是更有用的。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13552916

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档