腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
如
何在
不
使用
Biopython
的
情况下
找到
FASTA
数据
集中
的
所有
序列
长度
、
、
假设我们有一个这样
的
FASTA
文件: >header1>header2>header3header2 10 header3 16 请不
使用
Biopython
回答此问题。我认为这里可以
使用
re.match('^>')来区分标题行和其他
序列
行(需要先导入re ),但我需
浏览 90
提问于2021-10-02
得票数 1
1
回答
使用
“如果不在”循环时动作太慢
、
、
、
、
我正在
使用
Biopython
解析器处理氨基酸
序列
,但是不管
数据
格式如何(格式是
fasta
,也就是说,您可以将它们想象成字母字符串,如下面的id所示),我
的
问题是,我有大量
的
数据
,尽管我尝试过与j强有力并行,但运行这个简单代码所需
的
时间估计为400小时。基本上,我有一个包含一系列in
的
文件,这些in必须从原始
数据
集( ids_to_drop )中删除(original_dataset),以创建一个新文
浏览 6
提问于2021-12-31
得票数 0
回答已采纳
6
回答
删除短于某一
长度
及以上
的
行(删除
FASTA
文件中
的
短
序列
)
、
、
我有一个包含以下文本
的
文件:GAAATCATCTCGGGAGACATTCCGTGCC 如果一个不以">“开头
的
行短于5个字符,我想删除它及其上方
的
一行
浏览 28
提问于2022-07-17
得票数 3
回答已采纳
4
回答
按
序列
大小对
fasta
进行排序
、
、
、
目前,我想按
序列
大小对一个杂乱
的
fasta
文件(+10**8行和
序列
)进行排序。
fasta
是一种明确
的
生物学格式,用于存储
序列
(遗传或蛋白质): ..。我运行了一个以tsv格式提供给我
的
工具: 标识符
的
标识符、
长度
和以字节为单位
的
位置。现在,我要做
的
是按照length列对这个文件进行排序,然
浏览 7
提问于2016-12-20
得票数 3
回答已采纳
2
回答
这条计算
fasta
文件中核苷酸数目的awk线是如何工作
的
?
、
、
我目前正在学习
使用
awk,并
找到
了我需要
的
awk命令,但并不完全理解其中发生了什么。这一行代码获取一个名为
fasta
的
基因组文件,并返回其中每个
序列
的
所有
长度
。对于那些不熟悉
fasta
文件的人来说,它们是txt文件,可以包含多个称为contigs
的
基因
序列
。NameofsequenceGCACGACTCGCTATATTATA
浏览 0
提问于2021-09-26
得票数 1
回答已采纳
2
回答
在
使用
SeqIO解析
的
fasta
文件上
使用
排序时出现"NotImplementedError: SeqRecord“
、
、
、
我尝试按照文件中
序列
的
字母顺序(而不是
序列
的
ID )对
fasta
文件进行排序。
fasta
文件包含超过200个
序列
,我正在尝试在bit master (
使用
python代码)中查找重复
的
(我指的是几乎相同
的
蛋白质
序列
,但不是相同
的
ID)。所以我想用
fasta
文件做一个字典,然后对字典
的
值进行排序。我尝试
使用
的
代码
浏览 2
提问于2017-02-21
得票数 4
回答已采纳
2
回答
频率加起来不等于1
、
、
我正在编写一个函数,它应该通过DNA
序列
的
.
fasta
文件,并为文件中
的
每个
序列
创建一个核苷酸(nt)和二核苷酸(dnt)频率字典。然后,我将每本字典存储在一个名为“频率”
的
列表中。dinucleotide)) / (len(dna) - 1) frequency.append(freq) (顺便说一句,我
使用
的
是生物
biopython</em
浏览 1
提问于2015-05-27
得票数 6
回答已采纳
1
回答
不同
序列
长度
批次
的
多头自关注输出尺寸
、
我有一个关于变压器自我注意层
的
问题。在处理小批中不同
长度
的
序列
时,我们
使用
pad
序列
,使批处理中
的
所有
序列
都具有相同
的
长度
。假设
数据
集中
的
大多数
序列
都是<500个元素长,但是有一些非常长
的
序列
可以是1000s
的
元素长。如果我想在
不
截断
的</em
浏览 0
提问于2022-09-08
得票数 0
回答已采纳
2
回答
AlignIO在
FASTA
文件中找不到记录
、
我想开始
使用
Biopython
来对齐
序列
文件,但是库总是给我错误。我
的
代码如下:import Bio print alignment我确保将A_prot.
fasta
放在与我
的
程序相同
的
目录中,但我收到一个错误消息: Traceback (most
浏览 1
提问于2013-03-08
得票数 1
1
回答
聚类多元时间
序列
数据
集
、
、
我是新来
的
,我有一家汽车制造公司
的
质量测试
数据
。 我有100000 datasets.each
数据
集有4个变量力,电压,电流,距离。每个变量都是一个连续
的
时间
序列
,每个变量有8000个
数据
点(1到17000毫秒)。时间
序列
的
长度
因
数据
集
的
不同而异。必须将一个
数据
集中
的
所有
变量与另一个
数据
集进行
浏览 0
提问于2017-05-17
得票数 0
回答已采纳
2
回答
在文件中查找氨基酸
序列
我有一个蛋白质
序列
的
文件。我想知道hxxhcxc
序列
是否存在于文件中,如果存在,则打印拉伸。在这里,h=hydrophobic,c=charged,x=any (包括剩余
的
)剩余/秒。我能想到
的
是做3个阵列-疏水,带电和
所有
残基。将每个数组与具有
FASTA
序列
的
文件进行比较。除此之外,我想不出任何其他
的
东西,特别是如何维持秩序--这是主要
的
事情。我是Perl
的
初学者,所以
浏览 2
提问于2012-09-03
得票数 0
2
回答
FASTA
算法解释
、
我试图了解
FASTA
算法在
数据
库中搜索类似查询
序列
的
基本步骤。算法
的
步骤如下:我混淆了
使用
PAM250分数矩阵
的
第3和第4步,以及如何“加入
使用<
浏览 5
提问于2011-12-03
得票数 7
1
回答
如何将
FASTA
读入d3.js中
的
数据
并提取
FASTA
文件
的
子
序列
、
、
、
我有一个很小
的
DNA
序列
fasta
文件,看起来如下: 2.如
何在
(开始、结束)位置提取子
序列
?
浏览 2
提问于2016-12-13
得票数 2
回答已采纳
1
回答
基于gff特性
的
Biopython
解析提取CDS
、
、
、
你好,我正在尝试从一个
fasta
文件中提取编码
序列
,它
使用
一个gff文件,借助
biopython
()。我试过做本教程所描述
的
事情,但有些事情我似乎因为某些原因而不正确:当我迭代
序列
记录
的
特性时,只有'gff_type':'gene‘是被识别的。下面是我
的
gff文件
的
一个示例:
如
您所见,我
的
文件清楚地包含了gff_type='CDS‘条目 但是当我运行
浏览 5
提问于2022-05-16
得票数 0
回答已采纳
2
回答
寻找几个
序列
之间
的
共享基序
、
、
我需要写一个脚本,它将循环通过
序列
列表,
找到
它们之间
的
共享主题(可能存在不同主题
的
多个解决方案),并打印此主题,这已在
所有
序列
之间共享。在下面的示例中AT是其中一个共享
的
主题。我将非常感谢这类任务
的
任何解决方案,包括
BioPython
函数
的
使用
。最近,我做了
浏览 2
提问于2014-04-02
得票数 1
1
回答
使用
外部库kseq.h读取多个
fasta
序列
、
我试图
使用
外部头文件kseq.h (
如
: )从一个大
fasta
文件(包含80000
fasta
序列
)中
找到
用户提供
的
5个in/名称
的
fasta
序列
。当我在for循环中运行程序时,我必须一次又一次地打开/关闭大
fasta
文件(代码中有注释),这使得计算时间变慢。相反,如果我只在循环之外打开/关闭一次,那么如果程序遇到一个在大
fasta
文件中不存在
浏览 2
提问于2014-07-11
得票数 0
3
回答
BLAST通过
Biopython
NCBIWWW。在哪里可以
找到
完整
的
数据
库列表?
、
、
我正在
使用
模块
Biopython
模块NCBIWWW在线销毁一些
序列
。我想在可用
的
不同
数据
库上爆炸我
的
序列
,但是我找不到它们
的
完整列表。这是一个
使用
"blastn“算法对核苷酸集合
数据
库进行简单查询
的
示例。from Bio.Blast import NCBIWWW result_handle = NCBIWWW.qblast("blastn", "nt&quo
浏览 1
提问于2015-02-06
得票数 1
1
回答
Python :为什么python不快速返回我
的
输出文件?
使用
计数器、csv和组-by
、
、
、
、
我对python很陌生,我正在尝试创建一个以
序列
对齐开始
的
脚本,例如,一个'AAGGTTCC‘
的
字符串。脚本应该遍历一个具有多个
序列
的
文件(只计算第二行,因为第一行只是“
序列
名称”),并计算“-”符号出现
的
次数,计算整个文件
的
空白数(“-”)及其频率。实际上,我
的
脚本似乎工作得很好--它生成了我想要
的
输出文件。问题是,如果
序列
长度
是100甚至1,000,它会非常快地工作,
浏览 1
提问于2014-07-28
得票数 1
回答已采纳
4
回答
删除Python中特定
的
尾行中断
、
、
我有一个很长
的
fasta
文件,我需要格式化行。我尝试了很多事情,但由于我不是很熟悉
的
python,所以我无法精确地解决问题。XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
浏览 17
提问于2021-12-20
得票数 0
回答已采纳
2
回答
用HDF5库读取NetCDF
数据
集
、
、
、
我唯一能
找到
的
用于阅读HDF5
的
纯Java(即非JNI)库是NetCDF。 看来,我可以
使用
HDF5 Variable从NetCDF
数据
集中
读取一列
数据
。但是,没有办法从
数据
集中
读取整个
数据
表吗?是用于
数据
集
的
NetCDF API仅仅是访问一组完全无关
的
变量(具有潜在
的
独立数组
长度
等),还是允许将这些
数据
作为真
浏览 3
提问于2013-04-18
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用biopython处理序列数据
序列比对在biopython中的处理
图灵丛书Begining Perl for Bioinformatics介绍
跨物种进化研究必备的‘单拷贝直系同源基因’如何查找
分子微生物学——碱基序列比对
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券