使用生物字符串编写R程序将核苷酸序列转换为蛋白质序列

、、、、

我试图使用生物巨蟒下载由特定机构排序的生物体列表中的所有蛋白质。我有有机体的名称和与每个有机体相关的生物项目；具体来说，我希望分析在最近的基因组序列中发现的蛋白质。我最近试图下载所有的蛋白质FASTA序列的相关有机体如下： net_handle = Entrez.efetch(db="protein",，所以使用研究和尝试一次提取每一种蛋白质是不现实的。对于我感兴趣的所有<e

浏览 3提问于2013-09-13得票数 4

回答已采纳

1回答

、

我有一个包含许多不同序列的.fasta文件。我的目标是使用生物字符串包将每个单独的序列转换为它的氨基酸序列。.

浏览 86提问于2021-08-10得票数 1

回答已采纳

1回答

为了从文件读取而不是从STDIN读取，我需要更改什么？

、

这个程序是用来提取核苷酸序列并将其翻译成蛋白质序列的。但该程序必须从文件中提取所有核苷酸序列，并将其转换为蛋白质序列。包含核苷酸序列的文件如下所示：CTGATAGATAGTAAGATGATAGTA该程序在一行中接受输入。程序应该读取由多行序列</e

浏览 2提问于2011-03-01得票数 2

6回答

当将DNA翻译成蛋白质时，核糖体读取DNA核苷酸3×3的序列。每组3个核苷酸被称为密码子，每个密码子编码一个氨基酸，存在一些冗余。这是大多数有机体使用的转换表(表读左、上、右)：人类和大多数其他生物只使用一个氨基酸作为“开始”密码子:蛋氨酸，也就是a。相遇，M，或ATG。TCT GGT GAT TAAmet ala phe ile ser ala asp ser glu ser gly asp STOP 但是如果

浏览 0提问于2019-10-15得票数 31

回答已采纳

1回答

如何在awk语句中使用fasta头提取两种类型的序列

我一直在运行一个名为genewise的程序，将核苷酸序列转换为基因的蛋白质序列。输入包括来自许多样本的组装的核苷酸序列。为了解析genewise输出，我使用以下命令选择了fasta头： for i in `ls`; do (cd "$i" && awk '/^>*/{flag=1;} /\/\// {fla

浏览 2提问于2018-03-07得票数 1

1回答

使用Biopython的翻译功能后，如何跟踪起始密码子(ATG)在核苷酸序列中的位置？

、、、

我有一个FASTA文件，其中有一串序列，格式如下：使用生物工程实现的代码允许我找到最长的氨基酸序列，从蛋氨酸开始，并以停止密码子结尾，在FASTA文件中的每一个序列。基本上，它使用三个不同的正读框将DNA序列翻译成一个氨基酸序列，在可变的allPossibilities中，它保存了以M(一个特定的氨基酸)开始的片段，并以一个终止密码子结束。然后比较各种可能性的长度，选择最长的可能性，返回该片段的蛋白质<e

浏览 0提问于2018-04-03得票数 2

回答已采纳

3回答

计算每个单元格中给定字符的出现次数

背景：位置权重矩阵(PWM)，也称为位置特定权重矩阵(PSSM)，是生物序列中常用的模式表示。在这些模型中，使用一个矩阵来表示TF结合位点(TFBS)，每个元素代表来自相应位置的核苷酸对整个结合亲和力的贡献。* DNA基序：：在遗传学中，序列基序是一种广泛存在并具有或推测具有生物学意义的核苷酸

浏览 4提问于2014-11-26得票数 55

回答已采纳

1回答

R:使用base R将fasta文件读取到data.frame中-而不是生物字符串(等等)

、、、

如何使用基本代码将FASTA文件直接读取到R中的数据帧中。这些文件存储信息生物序列(例如DNA或蛋白质)，并且对于n个单独的生物分子(id1到idn)具有2*n行，因此属于以下类型：seq1>idn如果一个人想要使用base R(而不是像Biostrings和seqinr这样的专用包，它们使用新的类来进行各种生

浏览 1提问于2014-11-10得票数 1

2回答

String.Split()移除分隔符字符

、、

我正在尝试创建一种基于两个字符的蛋白质序列分割方法：R和K。假设我有一个蛋白质序列= GLSDEWQKFEGREGKFWERDim protein As String = "GLSDEWQKFEGRE

浏览 6提问于2021-03-17得票数 0

2回答

试图找到有效方法移除fasta文件中的标头

、、、

我编写了一个丑陋的代码，它删除了fasta头，并创建了一个以蛋白质序列作为字符串的变量。我怎么能做得更有效率呢？有什么好办法在生物电影中做到这一点吗？f = open('protein1.fasta', 'r')f.close() for elem in raw_samples

浏览 1提问于2014-10-24得票数 0

回答已采纳

0回答

如何用一列中每个元素的前30个字符(在R中)替换该列中的所有元素？

、、、

我正在尝试合并两个数据帧，一个包含序列的前30个核苷酸(或字符)，每个核苷酸重复一次(因此每个序列有30个重复)。以下是数据帧一个子集：第二数据帧具有每个完整的ORF序列一次，并具有相关联的Prot。每个序列的每个细胞的分子分数。我希望将第一个数据帧中的每个30nt序列(及其所有重复序列)与Prot进行匹配。从第二个数据帧开始计算每个细胞的分子数。以下是第二个数据帧的子集：我的总体想法是找到一种方法，将

浏览 4提问于2017-12-02得票数 1

4回答

用Python中的ASCII文件中的注释查找/替换子字符串

、、、

在我从事的生物信息学项目中，我遇到了一个编码问题。基本上，我的任务是从数据库中提取motif序列，并使用这些信息对序列对齐文件进行注释。对齐文件是纯文本，因此注释不会是任何细节，最多只需将提取的序列替换为对齐文件本身中的星号。我有一个脚本，它扫描数据库文件，提取我需要的所有序列，并将它们写入输出文件。我需要的是，给定一个查询，读取这些序列并将它们与ASCII对齐文件中的相应子字符串匹配。最后，对于每出现一个motif序列</

浏览 8提问于2011-05-03得票数 3

回答已采纳

2回答

如何使用python编程将一组DNA序列转换为蛋白质序列？

、、、、

我正在使用python创建一个程序，将一组DNA序列转换为氨基酸(蛋白质)序列。然后，我需要找到一个特定子序列，并计算出现该特定子序列的序列的数量。这是我到目前为止所拥有的代码：with open('cDNA_sequences.csv', 'r', &qu

浏览 3提问于2016-11-28得票数 3

1回答

有没有类似于PyCogent的库，但用的是Java (或Scala)？

、、

我在写一个生物进化模拟器。目前，我的所有代码都是用Python编写的。在大多数情况下，这很好，一切都运行得足够好。然而，这个过程中有两个步骤需要很长时间，我想用Scala重写这两个步骤。第一个问题是序列进化。想象一下，你得到了一棵系统发育树，它与一大组蛋白质有关。每个分支的长度代表了父代和子代之间的进化距离。树的根被播种单个序列，然后使用进化模型(例如)沿着树结构进化该序列；考虑到分支长度。PyCogent需要很长时间来执行这一步，我相信合理的Java/Sca

浏览 2提问于2011-01-18得票数 3

1回答

在Python3中，有没有一种方法可以从多个明确的rna序列中编写一个不明确的rna序列？

、、、、

我有许多相同长度的rna序列。现在，我想创建一个函数，它将给出一行不明确的rna作为输出。到目前为止，我还没有在网上找到任何关于编写歧义序列的有用信息。我想过使用这样的字典： "R": ["A", "G"], "Y": ["U", "

浏览 0提问于2018-12-24得票数 0

1回答

如何绕过RStudio控制台字符串长度上限？

、、

我刚刚开始学习R，并且我正在尝试编写一个将mRNA字符串转换为蛋白质序列的函数。希望有更多经验的人能很容易地帮到我。我的函数在较短的字符串上似乎工作得很好，但是当我在长RNA序列上尝试它时，在函数调用之后，控制台只打印一个带有+的新行，而不打印其他内容。什么都没发生。有没有其他环境可以让我尝试在其中运行我的函数，可以处理更长的字符串？我希望能够将最多10000个字符的字符串作为参数

浏览 42提问于2019-03-04得票数 0

2回答

IndexError:字符串索引超出范围了？

、

最后，编写transcribe( S )。以下是它的描述：在一项被称为转录的不可思议的分子壮举中，你的细胞创造了信使RNA分子，它反映了你DNA中核苷酸的序列。然后，RNA被用来制造蛋白质来完成细胞的工作。编写一个递归函数transcribe( S )，它应该以字符串S作为输入，该字符串具有DNA核苷酸(大写字母As、Cs、Gs和Ts)。也许还有其他的字符，尽管它们会被你的转录功能忽略--这些可能是空格或其他不是真正的DNA核苷酸的

浏览 4提问于2016-09-11得票数 1

1回答

深哈希反演算法(应在红宝石中)

、、

H2中的键映射到所有键序列的数组，当应用到原始散列H时，这些数组将给出键K，它是原始哈希中的值。我希望它能处理任意嵌套级别的散列。我正在编写我自己的生物信息学库，并希望能够返回给定蛋白质的可能核苷酸序列，由三个字符的表示。

浏览 3提问于2015-07-31得票数 1

回答已采纳

1回答

Python脚本将肽序列转换为SVM输入格式

、

我有一个关于将蛋白质序列转换为SVM输入格式的查询。最近，我发现了一个教程，它展示了将蛋白质序列转换为稀疏二进制表示(Ex.请帮助我，比如我如何在python脚本的帮助下将我的7mer序列转换成这种格式。00000000000100000000Q 00000000000001000000 R0000

浏览 0提问于2013-10-15得票数 0

2回答

在字符串列表中比较字符串中每个字符的最快方法

、

我正在使用一个生物信息学工具，并使用两个循环来迭代每个字符。输入(即seq1和序列)是一串核苷酸，例如长度相同的'AGATGCTAGTA'。sequence_info是所有序列的列表。它非常慢，所以我使用continue来提高速度，而不是添加零，并将bio_array存储为numpy数组。这是新的代码。我已经尝试将函数转换为迭代器，并使用列表理解/映射而不是循环。但是这些方法并没有产生

浏览 11提问于2020-01-02得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

下载多种生物的蛋白质序列