这里会有一些分子生物学。
因此,我需要生成1000个突变序列,这些突变序列都是由一个主要的1000个核苷酸序列组成的。与前一序列相比,每一个以下突变序列都必须有一个随机核苷酸切换到同一个类别(A到G,反之亦然;T到C,反之亦然)。此外,必须使用random.randint和random.seed(1)。
到目前为止,我的情况如下:
import random
# below is the initial sequence
seq = 'CGCCTGTAATCCCAGCACTCTGGGAGGCAGAGGTGGGCCGATCACTTGAGGTCAGGAGTTCGAGACCAGCCTGGGC
我有一个蛋白质对的列表,我想将"BLAST Two Sequence“的速度和准确性与Smith-Waterman程序进行比对。我知道在NCBI网站上有一个"Blast Two Sequence“选项,但我想从python脚本运行它。也许Biopython有这个能力?如果我不能使用Blast两个序列,我将比较不同版本的Smith-Waterman,但这不会那么令人兴奋:)或者,如果有人对生物信息学中涉及比较蛋白质对的大四项目有其他想法,请不要犹豫让我知道!提前谢谢你。
我正在尝试为.pdb文件(它们显示蛋白质结构)编写一个快速解析器。我正在研究的一个蛋白质的例子是KRAS (癌症中常见的),这里是:
如果向下滚动到足够远,您将看到如下所示的行: ATOM 1N MET A 1 63.645 97.355 31.526 1.00 33.80 N
第一个元素“原子”意味着它与蛋白质中的一个实际原子有关。1涉及一般计数,N涉及原子的类型,"MET“是残基的名称,"A”涉及链的类型,1(第二个"1")是原子计数,然后接下来的3个数字是空间中的x-y-z位置。
我需要的输出是这样的(下面的"1“对应于原子计数,而不是一般计数):
我一直在下面的代码中得到一个IndexError: string index out of range异常,但我不知道原因。
我应该递归地解决以下问题。
最后,编写transcribe( S )。以下是它的描述:
在一项被称为转录的不可思议的分子壮举中,你的细胞创造了信使RNA分子,它反映了你DNA中核苷酸的序列。然后,RNA被用来制造蛋白质来完成细胞的工作。编写一个递归函数transcribe( S ),它应该以字符串S作为输入,该字符串具有DNA核苷酸(大写字母As、Cs、Gs和Ts)。也许还有其他的字符,尽管它们会被你的转录功能忽略--这些可能是空格或其他不是真正的DNA核苷酸的字符。
我正在尝试创建一种基于两个字符的蛋白质序列分割方法:R和K。
我的代码正确地拆分了蛋白质序列,但随后删除了R或K。我需要该程序能够保留用于拆分字符串的分隔符。
示例:
假设我有一个蛋白质序列= GLSDEWQKFEGREGKFWER
然后,我的程序将在有R或K之后剪切这个序列。
结果应该是这样:
GLSDEWQK
FEGR
EGK
FWER
我的代码:
Dim protein As String = "GLSDEWQKFEGREGKFWER"
Dim words As String() = protein.Split(New Char() {"R",
def prot_from_rf(aa_seq):
prot1 = []
global proteins
for aa in aa_seq:
if aa == "_":
if prot1:
for p in prot1:
proteins.append(p)
prot1 = []
else:
if aa == "M":
pr
我一直在运行一个名为genewise的程序,将核苷酸序列转换为基因的蛋白质序列。输入包括来自许多样本的组装的核苷酸序列。为了解析genewise输出,我使用以下命令选择了fasta头:
for i in `ls`; do (cd "$i" && awk '/^>*/{flag=1;} /\/\// {flag=0}flag' out_genewise > out_genewise_prot.fa);done
我被要求为每个基因重新运行genewise,以便输出包括所有样本的翻译蛋白序列和cDNA序列。创建两个awk语句来解析输出时遇到
我正在做一些生物信息学的研究,而且我是python的新手。我写这段代码是为了解释一个包含蛋白质序列的文件。文件"bulk_sequences.txt“本身包含71,423行信息。三行表示一个蛋白质序列,第一行提供信息,包括发现蛋白质的年份(这就是"/1945“的全部内容)。”对于1000行的小样本,它工作得很好。但对于我给出的这个大文件,它似乎需要很长时间。我能做些什么来简化这件事吗?“
它的目的是对文件进行排序,按发现年份对其进行排序,然后将所有三行蛋白质序列数据分配给数组"sortedsqncs“中的一项。
import time
start = t
我目前正在使用PDB的数据集,我对残差的大小(每个剩余原子数)很感兴趣。我意识到原子-len(residue.child_list)的数目与不同蛋白质中的残基不同,即使是相同的残基。例如:残留的'LEU‘在一个蛋白质中有8个原子,而在另一个蛋白质中有19个原子!
我猜是PDB或PDBParser()中的一个错误,但是差别很大!
例如,就分子3OQ2而言:
r = model['B'][88]
r1 = model['B'][15] # residue at chain B position 15
In [287]: r.resname
Out[287]
我的任务是计数几种蛋白质在治疗后发生的突变。序列都以相同的顺序出现在这两个文件中。我在生物工程中用fasta解析器(SeqIO.parse)打开了两个文件,我得到了列出的所有蛋白质(治疗前后分离的)。
我的问题是:
我怎样才能把解析器拉到一起来计数突变呢?
from Bio import SeqIO
for normal_samples in SeqIO.parse("/data/statistic/normal_samples", "fasta"):
print(normal_samples.id)
print(repr(nor
我正在攻读生物学学位,感觉就像我被python扔进了深渊,因为我以前从来没有编码过,而且“教学”几乎不存在。不管怎样,他们给出了这个基因序列文件,它看起来很像:
En123, ATGCCGAATA
En124, ATGCCAGTAT
但是有了更多的基因就会变得更长。他们想把它转换成蛋白质序列。到目前为止,我得到了..。
with open('DNA_sequences.csv', 'r') as f:
for line in f:
columns = line.rstrip("\n").split(",") #remo
我正在编写一个函数,它应该通过DNA序列的.fasta文件,并为文件中的每个序列创建一个核苷酸(nt)和二核苷酸(dnt)频率字典。然后,我将每本字典存储在一个名为“频率”的列表中。这是一段奇怪的代码:
for fasta in seq_file:
freq = {}
dna = str(fasta.seq)
for base1 in ['A', 'T', 'G', 'C']:
onefreq = float(dna.count(base1)) / len(dna)
freq
我需要找出在我的数据集的哪些蛋白质中存在这个氨基酸基序: PoXGXXHyXHy。我用的是biopython和python2.7,但我不是生物信息学家,我被搞砸了。我如何制作seq_record +1之类的东西呢?我尝试过使用in range,但它在SeqIO.parse中不起作用。嗯,我现在一团糟,有人能帮帮忙吗?我会非常感激的。
from Bio import SeqIO
print('enter the path to your fasta file: ' )
user_input = raw_input()
for seq_record in SeqIO.parse
我有一个包含核苷酸序列的字符串。这条线长1191个核苷酸。
如何以每行只有100个核苷酸的格式打印序列?现在,我对它进行了硬编码,但我希望它对任何一串核苷酸都有效。这是我现在的代码
def printinfasta(SeqName, Sequence, SeqDescription):
print(SeqName + " " + SeqDescription)
#how do I make sure to only have 100 nucleotides per line?
print(Sequence[0:100])
print(Sequen