首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何将python中的蛋白质序列转换为一个热点编码?

将Python中的蛋白质序列转换为一个热点编码可以通过使用One-Hot编码来实现。One-Hot编码是一种常用的将离散特征转换为向量表示的方法,它将每个特征值映射为一个唯一的二进制向量。

在蛋白质序列中,通常使用20个氨基酸表示。因此,可以将每个氨基酸映射为一个长度为20的二进制向量,其中只有对应的氨基酸位置为1,其他位置为0。这样,整个蛋白质序列就可以表示为一个由多个长度为20的二进制向量组成的矩阵。

以下是一个示例代码,演示如何将蛋白质序列转换为热点编码:

代码语言:txt
复制
import numpy as np

# 定义氨基酸编码映射关系
amino_acids = ['A', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'V', 'W', 'Y']
amino_acid_map = {amino_acid: i for i, amino_acid in enumerate(amino_acids)}

def encode_protein_sequence(sequence):
    # 初始化热点编码矩阵
    encoding = np.zeros((len(sequence), len(amino_acids)))

    # 将氨基酸序列转换为热点编码
    for i, amino_acid in enumerate(sequence):
        encoding[i, amino_acid_map[amino_acid]] = 1

    return encoding

# 示例蛋白质序列
protein_sequence = 'ACDEFGHIKLMNPQRSTVWY'

# 转换为热点编码
hot_encoding = encode_protein_sequence(protein_sequence)

print(hot_encoding)

输出结果为一个矩阵,每一行表示一个氨基酸的热点编码向量:

代码语言:txt
复制
[[1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

  • AlphaFold、人工智能(AI)和蛋白变构

    AlphaFold 闯入了我们的生活。一种强大的算法,强调了生物序列数据和人工智能(AI))的力量。AlphaFold有附加的项目和研究方向。一直在创建的数据库承诺了无数的应用程序,这些应用程序具有巨大的潜在影响,但仍然难以推测。人工智能方法可以彻底改变个性化治疗并带来更明智的临床试验。他们承诺在重塑和改进药物发现策略、选择和优先考虑药物靶点组合方面取得巨大飞跃。研究人员简要概述了结构生物学中的人工智能,包括分子动力学模拟和预测微生物群与人类蛋白质之间的相互作用。研究人员强调了由深度学习驱动的AlphaFold在蛋白质结构预测方面所取得的进步及其对生命科学的强大影响。同时,AlphaFold 并没有解决长达数十年的蛋白质折叠挑战,也没有识别折叠途径。AlphaFold提供的模型没有捕捉到像折叠和变构这样的构象机制,而这些机制植根于系综中,并由其动态分布控制。变构和信号是群体的特性。AlphaFold 也不会生成本质上无序的蛋白质和区域的系综,而是通过它们的低结构概率来描述它们。由于 AlphaFold生成单级结构,而不是构象系综,它无法阐明变构激活驱动热点突变或变构耐药的机制。然而,通过捕获关键特征,深度学习技术可以使用单一预测构象作为生成多样化系综的基础。

    01

    Nat. Methods | 利用深度学习进行基于生物物理学和数据驱动的分子机制建模

    本文介绍由美国马萨诸塞州波士顿哈佛医学院系统生物学系系统药理学实验室的Mohammed AlQuraishi等人发表于Nature Methods 的研究成果:研究人员报道了可微程序与分子和细胞生物学结合产生的新兴门类:“可微生物学”。本文作者介绍了可微生物学的一些概念并作了两个案例说明,展示了如何将可微生物学应用于整合跨生物实验中产生的多模态数据,解决这一存在已久的问题将促进生物物理和功能基因组学等领域的发展。作者讨论了结合生物和化学知识的ML模型如何克服稀疏的、不完整的、有噪声的实验数据造成的限制。最后,作者总结了它面临的挑战以及它可能扩展的新领域,可微编程仍有很多可发挥的空间,它将继续影响科技的发展。

    02

    Bioinformatics | 通过可解释的深度学习预测蛋白质与多肽结合位点

    今天给大家介绍山东大学魏乐义教授等人在Bioinformatics期刊上发表的文章“Predicting protein-peptide binding residues via interpretable deep learning”。识别蛋白质与多肽的结合位点对于了解蛋白质功能机制和探索药物发现至关重要。尽管前人已经提出了许多相关的计算方法来解决这一问题,但这些方法大都高度依赖第三方工具或信息进行特征提取与设计,容易导致计算效率低下、预测性能不高。为了解决这一问题,作者提出了PepBCL,这是一种新的基于BERT的对比学习框架,仅基于蛋白质序列预测蛋白质-多肽结合位点。PepBCL是一个独立于特征设计的端到端的预测模型,在基准数据集上显著优于许多SOTA方法。此外,作者团队还探讨了PepBCL中注意力机制对于蛋白质结合区域中结合位点周围残基序列特征的挖掘能力,从而对模型如何预测结合位点进行了一定的解释。最后,为了方便研究人员使用,作者团队还搭建了一个在线预测平台作为所提出的PepBCL的实现,其服务可以访问如下网址:https://server.wei-group.net/PepBCL/。

    02

    Bioinformatics|TransformerCPI:通过深度学习以及自我注意机制和标签逆转实验,改善CPI的预测

    这次给大家介绍中国科学院上海药物所郑明月研究员的论文“TransformerCPI: improving compound–protein interaction prediction by sequence-based deep learning with self-attention mechanism and label reversal experiments”。化合物-蛋白质相互作用(Compound-Protein Interactions ,CPIs)的识别是药物发现和化学基因组学研究中的关键任务,而没有三维结构的蛋白质在潜在的生物学靶标中占很大一部分,这就要求开发仅使用蛋白质序列信息来预测CPI的方法。为了解决这些问题,作者提出了一个名为TransformerCPI的新型变换神经网络,并引入了更为严格的标签反转实验来测试模型是否学习了真实的交互功能。实验表明TransformerCPI性能优异,可以反卷积以突出蛋白质序列和化合物原子的重要相互作用区域,这可能有助于优化配体结构的化学生物学研究。

    01

    BIB | DeepDTAF:一种预测蛋白质与配体结合亲和力的深度学习方法

    配体与蛋白质之间的生物分子识别在药物发现和开发中起着至关重要的作用。然而,通过实验来确定蛋白与配体的结合亲和力是非常耗时耗力的。目前,已经提出了许多预测结合亲和度的计算方法,其中大多数通常需要蛋白质的三维结构,而这种结构并不常用。因此,需要新的方法充分利用序列水平的特征来预测蛋白质与配体的结合亲和力,加快药物发现过程。作者开发了一种新的深度学习方法DeepDTAF,来预测蛋白质与配体的结合亲和力。DeepDTAF是结合局部和全局上下文特征构建的。更具体地说,蛋白质口袋具有一些特殊的特性,可以直接与配体结合,这种特性首次被用作预测蛋白质与配体结合亲和力的局部输入特征。此外,空洞卷积被用来捕获多尺度的长程相互作用。作者将DeepDTAF与最新的方法进行了比较,实验结果表明DeepDTAF是一个可靠的预测工具。

    07

    使用Vabs-Net进行多层次蛋白质预训练

    今天为大家介绍的是来自Shuqi Lu团队的一篇论文。近年来,在各种下游任务中基于3D结构的预训练蛋白质模型的发展激增,这代表了预训练蛋白质语言模型的重大进步。然而,大多数现有的基于结构的预训练模型主要关注残留物水平,即α碳原子,而忽略了如侧链原子等其他原子。作者认为,在残基和原子水平上对蛋白质进行建模是很重要的,因为侧链原子对许多诸如分子对接等下游任务也至关重要。然而,作者发现在预训练中天真地结合残基和原子信息通常会失败。一个关键原因是输入中包含原子结构导致的信息泄漏,这使得残差级预训练任务变得微不足道,导致残差表示的表达不足。为了解决这个问题,作者在3D蛋白质链上引入了一个跨度掩模预训练策略,以学习残基和原子的有意义表示。这导致了一种简单而有效的方法来学习适合于各种下游任务的蛋白质表示。结合位点预测和功能预测任务的大量实验结果表明,该预训练方法明显优于其他方法。

    01

    Soft-introspective VAEs:超越AlphaFold2,揭示K-Ras蛋白新视野

    今天我们介绍华盛顿大学的David baker课题组发表在bioRxiv上的工作。探索蛋白质构象的整体,这些构象对功能有贡献,并且可以被小分子药物所靶向,仍是一个未解决的挑战。本文探讨了使用软自省变分自编码器(Soft-introspective Variational Autoencoders)来简化蛋白质结构集合生成问题中的维度挑战。通过将高维度的蛋白质结构数据转化为连续的低维表示,在此空间中进行由结构质量指标指导的搜索,接着使用RoseTTAFold来生成3D结构。本文使用这种方法为与癌症相关的蛋白质K-Ras生成集合,训练VAE使用部分可用的K-Ras晶体结构和MD模拟快照,并评估其对从训练中排除的晶体结构的采样范围。本文发现,潜在空间采样程序可以迅速生成具有高结构质量的集合,并能够在1埃范围内采样保留的晶体结构,其一致性高于MD模拟或AlphaFold2预测。

    03

    InstructPLM: 对齐蛋白质语言模型以遵循蛋白结构指令

    今天为大家介绍的是来自之江实验室、浙江大学、南京师范大学、香港中文大学、清华大学、阿里巴巴团队的一篇论文。大型语言模型以其在捕捉复杂模式(包括共同进化关系和潜在的蛋白质语言)方面的有效性而著称。然而,当前的方法通常难以展示基因组插入、复制和插入/缺失(indels)的出现,而这些因素占人类致病性突变的约14%。鉴于结构决定功能,结构相似的突变蛋白更有可能在生物进化中保存下来。受此启发,作者利用受大型语言模型启发的跨模态对齐(cross-modality alignment)和指令微调(instruct fine-tuning)技术,将生成式蛋白质语言模型与蛋白质结构指令对齐。具体而言,我们提出了一种生成可变长度和多样化蛋白质的方法,以探索和模拟生命的复杂进化,从而扩大蛋白质工程的选择范围。作者提出的基于蛋白质语言模型的方法InstructPLM在计算机模拟和实验中都表现出显著的性能提升。在天然蛋白质主链上,它实现了2.68的困惑度(perplexity)和57.51的序列恢复率(sequence recovery rate),分别比ProteinMPNN高39.2%和25.1%。此外,作者通过重新设计PETase和L-MDH验证了模型的有效性。对于PETase,所有设计的15个可变长度的PETase都表现出解聚活性,其中11个超过了野生型的活性水平。对于L-MDH,一种缺乏实验确定结构的酶,InstructPLM能够设计出具有AF2预测结构的功能性酶。InstructPLM的代码和模型权重都公开在https://github.com/Eikor/InstructPLM。

    01

    ICML 2024 | SurfPro:基于连续表面的功能性蛋白质设计

    今天为大家介绍的是来自Wengong Jin团队的一篇论文。如何设计具有特定功能的蛋白质?作者受到了化学直觉的启发,即几何结构和生化特性都对蛋白质的功能至关重要。因此本文提出了一种新方法SurfPro,能够在给定目标表面及其相关生化特性的情况下生成功能性蛋白质。SurfPro包含一个分层编码器,逐步建模蛋白质表面的几何形状和生化特性,以及一个自回归解码器来生成氨基酸序列。作者在标准逆折叠(inverse folding)的基准测试CATH 4.2和两个功能性蛋白质设计任务(蛋白质结合体设计和酶设计)上对SurfPro进行了评估。SurfPro在各项测试中均优于之前的最先进的逆折叠方法,在CATH 4.2上的序列恢复率达到了57.78%,并且在蛋白质-蛋白质结合和酶-底物相互作用评分方面表现出更高的成功率。

    01

    Nat. Commun. | PyUUL提供了生物结构和深度学习算法之间的接口

    本文介绍一篇来自比利时Switch实验室的Joost Schymkowitz和Frederic Rousseau发表在Nature Communication上的文章《PyUUL provides an interface between biological structures and deep learning algorithms》。由于生物学结构和机器学习方法之间缺少接口,使得现代神经网络(NN)架构在结构生物信息学中很难得到应用。这阻碍了基于结构的生物信息学方法的发展,导致生物学研究出现瓶颈。作者提出了PyUUL库,它能将生物学结构转化为三维张量,从而能让先进的深度学习(DL)算法利用其工作。PyUUL将生物学大分子转换为计算机视觉领域中典型的数据结构,例如体素和点云。除此之外,PyUUL允许GPU的使用和稀疏计算。最后,作者展示了如何使用PyUUL来解决典型的生物信息学问题,例如结构识别和对接。

    01

    Science | ProteinMPNN : 基于深度学习的蛋白序列设计

    本文介绍华盛顿大学的蛋白质设计科学家D. Baker在2022年9月15发表在Science研究工作Robust deep learning–based protein sequence design using ProteinMPNN。研究团队开发了一种基于深度学习的蛋白质序列设计方法 ProteinMPNN,它在计算机和实验测试中均具有出色的性能。天然蛋白质骨架上,ProteinMPNN 的序列恢复率为 52.4%,而 Rosetta 为 32.9%。不同位置的氨基酸序列可以在单链或多链之间偶联,从而能够应用于当前广泛的蛋白质设计任务。研究团队使用 X-ray晶体学、cryoEM 和功能研究通过挽救以前失败的蛋白质单体设计(使用 Rosetta 或 AlphaFold设计的蛋白质单体、环状同源寡聚体、四面体纳米颗粒和靶结合蛋白)证明了 ProteinMPNN 的广泛实用性和高精度,

    01

    AlphaFold3及其与AlphaFold2相比的改进

    蛋白质结构预测是生物化学中最重要的挑战之一。高精度的蛋白质结构对于药物发现至关重要。蛋白质结构预测始于20世纪50年代,随着计算方法和对蛋白质结构的认识不断增长。最初主要采用基于物理的方法和理论模型。当时的计算能力有限,这些模型往往难以成功地预测大多数蛋白质的结构。蛋白质结构模型的下一个发展阶段是同源建模,出现在20世纪70年代。这些模型依赖于同源序列具有相似结构的原理。通过将目标序列与已知结构的模板序列进行多序列比对,首次成功地确定了以前未解决的序列的结构。然而,这些模型的分辨率仍然有限。20世纪80年代出现了从头开始的方法,带来了下一个分辨率提升。这些方法应用了基于物理的技术和优化算法。结合计算技术的进步,这导致了蛋白质结构预测的显著改进。为了对所有这些新方法进行基准测试,从90年代初开始了蛋白质结构预测技术评估的关键阶段(CASP)系列活动。近年来,机器学习和深度学习技术已经越来越多地集成到蛋白质结构预测方法中,尤其是自2007年以来使用长短期记忆(LSTM)以来。

    01

    Nat. Biotechnol. | 用机器学习预测多肽质谱库

    本文介绍Max-Planck生物化学研究所计算系统生物化学研究组的Jürgen Cox近期发表在Nature Biotechnology的综述Prediction of peptide mass spectral libraries with machine learning。最近开发的机器学习方法用于识别复杂的质谱数据中的肽,是蛋白质组学的一个重大突破。长期以来的多肽识别方法,如搜索引擎和实验质谱库,正在被深度学习模型所取代,这些模型可以根据多肽的氨基酸序列来预测其碎片质谱。这些新方法,包括递归神经网络和卷积神经网络,使用预测的计算谱库而不是实验谱库,在分析蛋白质组学数据时达到更高的灵敏度或特异性。机器学习正在激发涉及大型搜索空间的应用,如免疫肽组学和蛋白质基因组学。该领域目前的挑战包括预测具有翻译后修饰的多肽和交联的多肽对的质谱。将基于机器学习的质谱预测渗透到搜索引擎中,以及针对不同肽类和测量条件的以质谱为中心的数据独立采集工作流程,将在未来几年继续推动蛋白质组学应用的灵敏度和动态范围。

    01

    Nat. Commun.| CopulaNet:直接从多序列联配中学习残基间距离以“从头预测”蛋白质结构

    蛋白质是具有重要功能的生物大分子,其功能主要由蛋白质的三级结构决定。蛋白质结构可通过核磁共振、X射线晶体学和低温电镜等实验技术测定,然而这些实验技术有其局限性,无法跟上蛋白质序列测定的增长速度。近几年,利用深度学习技术,蛋白质结构预测取得了重大进展,能够得到较为准确的三级结构。今天为大家介绍的这篇文章,是中科院计算所卜东波老师实验室发布的关于蛋白质结构“从头预测”算法的最新研究成果(原文见https://www.nature.com/articles/s41467-021-22869-8)。以CopulaNet为核心,卜东波老师实验室开发了新版的蛋白质结构预测软件ProFOLD,预测软件源代码见http://protein.ict.ac.cn/ProFOLD,预测服务器见http://protein.ict.ac.cn/FALCON2/,欢迎大家使用ProFOLD预测蛋白质结构。

    03
    领券