首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DENVIS:使用具有原子和表面蛋白口袋特征的图神经网络进行可扩展和高通量虚拟筛选

传统的分子对接算法使用基于物理的模拟,通过估计查询蛋白配体对的结合方向和相应的结合亲和度评分来解决这一挑战。近年来,经典和现代机器学习架构显示出超越传统对接算法的潜力。...在氨基酸序列级别处理目标信息的算法家族以在更高表示级别处理蛋白质数据为代价,避免了这一情况。本文介绍了深度神经虚拟筛选(DENVIS),一种使用图神经网络(GNNs)进行虚拟筛选的端到端管道。...通过在两个基准数据库上进行实验,本文证明了本文的方法与几种基于分子对接的、基于机器学习的以及基于分子对接的与机器学习结合的算法相比具有竞争力。...我们方法的一些关键元素包括使用原子和表面特征组合的蛋白质口袋建模,模型集成的使用,以及在模型训练期间通过人工负采样的数据增强。...总之,DENVIS实现了最先进的虚拟筛选性能,同时提供了利用最小计算资源扩展到数十亿分子的潜力。

40510
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    利用大规模数据标注和深度学习对组织图像进行具有人类水平表现的全细胞分割

    images with human-level performance using large-scale data annotation and deep learning 论文摘要 组织成像数据分析的一个主要挑战是...为了解决这个问题,作者构建了TissueNet,这是一个用于训练分割模型的数据集,它包含了超过100万个手动标记的细胞,比之前发布的所有分割训练数据集多了一个数量级。...作者证明了Mesmer比以前的方法更准确,能够适用于TissueNet中所有的组织类型和成像平台,并且达到了人类水平的表现。...Mesmer能够自动提取关键的细胞特征,如蛋白质信号的亚细胞定位,这在以前的方法中是具有挑战性的。...然后,作者对Mesmer进行了调整,以利用高度复用的数据集中的细胞信息,并量化人类妊娠期的细胞形态变化。

    39410

    识别最优的数据驱动特征选择方法以提高分类任务的可重复性

    学习如何有效且可靠地选择具有较高分辨能力的特征子集是模式识别的基本要求之一。从高维数据中选择特征的算法已经进行了广泛的应用研究。...然而,这忽略了特征可重复性的问题,这是在生物学和临床应用中识别可靠的生物标记的基础; b) 研究者提出的一种基于数据驱动的方法用于识别具有最具有可重复性的特征子集的特征选择方法 相对于那些专注于提高分类任务准确率...大数据集 为了验证算法的通用性和可扩展性,研究人员在大数据集上对FS-Select算法进行了评估。...需要对不同数据集上的FS- select进行评估,以可靠地评估使用的FS方法的潜力; 2. 在研究最具有可重复性的连接特征时,只选择了前10个特征。...其次,可以在多个连接组数据集上对FS-Select进行评估,包括功能连接和结构连接。 第三,在理想的情况下,具有最佳分类精度的FS方法将识别最具判别性和可重复性的特征。

    1.1K30

    用于 BCI 信号分类的深度特征的 Stockwell 变换和半监督特征选择

    [15]使用滤波器组 CSP (FBCSP) 算法和主成分分析 (PCA) 从 EEG 信号中选择和减少特征,然后通过极梯度提升 (XGBoost) 算法对其进行分类。...对 MI 数据进行分类。...如图 40所示,基于k NN、SVM 和朴素贝叶斯 (NB)三个基础机器学习分类器的三种集成架构的比较研究被表示为对从 MI 数据中提取的不同特征集进行分类,使用具有多基础的 Adaboost 集成学习报告了最佳性能分类器...由于脑电信号具有非线性和非平稳特性,因此传统上使用各种时频分解方法,如 STFT、小波变换和 Stockwell 变换来分析它们。由于 STFT 中的固定窗口宽度,不能同时实现适当的时间和频率分辨率。...[82]提取EEG信号的时频分量。在通过 NCA 选择有效特征后,SVM 对 BCI MI EEG 信号进行分类,其准确率达到 84.02%。

    1K20

    【DB笔试面试367】​在数据库三级模式结构中,对数据库中全部的数据逻辑结构和特征进行描述的是()

    Q 题目 在数据库三级模式结构中,对数据库中全部的数据逻辑结构和特征进行描述的是() A、外模式 B、模式 C、子模式 D、内模式 A 答案 答案:B。...不同的DBMS在体系结构上通常都具有相同的特征,即采用三级模式结构并提供二级映像功能。数据库系统三级模式结构是数据库系统内部的体系结构,数据库系统的三级模式是指外模式、模式和内模式三部分。...数据库系统的模式结构图如下图所示: (1)外模式(External Schema) 外模式也称子模式(Subschema)或用户模式,它是数据库用户(包括应用程序员和最终用户)最终能够看见的和使用的局部数据的逻辑结构和特征的描述...外模式是保证数据库安全性的一个有力措施。 (2)模式(Schema) 模式也称逻辑模式,是数据库中全体数据的逻辑结构和特征的描述,是所有用户的公共数据视图。...正是这两层映像保证了数据库系统中的数据能够具有较高的逻辑独立性和物理独立性。

    90030

    粒子群优化算法(PSO)之基于离散化的特征选择(FS)(一)

    在生物信息学、基因组学、图像处理、文本分类等不同领域的机器学习应用中,越来越多的高维数据集具有成千上万的特性。...尽管许多研究已经证明了在高维数据中使用特征选择的有效性,但是由于大的搜索空间和特征交互的存在,这任然是一个具有挑战性的研究。 除了特征选择,离散化也是对高维数据预处理的关键。...最后,因为离散数据比联系数据更紧凑,那么需要的内存就相对较少,从而提高了学习算法的效率。因此,特征选择和离散化通常用于提高分类性能,同时也对优化计算时间和存储空间方面有提升。...虽然目前有很多离散化的方法,但是最常用的离散化方法是单变量法。在一个时间内对某一个特征离散,当不存在特征交互时,这个方法是非常有效的。但是当这个假设不成立时,我们需要同时对多个特征进行离散化。...与使用全特征集、离散化和FS的两阶段方法和高维数据的EPSO进行了比较。我们的具体研究目标包括以下内容: 1) 如何在单个过程中进行多变量的离散化和特征选择,提高特征集的识别能力。

    1.2K50

    JCIM|DENVIS:使用具有原子和表面蛋白口袋特征的图神经网络进行可扩展和高通量的虚拟筛选

    在两个基准数据库上进行的实验,表明这种方法在几种基于对接、基于机器学习和基于混合对接/机器学习的算法中具有竞争力。...该方法的一些关键要素包括使用原子和表面特征组合的蛋白质口袋建模,模型集成的使用,以及在模型训练期间通过人工负采样进行数据增强。...总之,DENVIS实现了与最先进的虚拟筛选性能相比的竞争力,同时提供了使用最少的计算资源扩展到数十亿分子的潜力。 方法 DENVIS通过对每个目标蛋白的所有可能配体进行排序来解决虚拟筛选问题。...排名是通过对给定目标的所有蛋白质-配体对的结合亲和力得分的估计来进行的。DENVIS利用GNN分别提取配体和蛋白质的高维连续矢量表示。...蛋白质和药物的结合亲和力预测,在不同的数据集上被分别建模为回归问题和二分类问题(蛋白质-配体对是否有活性)。

    72120

    逻辑回归如何用于新用户识别与触达

    转换特征:对原始连续特征做平方、三次方、平方根、立方根、log、指数、tan、sin、cos、求逆处理。然后从所有转换中选择2个预测性最好的特征。实际中,使用最多log处理。...逻辑回归本质上是线性分类器,将预测变量尽量线性化,虽然我们的特征有连续变量和分类变量,模型训练时会把所有变量当做连续变量。...连续变量可以直接用来训练模型,但分段会使得变量更具有线性特征,而且可以起到平滑作用,经验表明分段后的特征会提升模型效果。分段一般依据经验划分或先分为均等10段然后观察各段中目标变量占比来确定最终分段。...六、特征选择 特征选择的目的是要找出有预测能力的特征,得到紧凑的特征集。 特征成百上千,对每一个变量进行深入分析并不是有效的做法,通过相关系数和卡方检验可以对特征进行初步筛选。...对我们做营收增长来说,模型特征尽量简化,这样便于从业务角度进行解读,便于跟老板和产品同事解释。 七、模型训练和评估 前面花了大量时间来确定目标、准备特征、清洗特征。

    53630

    西电 & 上交大提出 S2Mamba, 超越传统 Transformer, 提升高光谱图像分类准确性 !

    另一组研究将HSI数据不同波段的光谱信息视为连续序列,并采用循环神经网络(RNNs)提取光谱特征进行分类。然而,这些方法通常由于在长距离依赖方面的能力有限,难以提取全局光谱信息。...此外,其他工作[48]将RNN与Transformer结合,协同提取连续的光谱特征和空间上下文特征,显著提升了分类性能。...SMamba 图2展示了作者提出的SMamba框架用于高光谱图像分类的整体架构。输入数据首先被送入卷积层进行嵌入,然后送入 Patch 交叉扫描和双向扫描模块以捕捉空间和光谱特征。...如第一节所述,HSI分类中空间和光谱特征的有效性因不同场景而异,因此没有先验知识的直接合并可能导致矛盾。 具体来说,作者注意到光谱信息在均匀区域的分类中比那些具有复杂纹理的特征更为突出。...作者在三个公开可用的数据集上对作者的SMamba进行了评估,重点关注高光谱图像分类:印度松树、帕维亚大学和休斯顿2013数据集。

    47310

    逻辑回归如何用于新用户识别与触达

    三、样本选择 选择最具代表性的样本,如果样本倾斜严重,则进行抽样,保证正样本比率不低于10%。 训练样本的选择决定模型的成败,选择最能代表待分类群体的样本。...转换特征:对原始连续特征做平方、三次方、平方根、立方根、log、指数、tan、sin、cos、求逆处理。然后从所有转换中选择2个预测性最好的特征。实际中,使用最多log处理。...逻辑回归本质上是线性分类器,将预测变量尽量线性化,虽然我们的特征有连续变量和分类变量,模型训练时会把所有变量当做连续变量。...六、特征选择 特征选择的目的是要找出有预测能力的特征,得到紧凑的特征集。 特征成百上千,对每一个变量进行深入分析并不是有效的做法,通过相关系数和卡方检验可以对特征进行初步筛选。...对我们做营收增长来说,模型特征尽量简化,这样便于从业务角度进行解读,便于跟老板和产品同事解释。 七、模型训练和评估 前面花了大量时间来确定目标、准备特征、清洗特征。

    94530

    随机森林原理介绍与适用情况(综述篇)建议收藏

    它使用训练出来的分类器的集合来对新样本进行分类,然后用多数投票或者对输出求均值的方法统计所有分类器的分类结果,结果最高的类别即为最终标签。此类算法可以有效降低bias,并能够降低variance。...【随机性】同时,在生成每棵树的时候,每个树选取的特征都仅仅是随机选出的少数特征,一般默认取特征总数m的开方。而一般的CART树则是会选取全部的特征进行建模。...当数据集的因变量为连续性数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值;当数据集的因变量为离散型数值时,该树算法就是一个分类树,可以很好的解决分类问题。...同时,若某个非叶节点是连续变量时,决策树也将把他当做离散变量来处理(即在有限的可能值中做划分) 特征选择 特征选择目前比较流行的方法是信息增益、增益率、基尼系数和卡方检验。...,对比其他算法具有一定优势 由于树的组合,使得随机森林可以处理非线性数据,本身属于非线性分类(拟合)模型 它能够处理很高维度(feature很多)的数据,并且不用做特征选择,对数据集的适应能力强:既能处理离散型数据

    6.8K20

    数据科学系列:sklearn库主要模块功能简介

    数据集主要围绕分类和回归两类经典任务,对于不同需求,常用数据集简介如下: load_breast_cancer:乳腺癌数据集,特征为连续数值变量,标签为0或1的二分类任务 load_iris:经典鸢尾花数据集...,特征为连续数值变量,标签为0/1/2的三分类任务,且各类样本数量均衡,均为50个 load_wine:红酒数据集,与鸢尾花数据集特点类似,也是用于连续特征的3分类任务,不同之处在于各类样本数量轻微不均衡...例如在进行多项式朴素贝叶斯模型、ID3树模型时,可用该数据集 load_boston:波士顿房价数据集,连续特征拟合房价,适用于回归任务 值得指出,sklearn除了load系列经典数据集外,还支持自定义数据集...例如,当民族为待分类标签时,则可将其简单编码为0-55之间的数字 04 特征选择 ? 机器学习中有句经典的台词是:数据和特征决定学习上限,模型和算法只是逼近这个上限,可见特征工程在机器学习中的重要性。...一般而言,传统机器学习中的特征工程主要包括两方面需求: 特征维度过多时,为加快模型训练速度,进行特征选择即过滤掉不重要的特征; 特征较少或模型训练性能不好时,可通过对问题的理解尝试构建特征提升维度。

    2.1K11

    . | 基于大规模数据标注和深度学习对组织图像进行具有人类水平性能的全细胞分割

    1.简介 理解组织中存在的结构和功能关系是基础研究和转化研究前沿的一个挑战。多重成像技术的最新进展扩大了可同时定量的转录物和蛋白质的数量,为大规模分析人体组织样本开辟了新的途径。...由于作者的 “人在环路” 数据标注方法的可扩展性,TissueNet大于以前所有发布的数据集的总和(图1b),具有130万个全细胞注释和120万个细胞核注释。...每幅图像都用一组谱系定义标记(图4g)染色,用它来将每个细胞分类为T细胞、单核细胞、肿瘤细胞或非门控细胞。之后从三名患者中选择了两个不同的区域,并为图像中的所有细胞生成了预测分割和真实分割。...我们可以观察到两种标注之间有很强的一致性(图4j),表明Mesmer的分割预测能够准确地对这些图像中存在的细胞多样性进行分类。...作者将这个管道应用于数据集中,发现这些度量捕捉了观察到的细胞形状中关键的形态特征(图5e)。然后,对细胞形态分布图进行k-means聚类,并确定了四个不同的聚类(图5f,g)。

    84720

    机器学习的模型!

    在回归问题中,机器学习模型通过学习输入特征与输出值之间的关系,对新的输入样本进行连续值的预测。...对连续特征处理不佳:决策树算法对连续特征的处理不够灵活,可能会导致一些不必要的分支或者过度拟合。 使用场景: 决策树算法适用于分类和回归问题,尤其适用于特征选择和特征工程。...计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和特征向量。 选择主成分:根据设定的主成分个数,选择前k个最大的特征值对应的特征向量,构成新的坐标系。...它可以将高维数据降维到低维空间,便于进行可视化、分类、聚类等任务。同时,PCA还可以用于数据的预处理和特征选择,去除不相关或冗余的特征,提高模型的泛化能力和计算效率。...使用场景 适用于各种需要进行社区发现的场景,如社交网络分析、图像分割、推荐系统等。可以将数据集划分为具有相似特征的社区,便于进行进一步的分析和挖掘。同时,还可以用于异常值检测和分类任务的预处理阶段。

    1.1K10

    .| 机器学习对可突变的治疗性抗体的亲和力和特异性进行共同优化

    最后,对输入文库和 FACS 分类文库进行了深度测序,并选择了 4000 个在亲和力和特异性选择中观察到的最常观察到的抗体突变体,以进行进一步分析。...机器学习预测帕累托最优抗体变体 接下来,作者团队通过分析阳性类别中相对于阴性类别的文库突变的富集来评估选择的 4000 个序列数据集中包含的信息(图 2),注意到野生型残基对高亲和力和高非特异性结合选择的强烈富集...图3 (AB) (LDA) 模型使用基于序列的特征(one-hot 编码序列作为二元向量)进行训练,显示出对通过深度测序在富集文库中鉴定的 4000 种抗体的抗体亲和力和特异性进行分类的高精度。...OneHot 模型对深度测序数据集中抗体突变体的亲和力和特异性进行了非常好的分类,两个模型(亲和力和特异性各一个)对抗体亲和力和特异性进行分类的准确率为 93%。...这一发现与经验一致,并表明基于深度测序数据对抗体特性(如亲和力和特异性)进行分类是一项相对简单的任务,并且弱依赖于用于预测的模型类型。

    45040

    机器学习 | 决策树模型(一)理论

    树模型算法容易理解,因为它是站在人的思维角度去解决问题,它是基于特征对实例进行分类的过程。它能够从一些列具有众多特征和标签的数据中总结出决策规则,并用树状图的结构呈现这些规则。...特征选择 决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。...若开始时特征数量就很多,也可以在决策树学习开始时进行特征选择,只留下对训练数据有足够分类能力的特征。 不纯度 特征选择在于选择对训练数据具有分类能力的特征。...因为信息增益大的具有更强的分类能力。具体方法:对于训练数据集,计算每个特征的信息增益,比较大小,选择信息增益大的那个特征。...CATA分类树的生成 用基尼系数选择最优特征,同时决定该特征的最优二值切分点。 计算每个特征对数据集的基尼指数。对于每个特征 ,对其可能取的每个值 ,将数据集切分成两部分,并计算基尼指数。

    1.5K20

    机器学习_分类_决策树

    当选择某个特征对数据集进行分类时,数据集分类后的信息熵会比分类前的小,其差值即为信息增益。 信息增益可以衡量某个特征对分类结果的影响大小,越大越好。...考虑某个特征后,信息熵减小的多,这个特征就是好的特征(在每层分裂时,选择使得Gain(R)最大的属性作为分裂属性) ID3算法中根据信息增益评估和选择特征,每次选择信息增益最大的特征作为判断模块建立子结点...2、不能处理连续分布的数据特征 2、C4.5算法 C4.5算法用信息增益率来选择属性,继承了ID3算法的优点 优点: 1、克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2、在树构造过程中进行剪枝...; 3、能够完成对连续属性的离散化处理; 4、能够对不完整数据进行处理。...决策树易于实现和理解; 对于决策树,数据的准备工作一般比较简单; 能够同时处理多种数据类型 给定一个决策树模型,可以根据产生的决策树推出相应的逻辑表达式; 通过静态测试来对模型的表现进行评价; 在相对较短的时间内可以对大量的数据做出非常好的结果

    95410

    机器学习概念总结笔记(一)

    回归树与分类树的思路类似,但叶节点的数据类型不是离散型,而是连续型,对CART稍作修改就可以处理回归问题。CART算法用于回归时根据叶子是具体值还是另外的机器学习模型又可以分为回归树和模型树。...与Gini Gain对离散特征和连续特征的处理方法类似,多值离散特征需要选择最优二分序列,连续特征则要找出最优分裂点。...7)CART分类 当将CART用于分类问题时需要构建CART分类树。 创建分类树递归过程中,CART每次都选择当前数据集中具有最小Gini信息增益的特征作为结点划分决策树。...在决策树构造时,由于训练数据中的噪音或孤立点,许多分枝反映的是训练数据中的异常,使用这样的判定树对类别未知的数据进行分类,分类的准确性不高。...CART常采用事后剪枝方法,构建决策树过程中的第二个关键就是用独立的验证数据集对训练集生长的树进行剪枝。

    4.6K40

    算法工程师-机器学习面试题总结(2)

    换句话说,L1正则化具有特征选择的效果,可以自动发现和选择与目标变量最相关的特征。...边缘概率可以通过将事件A和事件B同时发生的概率对所有可能的事件B值进行求和来计算,即P(A) = ΣP(A∩B)。 联合概率: 联合概率是指两个或多个事件同时发生的概率。...后验概率最大化的含义是选择具有最大后验概率的类别或假设作为我们的决策结果。 后验概率最大化考虑了先验信息和观测数据的权衡。先验概率是我们在没有观测数据时对类别或假设的相对信念。...通过不断迭代和更新概率值,模型可以更好地适应训练数据并提高分类的准确性。同时,朴素贝叶斯模型也可以通过平滑技术来处理数据中的零概率问题,以避免对未见过的特征或类别做出无效的预测。...朴素贝叶斯之所以被称为线性模型,是因为它通过计算线性函数来进行分类。虽然朴素贝叶斯在模型设计中对特征之间的相关性做出了独立假设,但在进行分类时,它可以通过线性函数对特征进行加权和组合。

    56740
    领券