我可以在不重新编译的情况下训练复合模型的各个部分吗？ - 腾讯云开发者社区

问：假设我有这个脚本： export.bash #!...echo $VAR 有没有一种方法可以通过只执行 export.bash 而不 source 它获取 $VAR？答：不可以。但是有几种可能的解决办法。...在调用 shell 的上下文中执行脚本: $ cat set-vars1.sh export FOO=BAR $ . set-vars1.sh $ echo $FOO BAR 另一种方法是在脚本中打印设置环境变量的命令.../set-vars2.sh)" $ echo "$FOO" BAR 在终端上执行 help export 可以查看 Bash 内置命令 export 的帮助文档： # help export export...help eval 相关阅读：用和不用export定义变量的区别在shell编程中$(cmd) 和 `cmd` 之间有什么区别 ----

1802 0

MLOps主要是数据工程

模型训练，如 AWS Sagemaker。特征库，如 Tecton。需要指出的是，在许多情况下，各个类别是互补的。例如，你使用了特征库，还需要一个模型训练服务。...我经常看到的一个模式是，供应商会设法创建新的类别，定义新的工程师类型。在大多数情况下，这是现有角色之间的一个复合，例如分析工程师，他们主要是分析师，但也会做一些数据工程方面的工作，例如创建管道。...模型训练说实话，模型训练更多的与云计算有关，而且在我看来，这是大型云服务提供商目前主要提供价值的领域。这主要是因为实际的训练需要硬件。但一般情况下，模型训练只是一个数据管道。...数据从多个来源读取，并通过训练算法进行转换。而这个过程是在 CPU 上进行，还是在 GPU 上进行，则并不重要。...大规模的模型训练应该是数据工程学科的一部分，因为他们已经有工具，对所需的数据负有 SLA 责任，并且可以更好地控制发布生命周期。 ML 的人们会关心这些操作吗？我实在看不出来有什么理由。

3703 0

您找到你想要的搜索结果了吗？

是的

没有找到

不用亲手搭建型了！华人博士提出few-shot NAS，效率提升10倍

---- 新智元报道来源：ICML 2021 编辑：LRS 【新智元导读】你能找到最优的深度学习模型吗？还是说你会「堆积木」？...神经网络模型经常被研究人员戏称为「堆积木」，通过将各个基础模型堆成更大的模型，更多的数据来取得更好的效果。为了减轻人工构建模型的工作量，用AI技术来搜索最优“堆积木”方法就很有必要了。...在设计 few-shot NAS时，研究人员主要面向这三个问题提出解决方案： 1、如何将one-shot 模型表示的搜索空间划分为子超网，以及在给定搜索时间预算的情况下如何选择子超网的数目?...值函数可以是不可微的，通常由单次或单次函数提供。对于vanilla NAS，不必严格地训练这些模型架构来收敛，可以使用提前停止的方法来获得中间结果。...她对设计系统机制和策略感兴趣，以处理新出现的应用程序在成本、性能和效率方面的平衡。具体来说，我参与过与云/边缘资源管理、大数据框架、深度学习推理、分布式训练、神经架构搜索和 AR/VR 相关的项目。

5143 0

不用亲手搭建型了！华人博士提出few-shot NAS，效率提升10倍

【导读】你能找到最优的深度学习模型吗？还是说你会「堆积木」？最近，伍斯特理工学院华人博士在ICML 2021上发表了一篇文章，提出一个新模型few-shot NAS，效率提升10倍，准确率提升20%！...神经网络模型经常被研究人员戏称为「堆积木」，通过将各个基础模型堆成更大的模型，更多的数据来取得更好的效果。 ? 为了减轻人工构建模型的工作量，用AI技术来搜索最优“堆积木”方法就很有必要了。...Vanilla NAS 使用搜索算法来遍历探索搜索空间，并通过从头开始训练新的架构来评估它们的性能。...在设计 few-shot NAS时，研究人员主要面向这三个问题提出解决方案： 1、如何将one-shot 模型表示的搜索空间划分为子超网，以及在给定搜索时间预算的情况下如何选择子超网的数目? ?...她对设计系统机制和策略感兴趣，以处理新出现的应用程序在成本、性能和效率方面的平衡。具体来说，我参与过与云/边缘资源管理、大数据框架、深度学习推理、分布式训练、神经架构搜索和 AR/VR 相关的项目。

5882 0

我删掉了Transformer中的这几层…性能反而变好了？

那么第n个部分的criticality score就可以表示为这个式子定量的说明了criticality是最小的能使模型在阈值的情况下保持性能。...大规模的训练数据本身就自带更多的patterns。需要充分发挥transformer的各个模块才能有效地学习到。...模块剪枝就是将不重要的模块直接删掉，因为删掉了相应模块使得模型的参数变小，作为对比作者在相同参数量下使用了一个浅层的decoder模型结果如表：可以看出剪枝后的模型要比同样参数下的浅层模型结果要好，而且也能达到和原始模型相应的效果...模块回卷就是将不重要的模块参数回卷到初始化状态，再和其他模块一起微调一下得到的训练结果要比原始模型好一点。...总结我们可以利用contribution score和criticality score评价模型中各个模块的重要性，知晓了模块的重要性程度后我们可以对不重要的模块进行剪枝或者参数回卷都能在一定程度上让原有模型得到优化

3.6K2 0

DiffSBDD：利用等变扩散模型进行基于结构的药物设计

在本文中作者将基于结构的药物设计（SBDD）表述为一个3D条件生成问题，并提出了DiffSBDD，一个 E(3)等变的3D条件扩散模型，它关于平移、旋转、反射和排列等变，并可以根据蛋白质口袋的条件生成新的配体...首先模拟前向扩散过程q，以获得在T个时间段内渐进式噪声样本的轨迹。然后训练一个模型p_来反转或去噪这个以目标结构为条件的过程。一旦训练完成，就能够从高斯分布中抽取新的候选药物。...作者首先训练一个无条件的 DDPM 来近似配体和口袋节点的联合分布。这使能够在没有额外上下文的情况下对新对进行采样。为了以目标蛋白质袋为条件，需要通过修改概率转换步骤将上下文注入采样过程。...已知蛋白质口袋的调节完全委托给采样算法，这意味着这种方法不仅限于配体修复，而且原则上允许在不重新训练的情况下掩盖和替换配体口袋系统的任意部分。...作者在合成基准和实验确定的蛋白质-配体复合物的新数据集上证明了 DiffSBDD 在生成新的且多样化的配体方面的有效性，这些配体对给定的蛋白质口袋具有预测的高亲和力。

1.2K2 0

入门 | 关于神经网络：你需要知道这些

机器之心编译神经网络（NN）几乎可以在每个领域帮助我们用创造性的方式解决问题。本文将介绍神经网络的相关知识。读后你将对神经网络有个大概了解，它是如何工作的？如何创建神经网络？...后来，在 1958 年，Frank Rosenblatt 创建了第一个可以进行模式识别的模型，改变了现状。即感知器。但是他只提出了 notation 和模型。...单元/神经元作为神经网络架构三个部分中最不重要的部分，神经元是包含权重和偏置项的函数，等待数据传递给它们。接收数据后，它们执行一些计算，然后使用激活函数将数据限制在一个范围内（多数情况下）。...它们在 x 轴上输入数据，并在有限的范围内（大部分情况下）输出一个值。大多数情况下，它们被用于将单元的较大输出转换成较小的值。你选择的激活函数可以大幅提高或降低神经网络的性能。...不同项目中的矩阵维度可能会有所不同。大量数据通常分为两类：训练数据（60％）和测试数据（40％）。神经网络先使用训练数据，然后在测试数据上测试网络的准确率。

4373 0

为什么机器学习模型在生产中会退化？

显然，风险可以根据项目的性质进行预测。在大多数情况下，必须制定定期的模型评审和再训练计划。此外，大多数模型只能捕获反映它们所看到的训练数据的模式。...一个好的模型捕获了这些数据的基本部分，而忽略了不重要的部分。这创建了泛化的性能，但是任何模型都有一定程度的局限性。...棘手的部分不是刷新模型和创建一个重新训练的模型，而是考虑额外的特征，这些特征可能会提高模型的性能，使其更加可靠和准确。完成上述步骤之后，就可以使用新的或修改过的一组特征和模型参数重新创建模型了。...在这些情况下，分析模型出错的例子并寻找当前特征集之外的趋势可以帮助识别新特征。基于这些知识创建新特征可以给模型提供新的学习经验。...每天吗？答案取决于你的ML应用。当我们手工对模型进行再训练时，我们可能会发现一种新的算法或一组不同的特征，可以提高精确度。事实上，定期回顾你的处理过程可能是个好主意。

2K2 0

. | AI驱动的柔性蛋白-小分子复合物建模

该文提出了一种新的AI驱动的蛋白-小分子复合物结构柔性建模方法FlexPose，可准确高效的预测复合物结构、亲和力及模型置信度。...当预测结构的化学空间与训练样本的化学空间几乎完全不重叠时，构象感知WSL将有助于模型建模新结构。...表 1 构象感知策略提高模型在unseen化学空间中预测能力文章在交叉对接任务中测试了分子相似性的影响，训练集根据其与测试集的蛋白质和配体相似度进行筛选，同时比较了构象感知预训练和WSL在此类情况下的能力...如图3所示，分子相似性对模型性能有影响，模型在使用预训练编码器或WSL后有明显改善，尤其是在相似性截断值较低的情况下。文章有两个主要发现：（1）蛋白质相似性比配体相似性的影响更大。...为了评估预测的可靠性，文章引入了一个称为 "ENS-factor "的模型置信度指标，它不需要额外的可训练参数。它基于这样一个假设：初始三维嵌入不同，模型都倾向于对有把握的部分做出一致的预测。

3645 0

四篇NeurIPS 2019论文，快手特效中的模型压缩了解一下

模型压缩在快手模型压缩这条逻辑线优化器：「有些参数生而冗余」从数学看优化器对抗训练：「我也能变压缩」从数学看对抗与压缩快手在 NeurIPS 2019 在最近的 NeurIPS 2019 中...第二篇模型压缩更像新方法方面的探索，它也能用于部分应用而加速视频的处理过程。第三篇强化学习正应用于游戏 AI，它可以令智能体学会「团队协作」。...优化器：「有些参数生而冗余」剪枝在模型压缩中非常常见，我们训练模型后，可以根据某些标准删除一些不重要的权重。但通常情况下，这种裁剪会造成精度损失，所以需要重新微调模型。...那么有没有办法在训练中就完成剪枝，让模型在剪枝率的约束下进行学习？我们可以把剪枝嵌入到最优化器内，让模型不再更新「生而冗余」的权重。...对抗训练：「我也能变压缩」现在我们从另一个角度，看看怎样统一模型紧凑性与鲁棒性，怎样联合不同的压缩方法。也就是说，我们要保证压缩过后的模型具有足够小，且该模型还能抵御来自于对抗样本的攻击。

5311 0

数据太少怎么搞深度学习？

作者：Tyler Folkman 编译：McGL 你一定看过这种报道——深度学习是切片面包以来最流行的东西。它许诺用海量数据的一小部分即可解决你最复杂的问题。...让我们看看怎样在数据有限的情况下利用深度学习，以及为什么我认为这可能是未来研究最令人兴奋的领域之一。从简单开始在我们讨论利用有限的数据进行深度学习的方法之前，请忘了神经网络并创建一个简单的基准。...几乎可以肯定，仅通过标记更多数据，你就可以更轻松地解决此问题。不确定需要收集多少数据？尝试在增加数据时绘制学习曲线并查看模型性能的变化。微调（Fine-Tuning） ? Okay....你经常可以想到一些创造性的方法把数据增强用到其它领域（如NLP），人们也在尝试使用GAN来生成新数据。...，该模型通过利用过程中的先验知识从各个部分构建概念。

8122 1

EfficientNet解析：卷积神经网络模型规模化的反思

近期，谷歌提出了一项新型模型缩放方法：利用复合系数统一缩放模型的所有维度，该方法极大地提升了模型的准确率和效率。...Width Scaling (w): 当我们想要保持模型较小时，通常使用这种方法。更广泛的网络往往能够捕获更细粒度的特性。此外，较小的型号更容易训练。这不正是我们想要的吗?小模型，提高精度?...问题是，即使您可以使您的网络非常宽，使用浅模型(不太深但更宽)，随着更大的宽度，精度很快就会饱和。好吧，我们既不能使我们的网络非常深，也不能使它非常广。但是你不能把上面两个比例结合起来吗?...是的，我们可以结合不同维度的缩放，但作者提出了一些观点：虽然可以任意缩放二维或三维，但任意缩放是一项繁琐的任务。大多数情况下，手动缩放会导致精度和效率低于最佳。...不同值的ϕ产生EfficientNets B1-B7。结论这可能是我到目前为止读过的2019年最好的论文之一。这篇论文不仅为寻找更精确的网络打开了新的大门，而且还强调了寻找更高效的架构。

1.2K3 0

大模型微调（Fine-Tuning）全流程思考

如果你的idea需要训练新模型，那么可以继续往下。但如果你的idea只是涉及已有模型的流程拼接，则可以直接用workflow实现，不涉及以下过程。　...示例：我这个季度顺利吗？我这个季度会发财吗？最近有哪些事情在等着我？最近会发生什么事情？近期我能否被幸运之神垂青？...通常情况下为空（因为若任务是开放式的，或者不需要明确输入，可以为空字符串） output在给定指令和输入的情况下，模型需要生成的期望输出，也就是对应的正确结果或参考答案。...同时，也可以在自己的中文数据集的system部分加入“请输出中文”（但目前讯飞MaaS平台好像不支持这个）　模型训练构建好数据集、选择好模型基底后，可以开始训练模型啦！　...参数的选择在训练模型的过程中，有很多参数可以选择。　个人的经验是，需要尤其注意其中的“训练次数”！

4381 0

入门 | 关于神经网络：你需要知道这些

机器之心编译参与：白妤昕、路神经网络（NN）几乎可以在每个领域帮助我们用创造性的方式解决问题。本文将介绍神经网络的相关知识。读后你将对神经网络有个大概了解，它是如何工作的？如何创建神经网络？...后来，在 1958 年，Frank Rosenblatt 创建了第一个可以进行模式识别的模型，改变了现状。即感知器。但是他只提出了 notation 和模型。...单元/神经元作为神经网络架构三个部分中最不重要的部分，神经元是包含权重和偏置项的函数，等待数据传递给它们。接收数据后，它们执行一些计算，然后使用激活函数将数据限制在一个范围内（多数情况下）。...它们在 x 轴上输入数据，并在有限的范围内（大部分情况下）输出一个值。大多数情况下，它们被用于将单元的较大输出转换成较小的值。你选择的激活函数可以大幅提高或降低神经网络的性能。...不同项目中的矩阵维度可能会有所不同。大量数据通常分为两类：训练数据（60％）和测试数据（40％）。神经网络先使用训练数据，然后在测试数据上测试网络的准确率。

4162 0

32页ppt干货｜谷歌大规模机器学习：模型训练、特征工程和算法选择

；检索模型；在新数据上使用模型进行预测；根据预测执行选择工具/框架前需要考虑的事训练数据存储在哪里？...需要存储特征和标记吗？还是在训练时再提取特征和标记？怎样训练？在云上训练？还是离线？数据变化的频率如何？怎样使模型可用于预测？使用框架工具？还是从头开始编写pipeline？...验证是否需要用大量数据训练（模型在增加训练规模时能表现得更好）如果是，请考虑用完整的数据进行训练考虑其他要求： - 在有新数据时更新模型，还是根据情况进行再训练？...目前，各个框架对于计算图的实现机制和侧重点各不相同。例如Theano和MXNet都是以隐式处理的方式在编译中由表达式向计算图过渡。...这是因为即使在高级语言中最简单的操作也比在低级语言中完成时花费更多的时间（CPU周期）。在这些情况下，我们可以采取两种不同的方法。第一个是来自编译器的另一个类推。

2.1K10 0

你真的会正确地调试TensorFlow代码吗？

可能遇到的问题及其解决方案通过预训练模型加载会话并进行预测。这是一个瓶颈，我花了好几周来理解、调试和修改这个问题。我高度关注这个问题，并提出了两个重新加载和使用预训练模型（图和会话）的技巧。...举个例子，由于在运行时访问的所有模块的所有张量只有一个默认的 tensorflow 图，因此无法在不重置图的情况下用不同的参数测试相同的功能。...关于 TensorFlow 代码的单元测试问题也让我困扰已久：当不需要执行构建图的一部分（因为模型尚未训练所以其中有未初始化的张量）时，我不知道应该测试些什么。...tf.AUTO_REUSU 是可训练变量，可以重新编译库和其他不好的东西。这部分的最后一点是简要介绍我通过错误和尝试方法学到的一些小细节。...但在实际情况中，只有当开发人员知道代码的某些部分需要运行两次或两次以上时，才应该谨慎地使用这一参数。第二点是关于可训练变量，这里最重要的点是：默认情况下所有张量都是可训练的。

9963 0

MSCI：捕捉因子模型非线性的收益

在本篇论文中，作者对所有与构建机器学习模型，用以挖掘出中能够被因子间非线性的关系解释的部分：其中G为某个机器学习的模型，可以看做是X经机器学习模型G合成后的因子，主要用于挖掘X因子间非线性部分...2、在机器学习模型G中所使用的因子X，与线性部分使用的因子完全一样，这样就能更有逻辑的区分线性部分和非线性部分。实证分析数据及方法说明 ?...可以看到同类型算法不同参数的相关性基本在0.35-0.55之间。但是上图2中，不同复合模型的时间序列的相关性达到了0.73以上。...2、模型稳定性作者通过模型每个月预测值之间的自相关性来判读模型的稳定性，可以看出除了在模型重新训练的时候相关性变化比较大，其余时间，不同月份之间的预测值自相关性还是比较稳定的。 ?...这说明，不同模型都能捕捉到Liquidity和Mementum的预测能力，但对于噪音，不同模型的噪音就不一样。所以通过复合模型，能够在保留信号的同时，抵消掉部分噪音，得到更好的预测结果。 ?

1.7K3 0

Nature｜人工智能助力蛋白质折叠预测

即使在没有结构信息的情况下，该算法也能为许多蛋白质（以及一些多蛋白质复合物）提供高度准确的结果。这可以大大加快实验性结构生物学，并有助于指导蛋白质工程和药物发现的研究。...通过用大量的注释过的实验数据训练这些算法，他们可以开始识别序列和结构之间的联系，为新蛋白质的预测提供信息。在过去的五年里，多个团队在将深度学习应用于结构预测方面取得了进展。...我们显然有内部基准测试，表明我们会做得非常好 "，Jumper说，"但到了最后，我的脑海中仍有一种感觉：这真的是真的吗？"...蛋白质设计者也可以看到好处。从头开始（称为新的蛋白质设计）涉及到通过计算生成的模型，但在实验室中进行测试。Zhang说："现在你可以立即使用AlphaFold2来折叠它。...他说："在很长一段时间里，结构生物学是如此专注于各个部分，以至于它把这些美丽的带状图提升到几乎就像结构生物学自身的终点。现在我认为结构生物学将赢得其名称中的'生物学'部分。"

5833 0

干货｜谷歌大规模机器学习：模型训练、特征工程和算法选择

3.1K5 0

为什么我的BERT不行？

上面聊过不重复了。数据数量。越是复杂的模型，对数据的渴求度越大，尤其是场景比较偏的，需要更多数据集才行，少数据不足以让模型对你的数据有足够的了解。样本分布情况。参考数据不均衡的文章：领域性。...在实验室中BERT的效果确实会比常规的textcnn、biltm-crf、ESIM等小模型效果好，但是在很多现实场景优势没那么明显，甚至会不如，大家可以持乐观态度，但请别成为信仰。...至于训练集，首先要说的是训练集内部的问题，其实还是数据的数量和质量问题：学习资料和练习题要足够，才能让模型学得会，学得好。数据分布问题，不能偏科，各个类型的数据最好都能覆盖。...这里背后的逻辑可以参考我这篇文章：心法利器[45] | 模型需要的信息提供够了吗训练问题针对训练问题，其实也就是一个经验的问题了，多弄其实问题就会小很多，大家可以多去看各个论文使用的超参，一般调的差不多基本都不会有的...要喂饱BERT，需要足量的数据，哪怕是finetuning，当然在数据量不足的情况下，啥模型都不好使。

1.2K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

我可以在不source脚本的情况下将变量从Bash脚本导出到环境中吗

MLOps主要是数据工程

不用亲手搭建型了！华人博士提出few-shot NAS，效率提升10倍

不用亲手搭建型了！华人博士提出few-shot NAS，效率提升10倍

我删掉了Transformer中的这几层…性能反而变好了？

DiffSBDD：利用等变扩散模型进行基于结构的药物设计

入门 | 关于神经网络：你需要知道这些

为什么机器学习模型在生产中会退化？

. | AI驱动的柔性蛋白-小分子复合物建模

四篇NeurIPS 2019论文，快手特效中的模型压缩了解一下

数据太少怎么搞深度学习？

EfficientNet解析：卷积神经网络模型规模化的反思

大模型微调（Fine-Tuning）全流程思考

入门 | 关于神经网络：你需要知道这些

32页ppt干货｜谷歌大规模机器学习：模型训练、特征工程和算法选择

你真的会正确地调试TensorFlow代码吗？

MSCI：捕捉因子模型非线性的收益

Nature｜人工智能助力蛋白质折叠预测

干货｜谷歌大规模机器学习：模型训练、特征工程和算法选择

为什么我的BERT不行？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐