点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CL
1.Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing
标题:可量化的变压器:通过帮助注意力头无所事事来消除异常值
作者:Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort
文章链接:https://arxiv.org/abs//2306.12929
摘要:
过去几年,Transformer 模型已在各个领域得到广泛采用,尤其是大型语言模型极大地推动了人工智能领域的发展。由于其规模,这些网络的能力已大大增加,但这是以必要计算量显着增加为代价的。量化是减少神经网络计算时间和内存消耗的最有效方法之一。然而,许多研究表明,现代 Transformer 模型往往会在激活过程中学习强烈的异常值,这使得它们难以量化。为了保持可接受的性能,这些异常值的存在要求激活具有更高的位宽或使用不同的数字格式、额外的微调或其他解决方法。我们表明,强异常值与注意力头的非常具体的行为有关,这些行为试图学习“无操作”或只是残差的部分更新。为了实现注意力矩阵中无需更新所需的精确零点,softmax 的输入在训练过程中被推得越来越大,从而导致网络其他部分出现异常值。基于这些观察,我们提出了对注意力机制的两种简单(独立)修改——裁剪softmax和门控注意力。我们的经验表明,使用我们的方法预训练的模型可以学习显着更小的异常值,同时保持甚至有时甚至提高浮点任务性能。这使我们能够将转换器量化为激活的完整 INT8 量化,而无需任何额外的工作。我们展示了我们的方法在语言模型(BERT、OPT)和视觉转换器上的有效性。
2.From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought
标题:从文字模型到世界模型:从自然语言到概率性思维语言的翻译
作者:Lionel Wong, Gabriel Grand, Alexander K. Lew, Noah D. Goodman, Vikash K. Mansinghka, Jacob Andreas, Joshua B. Tenenbaum
文章链接:https://arxiv.org/abs//2306.12672
摘要:
语言如何影响我们的下游思维?特别是,人类如何从语言中获取意义——以及我们如何利用语言意义理论来构建以更像人类的方式思考的机器?在本文中,我们提出了 \textit{理性意义构建},这是一种用于语言信息思维的计算框架,它将语言的神经模型与用于理性推理的概率模型相结合。我们将语言意义定义为从自然语言到 \textit{概率思想语言} (PLoT) 的上下文相关映射——概率、生成世界建模的通用符号基础。我们的架构集成了两种以前从未结合在一起的强大计算工具:我们使用 \textit{概率程序} 来建模思维,这是一种灵活的常识推理的表达表示;我们使用\textit{大语言模型}(LLM)对意义构建进行建模,它支持从自然语言话语到概率编程语言中的代码表达的广泛覆盖翻译。我们通过涵盖认知科学四个核心领域的示例来说明我们的框架的实际应用:概率推理、逻辑和关系推理、视觉和物理推理以及关于代理及其计划的社会推理。在每一个中,我们都表明法学硕士可以生成上下文相关的翻译,捕获实用的适当的语言含义,而对生成的程序的贝叶斯推理支持连贯且强大的常识推理。我们扩展了我们的框架以集成认知驱动的符号模块,以从语言提供统一的常识思维界面。最后,我们探讨语言如何驱动世界模型本身的构建。
3.MagicPony: Learning Articulated 3D Animals in the Wild(CVPR 2023)
标题:MagicPony:在野外学习铰接式 3D 动物
作者:Shangzhe Wu, Ruining Li, Tomas Jakab, Christian Rupprecht, Andrea Vedaldi
文章链接:https://arxiv.org/abs/2211.12497
项目代码:https://3dmagicpony.github.io/
摘要:
我们考虑的问题是,在给定单个测试图像作为输入的情况下,预测马等有关节动物的 3D 形状、关节、视点、纹理和光照。我们提出了一种名为 MagicPony 的新方法,该方法纯粹从对象类别的野外单视图图像中学习该预测器,并且对变形拓扑的假设最少。其核心是铰接形状和外观的隐式-显式表示,结合了神经场和网格的优点。为了帮助模型理解物体的形状和姿势,我们提炼了现成的自监督视觉转换器捕获的知识,并将其融合到 3D 模型中。为了克服视点估计中的局部最优,我们进一步引入了一种新的视点采样方案,无需额外的训练成本。MagicPony 在这项具有挑战性的任务上表现优于之前的工作,并在重建艺术方面表现出出色的泛化能力,尽管它仅在真实图像上进行训练。
CVPR 2023 | Video Similarity大赛双赛冠军方案&微信视觉团队
多角度、真实用户标注,人大&华为推出可解释推荐数据集REASONER
点击卡片,关注「AiCharm」公众号
喜欢的话,请给我个在看吧!