Loading [MathJax]/jax/output/CommonHTML/jax.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >剑桥 | 提出Hypernetwork，解耦LLMs分词器(Tokenizer)，提高LLMs跨语言处理性能！

剑桥 | 提出Hypernetwork，解耦LLMs分词器(Tokenizer)，提高LLMs跨语言处理性能！

ShuYini

发布于 2024-05-17 12:32:31

发布于 2024-05-17 12:32:31

3560

举报

文章被收录于专栏：自然语言处理(NLP)论文速递自然语言处理(NLP)论文速递

点击上方“AINLPer“，设为星标

更多干货，第一时间送达

引言

大模型（LLM）主要依赖于分词器（Tokenizer ）将文本转换为Tokens，目前主流开源大模型基本上都是基于英文数据集训练得到的，然而，此类模型当处理其它语言时效率会降低。为此，为了能够将原始 LM 分词器替换为任意分词器，而不会降低性能，本文作者定义了一个新挑战：零样本分词器迁移(ZeTT，Zero-Shot Tokenizer Transfer），训练了一个适配各种模型的超网络（Hypernetwork），解耦LLM分词器(Tokenizer)，增强LLM跨语言处理性，实验表明：在跨语言和编码任务上可媲美原始模型。

https://arxiv.org/pdf/2405.07883

背景介绍

语言模型（LM）通常依赖于分词器将文本映射为token序列。针对不同任务场景，大多数LM都会用到子词级、字节级、字符级等分词器。此类模型有一个共同的问题，那就是一旦用特定的分词器训练，便无法用不同的分词器进行推理。

由于当前主流大模型预训练时基本上主要关注英语，当面对其它语言或领域（如代码）时，分词器的编码效率就会较低，导致推理成本在英语和非英语文本之间差异巨大。此外，分词器在未涉及领域中的表现也不佳，例如Llama模型在编码任务中的表现不尽如人意。为了解决这些问题，先前的方法主要是通过重新训练嵌入参数（有时还包括整个LLM模型）来为LM配备新的分词器。这种适应可以通过启发式初始化嵌入参数来加快。

为此，本文作者提出了这样一个问题：能否在不观察任何数据的情况下，为任意分词器动态创建嵌入矩阵？并将该挑战定义为：零样本分词器转换（ZeTT）。如果模型性能能够大致保持，ZeTT实际上可以将LM与其训练时使用的分词器分离开来。

针对这一挑战，作者首先评估了以往基于启发式方法在ZeTT中的效果，发现尽管启发式方法在某种程度上能保持性能，但与原始LM性能之间通常存在较大差距。为了缩小现有语言模型（LMs）在零样本分词器迁移（ZeTT）上的差距，文章训练一个超网络（hypernetwork），该网络能够针对多样化分布的分词器预测嵌入参数，旨在实现有效的ZeTT。

Hypernetwork

超网络（Hypernetwork）的核心思想是训练一个单独的网络，它能够为任何给定的分词器动态生成嵌入参数，从而让语言模型能够适应不同的分词策略而无需重新训练整个模型。该网络的输入输出结构如下图所示:

其中：

超网络的输入主要包括新的分词器词汇表

$V_b$

和分词函数

$T_b$

，输出为

$ϕ_{inb}$

和

$ϕ_{outb}$

，他们分表代表输入嵌入参数和输出嵌入参数，这些参数用于更新语言模型以适应新的分词器。

具体Hypernetwork网络架构如下图所示。它主要包括：分词器嵌入生成、Transformer处理、嵌入参数生成。

「分词器嵌入生成」 该过程主要包括分词和嵌入生成，其中分词主要是将新的分词器词汇表中的每个词

$t_b$

通过原始分词函数

$𝑇_𝑎$

进行分解。例如，假设原始分词器会将“编程”分解为“编”和“程”，这两部分将被用来生成嵌入；嵌入生成主要是使用原始语言模型中的嵌入矩阵

$𝐸_{𝜙𝑎}$

对分解后的词序列进行嵌入。这些嵌入表示作为超网络的初始输入数据。

「Transformer处理」 超网络包含多个Transformer层，这些层能够捕捉序列中的上下文信息，从而生成更准确的嵌入参数预测。Transformer层通过自注意力机制处理输入嵌入序列，生成新的特征表示。

「新嵌入参数生成」 经过Transformer层处理后的特征表示，将被用于生成新的输入嵌入参数

$ϕ_{inb}$

和输出嵌入参数

$ϕ_{outb}$

。这些新生成的嵌入参数用于更新语言模型，以适应新的分词器。

「网络训练设计」 主要损失函数的目标是最小化语言模型在新的分词器和超网络预测的嵌入参数上的损失，表示为：

为了减少新嵌入参数与原始嵌入参数之间的差异，辅助损失函数用于惩罚预测的嵌入参数漂移，确保其尽可能与原始参数一致。

「训练过程」 首先初始化超网络参数

$\theta_{init}$

，从语料库中随机抽取文本样本，计算所有可能的子字符串及其在文本中的频率，并进行归一化处理。根据子字符串的频率和噪声参数，为子字符串分配分数，并选出前

$k$

个子字符串构成新的词汇表

$V_b$

。

然后，使用新的词汇表

$V_b$

构建新的分词器模型

$T_b$

。最后，对当前批次的文本进行分词，并通过超网络预测嵌入参数，计算语言模型在新的分词器和预测嵌入参数下的损失，并使用梯度下降法更新超网络参数

$\theta$

，以最小化损失。

实验结果

下表展示了「XLM-R 分词器迁移结果」，可以看到在所有基准上一致优于所有基线，平均准确度保持在原始模型的 1% 以内，最差情况下下降 3%，最佳情况下提高 1%，同时序列长度平均缩短了 14%。

下表展示了「Mistral-7B 分词器迁移结果」，可见对于 Mistral-7B，零样本迁移更具挑战性，但相比其它，Hypernetwork缩小了与原有分词器的差距。然而，使用目标分词器继续训练超网络可以几乎完全缩小差距。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-05-14，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

多租户的 4 种常用方案

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

60页PPT全解：DeepSeek系列论文技术要点整理

精通 Transformers（一）

模型数据编码测试架构

在过去的 20 年间，我们在自然语言处理（NLP）领域已经见证了巨大的变化。在此期间，我们经历了不同的范式，最终进入了由神奇的Transformers架构主宰的新时代。这种深度学习架构是通过继承多种方法而形成的。诸如上下文词嵌入、多头自注意力、位置编码、可并行化的架构、模型压缩、迁移学习和跨语言模型等方法都在其中。从各种基于神经网络的自然语言处理方法开始，Transformers架构逐渐演变成为一个基于注意力的编码器-解码器架构，并持续至今。现在，我们在文献中看到了这种架构的新成功变体。有些出色的模型只使用了其编码器部分，比如 BERT，或者只使用了其解码器部分，比如 GPT。

ApacheCN_飞龙

2024/05/24

4390

精通 Transformers（一）

Meta最新研究：无需Tokenizer的架构！

论文模型数据 meta 架构

最近几天，来自 Meta 、芝加哥大学等机构的合著论文《 Byte Latent Transformer: Patches Scale Better Than Tokens 》火了，在 Hacker News 上受到广泛讨论。

Datawhale

2024/12/19

1200

Meta最新研究：无需Tokenizer的架构！

Transformers 4.37 中文文档（十二）

音频架构量化模型内存

🤗 Transformers 是一个预训练的最先进模型库，用于自然语言处理（NLP）、计算机视觉以及音频和语音处理任务。这个库不仅包含了 Transformer 模型，还有像现代卷积网络这样的非 Transformer 模型，用于计算机视觉任务。如果你看一下今天最流行的消费产品，比如智能手机、应用和电视，很可能背后都有某种深度学习技术。想要从智能手机拍摄的照片中移除背景物体？这就是一个全景分割任务的例子（如果你还不知道这是什么，不用担心，我们将在接下来的部分中描述！）。

ApacheCN_飞龙

2024/06/26

6250

Transformers 4.37 中文文档（十二）

什么是LLM Token：面向开发者的初学者友好指南

开发者模型效率 LLM token

LLM开发者必看！Token是AI核心，影响模型性能和成本。文章详解Token化原理，包括WordPiece、BPE等算法，及NLTK、Hugging Face Tokenizers等工具。掌握Token优化技巧，助力打造高效聊天机器人、文本摘要等云原生AI应用，突破Token限制，提升SEO内容创作！

云云众生s

2025/03/16

1050

干货满满！大神Karpathy两小时AI大课文字版第一弹，全新工作流自动把视频转成文章

视频字符串工作流论文模型

前段时间，AI大神Karpathy上线的AI大课，已经收获了全网15万次播放量。

新智元

2024/02/26

2630

干货满满！大神Karpathy两小时AI大课文字版第一弹，全新工作流自动把视频转成文章

时间序列+预训练大模型！

函数基础模型数据性能

时间序列预测可以使用经典预测方法和深度学习方法。经典预测方法如ETS、ARIMA等为每个时间序列独立地拟合模型，而深度学习方法在给定的数据集中学习时间序列。

算法进阶

2024/05/21

7980

如何实现一个分词器

缓存编码模型数组算法

在开发代码补全插件的过程中，根据项目需要，我实现了一个分词器，本文将介绍分词器的具体实现细节。

winty

2024/07/31

2860

【LLM系列之Tokenizer】如何科学地训练一个LLM分词器

编码模型数据算法 LLM

对于人而言，在我们学会阅读之前，仍然可以理解语言。比如当你开始上学时，即使你不知道名词和动词之间的区别，但是你已经可以和你的同学交谈了，比如“我喜欢吃香蕉”，孩子对于这些虽然不清楚，但是知道是什么意思的。在此刻，我们学会了把语音/语言变成一种书面语言，这样你就可以读写了。一旦你学会了将文本转换为声音，你就可以回忆使用之前学过的词义库。

致Great

2023/08/25

4.6K0

【LLM系列之Tokenizer】如何科学地训练一个LLM分词器

万字长文——这次彻底了解LLM大语言模型

2023腾讯·技术创作特训营第四期

自然语言处理领域正在经历着一场又一场的革命，各类技术层出不穷，不断的改变我们对文本的理解方式和文本生成方式。类似与蝴蝶效应，这场革命不仅提高了机器翻译、文本摘要、文本分类等任务的性能，还在各行各业引发了巨大的变革。越来越多的行业AI化、智能化。在本小节，将介绍一些语言模型中的核心概念，为更好的理解大语言模型做铺垫。

聪明鱼

2023/12/07

6.4K2

60行NumPy手搓GPT

numpy gpt 论文模型数据

本文约24000字，建议阅读30分钟本文我们将仅仅使用60行Numpy[6]，从0-1实现一个GPT。本文原载于尹志老师博客：https://jiqihumanr.github.io/2023/04/13/gpt-from-scratch/[1]。本文还是来自Jay Mody[2]，那篇被Andrej Karpathy手动点赞[3]的GPT in 60 Lines of NumPy[4](已获原文作者授权)。 LLM大行其道，然而大多数GPT模型都像个黑盒子一般隐隐绰绰，甚至很多人都开始神秘化这个技术

数据派THU

2023/05/11

8160

1个token终结LLM数字编码难题！九大机构联合发布xVal：训练集没有的数字也能预测！

token 编码模型数据 LLM

虽然大型语言模型（LLM）在文本分析和生成任务上的性能非常强大，但在面对包含数字的问题时，比如多位数乘法，由于模型内部缺乏统一且完善的数字分词机制，会导致LLM无法理解数字的语义，从而胡编乱造答案。

新智元

2023/10/25

5290

1个token终结LLM数字编码难题！九大机构联合发布xVal：训练集没有的数字也能预测！

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

视频数据机器人对象模型

去年3月，挪威人形机器人公司1X拿到了OpenAI领投的2350万美元，今年初又完成了1亿美元的B轮融资。

新智元

2025/02/15

770

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

从零开始构建大语言模型（MEAP）

编码架构模型数据 LLM

像 ChatGPT 这样的大型语言模型（LLM）是在过去几年中开发的深度神经网络模型。它们引领了自然语言处理（NLP）的新时代。在大型语言模型出现之前，传统方法擅长于分类任务，如电子邮件垃圾分类和可以通过手工制作的规则或简单模型捕获的简单模式识别。然而，在需要复杂理解和生成能力的语言任务方面，例如解析详细说明、进行上下文分析或创建连贯且上下文适当的原始文本时，它们通常表现不佳。例如，以前的语言模型无法根据关键字列表编写电子邮件-这对于当代 LLM 来说是微不足道的任务。

ApacheCN_飞龙

2024/05/24

1.3K0

从零开始构建大语言模型（MEAP）

使用transformer BERT预训练模型进行文本分类及Fine-tuning

深度学习 python tensorflow pytorch NLP技术

Bert 全称为 Bidirectional Encoder Representations from Transformers（Bert）。和 ELMo 不同，BERT 通过在所有层联合调节左右两个上下文来预训练深层双向表示，此外还通过组装长句作为输入增强了对长程语义的理解。Bert 可以被微调以广泛用于各类任务，仅需额外添加一个输出层，无需进行针对任务的模型结构调整，就在文本分类，语义理解等一些任务上取得了 state-of-the-art 的成绩。

大鹅

2021/07/30

4.5K0

【Rust 研学】 | LLM 入门之旅 2 : BPE 算法

rust 模型入门算法 LLM

我们的作品是基于大模型实现的一个代码转译可视化工具，完全由 Rust 实现，也可能是这次赛事唯一一个用 Rust 实现的作品吧。

张汉东

2024/04/22

4310

【Rust 研学】 | LLM 入门之旅 2 : BPE 算法

超越CoT！微软剑桥中科院提出MVoT，直接可视化多模态推理过程

架构可视化模型性能函数

在大语言模型（LLMs）和多模态大语言模型（MLLMs）中，思维链（CoT）在复杂推理方面非常有效。

新智元

2025/02/08

1430

超越CoT！微软剑桥中科院提出MVoT，直接可视化多模态推理过程

SpanBERT：提出基于分词的预训练模型，多项任务性能超越现有模型！

作者 | Mandar Joshi, Danqi Chen, Yinhan Liu, Daniel S. Weld, Luke Zettlemoyer, Omer Levy

AI科技大本营

2019/07/30

1.7K0

SpanBERT：提出基于分词的预训练模型，多项任务性能超越现有模型！

Karpathy离职OpenAI，首发2小时AI大课！从头开始构建GPT分词器

算法 gpt openai 编码模型

其实，早在新课推出两天前，karpathy在更新的GitHub项目中，就预告了这件事。

新智元

2024/02/26

3390

Karpathy离职OpenAI，首发2小时AI大课！从头开始构建GPT分词器

解读大模型（LLM）的token

token 编码模型数据 LLM

正像陆奇博士所说的那样，大型语言模型为从文本生成到问题回答的各种任务提供了令人印象深刻的能力，不仅彻底改变了自然语言处理(NLP)领域，而且作为基础模型会改变整个软件生态。

半吊子全栈工匠

2023/10/08

16.8K2

解读大模型（LLM）的token

性能与速度的双重突破 | 预训练大语言模型的高效加速与LLM-to-SLM解码优化！

模型性能优化 LLM 翻译

近期大型语言模型（LLMs）的广泛应用使得自然语言生成（NLG）领域的各种应用成为可能，从机器翻译和代码补全等到通用聊天机器人OpenAI。它们的性能是计算能力、数据集大小和参数数量的函数等）；只有在大型规模下才会出现新兴的能力，这些发现使得大型模型变得更加流行，无论是仅在解码器上的模型还是编码器-解码器网络等。

集智书童公众号

2024/04/12

7950

性能与速度的双重突破 | 预训练大语言模型的高效加速与LLM-to-SLM解码优化！

相关推荐

精通 Transformers（一）

更多 >

LV.1

这个人很懒，什么都没有留下～

作者相关精选

换一批

目录

引言

背景介绍

Hypernetwork

实验结果

加入讨论

的问答专区 >

1北京宏哥擅长4个领域

相关课程

一站式学习中心 >

Python教程-Django框架快速入门到实战