BERT小模型超越GPT-4的标注数据需求

原创

用户11764306

发布于 2025-09-09 08:20:33

1060

预测性任务中BERT规模模型超越GPT-4所需的标注样本量

大型语言模型（LLMs）提供了一种新的机器学习交互范式：上下文学习。这种方法明显优于依赖显式标注数据的各种生成任务（例如摘要、问答、释义）。上下文学习也可应用于预测性任务，如文本分类和实体识别，只需少量或无需标注示例。

但上下文学习在这些任务上实际上与监督方法相比如何？关键优势在于需要更少的数据，但在不同问题上，一个BERT规模的模型需要多少标注样本才能在准确性上击败GPT-4？

答案可能令人惊讶：参数少于10亿的模型实际上在经典预测性NLP中表现很好，而上下文学习在许多问题形式上表现不佳——尤其是具有许多标签或需要结构化预测的任务。提高上下文学习准确性的方法涉及增加速度与准确性的权衡，表明蒸馏和LLM引导的标注将是最实用的方法。

本文讨论了基于spaCy开源库和Prodigy标注工具的实现方法。

预测性任务仍然重要

生成性补充预测性，而不是取代它。

生成性任务包括单/多文档摘要、问题解决、释义和推理、风格转移、问答等；预测性任务包括文本分类、实体识别、关系提取、语法和形态学、语义解析、共指解析、话语结构等。生成性任务产生人类可读的输出，而预测性任务产生机器可读的输出。

上下文学习在预测性任务上的表现如何？

通过大量实验：许多任务，多个模型，没有GPT-4结果，在所有任务上远低于任务特定模型。

发现ChatGPT在几个文本分类任务上比众包工作者表现更好，但准确性仍然低于训练有素的标注者，这更多反映了众包工作者方法的问题，而不是LLMs的优势。

微调LLM进行少样本命名实体识别（NER）有效，BERT-base总体上仍然具有竞争力，ChatChat得分较低。

如何思考这个问题以及该怎么做

人类只是奇怪的硬件。有许多设备可以调度计算：CPU、GPU、LLM、任务工作者、训练有素的专家等。有些设备比其他设备昂贵得多。使用昂贵的设备将程序编译到较便宜的设备上运行。

高延迟。让他们进入状态。不要频繁切换缓存。工作内存有限。编译你的程序：努力创建正确的任务流。在人类上调度计算。

感谢阅读！

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

计算机

自然语言处理

机器学习

网络安全

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

登录后参与评论

0 条评论

热度