大型语言模型(LLMs)提供了一种新的机器学习交互范式:上下文学习。这种方法明显优于依赖显式标注数据的各种生成任务(例如摘要、问答、释义)。上下文学习也可应用于预测性任务,如文本分类和实体识别,只需少量或无需标注示例。
但上下文学习在这些任务上实际上与监督方法相比如何?关键优势在于需要更少的数据,但在不同问题上,一个BERT规模的模型需要多少标注样本才能在准确性上击败GPT-4?
答案可能令人惊讶:参数少于10亿的模型实际上在经典预测性NLP中表现很好,而上下文学习在许多问题形式上表现不佳——尤其是具有许多标签或需要结构化预测的任务。提高上下文学习准确性的方法涉及增加速度与准确性的权衡,表明蒸馏和LLM引导的标注将是最实用的方法。
本文讨论了基于spaCy开源库和Prodigy标注工具的实现方法。
生成性补充预测性,而不是取代它。
生成性任务包括单/多文档摘要、问题解决、释义和推理、风格转移、问答等;预测性任务包括文本分类、实体识别、关系提取、语法和形态学、语义解析、共指解析、话语结构等。生成性任务产生人类可读的输出,而预测性任务产生机器可读的输出。
通过大量实验:许多任务,多个模型,没有GPT-4结果,在所有任务上远低于任务特定模型。
发现ChatGPT在几个文本分类任务上比众包工作者表现更好,但准确性仍然低于训练有素的标注者,这更多反映了众包工作者方法的问题,而不是LLMs的优势。
微调LLM进行少样本命名实体识别(NER)有效,BERT-base总体上仍然具有竞争力,ChatChat得分较低。
人类只是奇怪的硬件。有许多设备可以调度计算:CPU、GPU、LLM、任务工作者、训练有素的专家等。有些设备比其他设备昂贵得多。使用昂贵的设备将程序编译到较便宜的设备上运行。
高延迟。让他们进入状态。不要频繁切换缓存。工作内存有限。编译你的程序:努力创建正确的任务流。在人类上调度计算。
感谢阅读!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。