首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Meta AI 研究人员提出长语境 LLM:超越 GPT-3.5-Turbo-16k 的性能

据 MarkTechPost 10 月 7 日报道,Meta AI 研究人员提出了一种构建长语境 LLM 的方法,这种方法优于所有现有的开源模型。该方法围绕 LLAMA2 检查点进行持续的预训练,并利用额外的 4000 亿个 token 形成广泛的训练序列。这些序列旨在捕捉长语境理解的本质。此外,这项工作提供了一系列模型变体,包括使用 32,768 个 token 序列训练的较小的 7B/13B 模型和使用 16,384 个 token 序列训练的较大的 34B/70B 模型。

与研究基准上的 LLAMA 2 相比,该方法在长语境任务中取得了显著改进,而在标准短语境任务中则略有提高。这些改进在编码、数学问题解决和知识相关任务中尤为明显。此外,该团队还探索了一种简单而经济高效的程序,用于在没有人类标注数据的情况下对持续预训练的长模型进行指令微调。结果是,在一系列长语境基准测试中,聊天模型的性能超过了 gpt-3.5-turbo-16k 模型。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OFQJAXs6dLd5TukLxHZX5lQg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券