据 MarkTechPost 10 月 7 日报道,Meta AI 研究人员提出了一种构建长语境 LLM 的方法,这种方法优于所有现有的开源模型。该方法围绕 LLAMA2 检查点进行持续的预训练,并利用额外的 4000 亿个 token 形成广泛的训练序列。这些序列旨在捕捉长语境理解的本质。此外,这项工作提供了一系列模型变体,包括使用 32,768 个 token 序列训练的较小的 7B/13B 模型和使用 16,384 个 token 序列训练的较大的 34B/70B 模型。
与研究基准上的 LLAMA 2 相比,该方法在长语境任务中取得了显著改进,而在标准短语境任务中则略有提高。这些改进在编码、数学问题解决和知识相关任务中尤为明显。此外,该团队还探索了一种简单而经济高效的程序,用于在没有人类标注数据的情况下对持续预训练的长模型进行指令微调。结果是,在一系列长语境基准测试中,聊天模型的性能超过了 gpt-3.5-turbo-16k 模型。
领取专属 10元无门槛券
私享最新 技术干货