Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >过去三个月,LLaMA系模型发展如何?指令微调的核心问题又是什么?

过去三个月,LLaMA系模型发展如何?指令微调的核心问题又是什么?

作者头像
机器之心
发布于 2023-08-08 03:07:19
发布于 2023-08-08 03:07:19
1.3K0
举报
文章被收录于专栏:机器之心机器之心

机器之心发布

作者:符尧

符尧(yao.fu@ed.ac.uk),爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学。

ChatGPT 大火之后,在 2023 年 2 月 24 日,LLaMA 的出现让 instruction tuning 这个方向变得火热;3 月 18 日,Alpaca 让大家看到从成熟的模型 distill 小模型成为还不错的 ChatBot 的可能性,从而引发羊驼系模型寒武纪大爆发。但仅仅过去三个月,大家开始发现意识到用 ChatGPT 的数据训练 LLaMA 的各种问题。本文回顾在过去三个月内的 LLaMA 系模型的发展,讨论 Instruction Tuning 的下一步挑战。

Disclaimer: 这篇文章算是一个 quick research memo,是从我近期的一个分享大纲里 edit 出来的,做了一些删减和补充;现阶段开源社区对于 LLM 训练清楚 / 不清楚的地方同时存在,我尽量做到引用 / 讨论的内容都是有切实证据,而不是基于流言。很多的内容是我跟对应论文的原作者直接讨论过的。但即便这样,我的 take 也可能有误,很多也讨论不出来,所以请大家直接在评论区 comment,积极参与讨论,真理越辩越明。

1 - 起源

最开始三篇

  • InstructGPT: Training language models to follow instructions with human feedback
  • FLANv1: Finetuned Language Models Are Zero-Shot Learners
  • T0: Multitask Prompted Training Enables Zero-Shot Task Generalization

对比

  • InstructGPT 的目标是对齐,zero-shot /cross lingual 是副产物
  • 这篇文章用的 7B 的 Reward model 来对应 175B 的 Policy model,然后被 DeepSpeed Chat 以及之后一系列 RL 的开源工作 follow,这种做法应该是错的。
  • 正确的做法应该是用 Reward model scale up 换取 policy model 减小,见 [Scaling Laws for Reward Model Overoptimization](https://arxiv.org/abs/2210.10760) — 也就是说把两个模型大小换过来,用 175B 的 reward 去 PPO 7B 的 policy
  • 模型上线现阶段 10-50B 是一个比较跑得起的量级,再大太贵了
  • FLANv1 和 T0 的目标是 zero-shot,所以不对齐

然后是 Self-instruct

  • Self-Instruct: Aligning Language Models with Self-Generated Instructions

注意 self-instruct 的重点

  • Base model 可以是任意,不需要是经过了 alignment 之后的模型 (ChatGPT)
  • 复现了从初代 davinci 到 text-davinci-001 的过程 — 非常 insightful!!

然后是 FLANv2 — 很重要,我可能读了十遍以上,建议背诵全文

  • Scaling Instruction-Finetuned Language Models
  • 效果除了不加 human preference 之外其他都加,等下专门讨论
  • Human preference 确实是喜欢能说的,但是能说的模型不一定能干活。Flan 能干活,但是不能说,跟程序员一样

2 - LLaMA 出现之后

  • Alpaca:起始文章,但是模型本身强度并不多高
  • Vicuna
  • 在开源中只做对话强度不错,格式符合人类喜好,生成内容多,unique token 多
  • Automatic eval 中,可能 in-context learning /reasoning/knowledge suboptimal (体现在 MMLU,BBH 分数),不是说它不行,而是说它可以更好
  • GPT-4 eval 到底行不行还不好说,LMSys 团队自己说行,前提是 prompt engineering 做得足够到位:Judging LLM-as-a-judge with MT-Bench and Chatbot Arena
  • 另外 LMSys 的团队在 efficiency 方面非常强,模型的 serve 看 [vllm](https://github.com/vllm-project/vllm) 这个 project,或许是开源最快的
  • 然后一系列以 GPT-4 做 judge 然后号称自己达到了 GPT3.5 x% 水准的模型,全部不推荐,因为 Eval 不可靠
  • 但是存在几篇工作在 alignment 的时候没有依赖 ChatGPT,这些工作推荐,它们包括
  • LIMA: Less Is More for Alignment — 关注他们选数据的方法,推荐花一个小时的时间把他们的 [数据](https://huggingface.co/datasets/GAIR/lima) 有感情地朗读一遍,这样就知道什么样的 SFT 的数据是好数据了
  • Dromedary: Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision — 关注他们 prompt engineering 的方法,这个基本上是一个 LLaMA 版的 Constitutional AI - SFT
  • 然后是一些 paper (终于) 开始分析 instruction tuning 的 data mixture
  • Tulu: How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources
  • 结果非常 mix,没办法下结论哪种 mixture 好
  • 但是知道哪种不好:NLP benchmark

3 - Eval 怎么做

首先,不要在一堆 benchmark 上算分数看平均,特别是不要在 GPT-3 的测试任务上看平均,因为平均下来大家都一样;推荐只看核心的有区分度的 benchmark

没有区分度的例子:

  • LM-Eval-Harness(https://github.com/EleutherAI/lm-evaluation-harness) ,benchmark 太多,平均下来掩盖优质 benchmark
  • 这里面其实涵盖了 MMLU 和 MATH,但是被其他数据集平均了
  • Summarization + Rouge / Translation + BLEU:
  • Rouge 和 BLEU 模型强弱只有四五分的差别,数字太小 v.s. accuracy 下模型强弱是 90 分和 10 分的差别,数字足够大
  • Rouge 和 BLEU 和人类偏好不 align — 注意 BLEU 也不完全 align

那么 Pretrain 建议看哪些呢?

  • 区分度,模型强弱需要能一眼看出
  • 分方向,现阶段可以暂时分成
  • 英文知识 — MMLU
  • 中文知识 — C-Eval
  • 推理 — GSM8k / BBH
  • 代码 — HumanEval / MBPP
  • 解决上面四项平衡之后,可以接着做
  • MATH:高难度 reasoning
  • Dialog:这个可能只有 human eval 才行,automatic eval 搞不定

接下来讲 Automatic Eval

Automatic Eval - 适合 pretrained checkpoint - 基本上可以看 https://github.com/FranxYao/chain-of-thought-hub 的做法

  • Knowledge: MMLU
  • 这个数据集很稳定,基本上没有 sensitivity issue
  • Reasoning:
  • GSM8k: 也比较稳定,但要注意答案提取函数的提出率,低于九十的话得多加 regular expression
  • BBH - Algorithmic:
  • 不是很稳定,需要注意答案提出率
  • BBH - Language:
  • 不是很稳定,需要注意答案提出率 — Chain-of-thought Hub 马上会出一个答案提出率对于结果的 sensitivity 的分析,结论是 BBH 比较 sensitive
  • 现在除了增大模型之外,还不清楚哪些操作可以增加 BBH 数据集上的分数
  • Coding:
  • Human Eval / MBPP: 似乎比较稳定但需要注意做 unbiased estimation
  • 先看上面的几个数据集,分数能够 match llama 之后,就看 MATH
  • MATH
  • 超级难,GPT-4 的分数
  • naive prompting: 42
  • → complexity based prompting: 50 https://openreview.net/forum?id=yf1icZHC-l9
  • → progressive hint prompting: 53 https://arxiv.org/abs/2304.09797
  • → majority voting over 18k: 69.6
  • → best of n with outcome based reward modeling: 72.4
  • → best of n with [process-based reward modeling](https://arxiv.org/abs/2305.20050): 78.2
  • → PPO + process-based reward modeling = ? 推测会上 90
  • 泛化?— 应该是比较强的,泛化一般而言跟基础模型大小正相关,跟 SFT 数据总量负相关,跟 SFT 数据丰富度正相关
  • 如果不是 GPT-4
  • Minerva / PaLM-2: 34.3
  • Galactica: 33.6 — 这篇文章操作很好,因为 Hallucination 被喷下架导致重要性被严重低估
  • 88B paper + 7B code + 7B encyclopedias, textbooks and educational material + 2B KB + 1B CC + 0.4B prompt /instruction * 4 epochs
  • LLaMA 65B: 10.6
  • 其他:低于 10 分

对于一个已经 finetune 成了 chatbot 的模型

  • 首先把上述 benchmark 用 few-shot 的方式过一遍,确保不要掉点
  • 如果只是 dialog finetuning 的话可能会伤已有的能力 (MMLU / BBH)
  • 如果掉点,则考虑 LM mixing / FLANv2 mixing
  • 注意 Chatbot 的 few-shot prompting 要用 dialog 的版本因为 single round 里塞很多 in-context example 模型可能不 instruction-following 不够强,见 CoT Hub 的 standard prompt library(https://github.com/FranxYao/chain-of-thought-hub/blob/main/spl/gsm8k/chat/few_shot_cot.chatml)
  • 然后就是去 eval 用户偏好了,这个时候只能人做
  • 如果有很大的,已经训练好了的 reward model,可以用它 eval 上线的小型 / 中等模型,这个其实跟人做 eval 区别不大
  • 对于一个很大的 Policy Model
  • Online iterative RLHF 前期怎样都需要需要 expert eval
  • 后期需要 expert eval [with AI assistance](https://arxiv.org/abs/2206.05802)

那么能不能用稍微弱一点的模型做 eval 呢?— 可以用,但是注意 query 的难度和分布,注意 prompt engineering

  • 如果不经过 prompt engineering ,肯定不行,因为各种 bias
  • 如果 query 难度不够,diversity 不够,也不一定行
  • 如果 query 难度足够 + 经过了疯狂 prompt engineering,则对于 information seeking 类型的 eval ,或许可以,see https://arxiv.org/abs/2306.05685
  • 但是对于 reasoning 相关,non-information seeking 相关(比如 TLDR),又不一定行
  • 对于 information seeking 相关的 query 会 biased 到长的回复

回复越长,GPT-4 越喜欢,分越高

4 - FLANv2 的效果,Long-Context

FLANv2 是一个很神奇的数据集,它除了不加 user preference 之外什么都加

  • 注意 CoT prompting
  • 只在 62B 之后才会比 Direct 更好
  • 不加 knowledge (MMLU) 只加 reasoning (BBH)
  • FLANv2 增加的效果有
  • knowledge (MMLU)
  • reasoning (BBH)
  • Multilingual (TyDiQA / MGSM)
  • 注意 FLAN 的作者们验证过,没有数据泄露
  • 注意以上内容对 in-context learning 和 zero-shot 均成立
  • 但是 FLAN 的回复短,所以不加 user preference — Flan 的性格就像直男,能干活儿,话太少

注意区分数据泄漏和分布内泛化

  • 如果一个数据集的测试集被用来训练模型,叫做数据泄漏,此时模型的分数会特别高,不可信
  • 如果一个数据集的训练集被用来训练模型,叫做分布内泛化,此时模型的分数是可信的
  • 有些数据集分布内泛化的难度不高,比如 MMLU / C-Eval,基本上做 data scaling 就可以加分
  • 有些数据集,如果模型不强,即使看过了训练集,模型在测试集上也做不好,比如 GSM8K — 这种类型的数据集是优质 eval 数据集
  • 代码的难度可能介于 MMLU 和 GSM8k 之间,分布内泛化不像 GSM8K 那么难,但也不简单

然后根据最近Zero-Scrolls 上的数据(https://www.zero.scrolls-benchmark.com/leaderboard),FLAN 还可以加 Long-context Reasoning ,不知道为什么

注意这里 FlanT5 和 T0pp 只有 instruction 的数据集有区别,但是 FlanT5 仅靠 T5 的 relative positional encoding 来 naively scale 到 8k 的 context length 会显著高于 T0

Long Context 或许 data engineering 跟 neural architecture engineering 同样重要

5 - 代码

两篇文章的 data engineering 非常出色

  • WizardCoder: Empowering Code Large Language Models with Evol-Instruct
  • 通过不断 prompt AlpacaCoder 构造 instruction tuning 数据集,基于wizardlm的方法,使用了 chatgpt 来生成复杂指令和对应的回答
  • HumanEval,DS-1000 仅次于 GPT-4,超过 Claude / Bard
  • base model 用的是 StarCoder,这意味着 The Stack V3 的质量再次得到验证,同时注意 pretrain code data 可以过多个 epoch 但网页只过一个 epoch
  • Phi-1: Textbooks Are All You Need
  • Pretrain 数据集来源于 filtered code + prompt ChatGPT
  • Instruction tuning 的数据集来自于 prompt ChatGPT
  • base model 只有 1B

怎么评价

  • 一定要好好研究他们是如何 prompt base model 的 — 要对 base model 有信心,只要 MMLU / BBH / HumanEval 分高,它的潜力就超过你的想象
  • prompt 出来的数据集相当于给 HumanEval / MBPP 这种比较短的算法题搞了一个超大训练集
  • 但是不可以认为它对着测试集优化,因为它泛化的空间应该大于 HumanEval / MBPP — 这个泛化空间跟 model scale 显著正相关
  • 在此基础上,比较难的点是
  • Repo-level code understanding /completion — HumanEval / MBPP 还是有点短
  • Ability balance — 如果照着 Phi-1 的做法,除了代码之外的其他能力都会被冲掉

另外关于代码和文本的 data mixture: https://arxiv.org/abs/2305.16264

Continue training 时使用 50% 的代码作为 data mixture 不会伤模型 language 的能力,反而会提升 coding 和 reasoning

6 - Putting them together: 能力平衡

目标:

  • 构造一个 instruction tuning data mixture,使得 dialog /coding 增加
  • 同时 MMLU (English knowledge) / C-Eval (Chinese knowledge) / BBH and GSM8K (reasoning) 不掉点
  • In-context learning 不掉点

思路

  • 可以用 FLAN 打底 — 它非常大几乎相当于 continue training 考虑做一个中文版的 FLAN — 最近智源发的COIG-PC(https://huggingface.co/datasets/BAAI/COIG-PC) 似乎有点像
  • code 的部分参照 WizardCoder 和 Phi-1 的做法
  • 以上数据做好之后,搜 instruction tuning 的 data mixture and data curriculum 的超参数
  • 用上面提到的方法做 Eval

7 - 总结

  • 现阶段 instruction tuning 核心问题是能力平衡
  • 基础能力的 Eval 可以参照 Chain-of-thought Hub,但 dialog 还是得人来,且人也不一定 eval 得足够好
  • FLAN 非常神奇,可以考虑做一个中文版
  • 抓紧把 instruction tuning 收尾,快点进到 reward modeling 阶段
  • 注意要先把 reward modeling 本身做好,确保 reward model 有判断力,再去做 PPO
  • 不要 reward model 还没搞清楚就上 PPO ,步子迈太大容易扯到

原文链接:https://yaofu.notion.site/6dafe3f8d11445ca9dc

8a2ca1c5b199

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Baichuan2模型部署运行
我们在通用、法律、医疗、数学、代码和多语言翻译六个领域的中英文和多语言权威数据集上对模型进行了广泛测试。
Freedom123
2024/03/26
4020
复杂推理:大语言模型的北极星能力
机器之心发布 作者:符尧 符尧(yao.fu@ed.ac.uk),爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学。本文原文为英文,由作者与 GPT-4 交互翻译为中文。感谢艾伦人工智能研究所 彭昊,Tushar Khot 的深入讨论。 最近,很多关于较小模型的研究取得了令人振奋的对话能力,这让人们想象,是否较小的模型能具有与像 GPT-3.5 这样的大型模型相当的性能。一般来说,语言模型具有多维能力,所以模型之间的相互对比较为困难。找到正确的衡量标准对于开发强大的
机器之心
2023/05/09
5190
复杂推理:大语言模型的北极星能力
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
大语言模型(LLM)评测是LLM开发和应用中的关键环节。目前评测方法可以分为人工评测和自动评测,其中,自动评测技术相比人工评测来讲,具有效率高、一致性好、可复现、鲁棒性好等特点,逐渐成为业界研究的重点。
汀丶人工智能
2024/05/26
3.2K0
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
13948道题目,涵盖微积分、线代等52个学科,上交清华给中文大模型做了个测试集
机器之心发布 作者:符尧、何俊贤 本项目由上海交通大学,清华大学,爱丁堡大学共同完成。 ChatGPT 的出现,使中文社区意识到与国际领先水平的差距。近期,中文大模型研发如火如荼,但中文评价基准却很少。 在 OpenAI GPT 系列 / Google PaLM 系列 / DeepMind Chinchilla 系列 / Anthropic Claude 系列的研发过程中,MMLU / MATH / BBH 这三个数据集发挥了至关重要的作用,因为它们比较全面地覆盖了模型各个维度的能力。最值得注意的是 MM
机器之心
2023/05/31
4240
13948道题目,涵盖微积分、线代等52个学科,上交清华给中文大模型做了个测试集
华人科学团队推出「思维链集」,全面测评大模型复杂推理能力
然而,越来越多的研究人员声称,小于10B的模型也可以实现与GPT-3.5相当的性能。
新智元
2023/08/07
6150
华人科学团队推出「思维链集」,全面测评大模型复杂推理能力
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
本文尝试梳理一个完整的多模态LLM的训练流程。包括模型结构选择、数据预处理、模型预训练、指令微调、对齐、融合多模态以及链接外部系统等环节。
zenRRan
2023/08/22
7K0
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
一篇关于LLM指令微调的综述
指令微调(IT)是提高大型语言模型(LLM)能力和可控性的关键技术。其本质是指在由(INSTRUCTION, OUTPUT)对组成的数据集上以监督的方式进一步训练LLM的过程,它弥合了LLM的下一个词预测目标与用户让LLM遵循人类指令的目标之间的差距。这篇文章对现有研究进行了系统的回顾、包括IT的一般方法、IT数据集的构建、IT模型的训练、以及不同模式,领域和应用的应用。
zenRRan
2023/09/11
7.1K0
一篇关于LLM指令微调的综述
幻方发布全球最强MOE大模型! DeepSeek-V2
仓库和技术报告地址:https://github.com/deepseek-ai/DeepSeek-V2 来自:包包算法笔记 EMNLP2024投稿群建立!
zenRRan
2025/02/03
2610
幻方发布全球最强MOE大模型! DeepSeek-V2
扩展指令微调语言模型
今天为大家介绍的是来自google研究团队的一篇大型语言模型的论文。在以指令形式构建的数据集上对语言模型进行微调已被证明可以提高模型的性能,并增强其对未见任务的泛化能力。文章重点探讨指令微调的几个方面:(1)任务数量的扩展,(2)模型规模的扩展,以及(3)链式思考数据上的微调。实验发现,以上几个方面的指令微调显著提升了多个模型类别(PaLM、T5、U-PaLM)、评估设置(零样本、少样本、链式思考)和评估基准(MMLU、BBH、TyDiQA、MGSM、开放式生成、真实毒性提示)的性能。
DrugAI
2023/09/19
4050
扩展指令微调语言模型
打起来了~ 最小SOTA模型:Mistral 7B,各方面碾压LLaMA2 13B和LLaMA1 34B
Mistral AI团队自豪地发布了Mistral 7B,这是迄今为止尺寸最小的最强大的语言模型。
zenRRan
2023/10/02
2.5K0
打起来了~ 最小SOTA模型:Mistral 7B,各方面碾压LLaMA2 13B和LLaMA1 34B
Llama 2高调开源颠覆大模型圈!2万亿token训练,打不过GPT3.5
继LLaMA开源后,Meta今天联手微软高调开源Llama 2,一共有7B、13B、70B三个版本。
新智元
2023/08/07
7240
Llama 2高调开源颠覆大模型圈!2万亿token训练,打不过GPT3.5
AIGC | 打通大模型私有化定制的最后一公里:PromptBench基准测试
PromptBench是微软研究人员设计的一个用于测量大型语言模型(LLM)对抗性提示鲁棒性的基准测试。
AIGC新知
2024/10/08
2060
AIGC | 打通大模型私有化定制的最后一公里:PromptBench基准测试
每天都看模型评分,但你真的了解吗?OpenAI研究员最新博客,一文读懂LLM评估
上周六,OpenAI研究院Jason Wei在个人网站上发表了一篇博客,讨论了他眼中「成功的语言模型评估」应该具备哪些因素,并总结出了阻碍好的评估在NLP社区获得关注的「七宗罪」。
新智元
2024/06/05
2740
每天都看模型评分,但你真的了解吗?OpenAI研究员最新博客,一文读懂LLM评估
【LLM系列之FLAN-T5/PaLM】Scaling Instruction-Finetuned Language Models
本文分析了使用“指令数据”对语言模型进行微调所带来的改进,涉及缩放 :1)增加微调任务,2) 增大模型大小,以及 (3) 添加思维链数据。Google 研究人员2022年10月发布了这篇论文,我们今天将对这篇文章重新阅读,本篇论文分析了如何指令微调大型语言模型以及带来的性能提升。
致Great
2023/08/25
6590
【LLM系列之FLAN-T5/PaLM】Scaling Instruction-Finetuned Language Models
谷歌又闹大乌龙!Jeff Dean参与的新模型竟搞错Hinton生日
「我们新开源的语言模型Flan-T5,在对1,800多种语言的任务进行指令微调后,显著提高了prompt和多步推理的能力。」
新智元
2023/01/06
2390
谷歌又闹大乌龙!Jeff Dean参与的新模型竟搞错Hinton生日
2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini nano
11月OpenAI先是用GPTs革了套壳GPT们的命,然后再不惜献祭董事会搏了一波天大的流量。
新智元
2023/12/14
3380
2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini nano
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
这两天有个新模型引起了不少关注,那就是DeepSeek-Coder-V2。这个模型是DeepSeek-Coder的最新升级版,相比之前的版本有了很大的提升,特别是在编码任务方面的表现令人惊艳。
AI进修生
2024/12/02
1.9K0
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
《书生大模型实战营第3期》基础岛 第1关 :书生大模型全链路开源体系
[2024.07.19] 我们发布了 1.8B、7B 和 20B 大小的 InternLM2-Reward 系列奖励模型。可以在下方的 模型库 进行下载,或者在 model cards 中了解更多细节。
流川疯
2024/08/05
1740
《书生大模型实战营第3期》基础岛 第1关 :书生大模型全链路开源体系
Hugging Face牵头,42位作者发文,1939个prompt,大幅提升Zero-Shot性能!
文 | JayJay 前几天,JayJay刷到一篇NB的paper《Multitask Prompted Training Enables Zero-Shot Task Generalization》,共有42位作者参与,实属巨制: 这篇论文由Hugging Face牵头,如果用一连串数字来概括这篇论文,我们就会发现“大力真的可以创造奇迹”: 一共收集了171个多任务数据集,总共创建了1939个prompt,平均每个数据集有11.3个prompt; 共有来自8个国家、24家机构的36位人员贡献prompt
AI科技评论
2023/04/26
3110
Hugging Face牵头,42位作者发文,1939个prompt,大幅提升Zero-Shot性能!
常见的大模型评测数据集
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
码之有理
2024/01/16
8.4K0
推荐阅读
Baichuan2模型部署运行
4020
复杂推理:大语言模型的北极星能力
5190
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
3.2K0
13948道题目,涵盖微积分、线代等52个学科,上交清华给中文大模型做了个测试集
4240
华人科学团队推出「思维链集」,全面测评大模型复杂推理能力
6150
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
7K0
一篇关于LLM指令微调的综述
7.1K0
幻方发布全球最强MOE大模型! DeepSeek-V2
2610
扩展指令微调语言模型
4050
打起来了~ 最小SOTA模型:Mistral 7B,各方面碾压LLaMA2 13B和LLaMA1 34B
2.5K0
Llama 2高调开源颠覆大模型圈!2万亿token训练,打不过GPT3.5
7240
AIGC | 打通大模型私有化定制的最后一公里:PromptBench基准测试
2060
每天都看模型评分,但你真的了解吗?OpenAI研究员最新博客,一文读懂LLM评估
2740
【LLM系列之FLAN-T5/PaLM】Scaling Instruction-Finetuned Language Models
6590
谷歌又闹大乌龙!Jeff Dean参与的新模型竟搞错Hinton生日
2390
2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini nano
3380
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
1.9K0
《书生大模型实战营第3期》基础岛 第1关 :书生大模型全链路开源体系
1740
Hugging Face牵头,42位作者发文,1939个prompt,大幅提升Zero-Shot性能!
3110
常见的大模型评测数据集
8.4K0
相关推荐
Baichuan2模型部署运行
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档