2024年3月,Anthropic 宣布了 Claude 3 型号系列,其中包括极具性价比的 Haiku, 具有 200k 上下文窗口、图像、视频和文本的多模式功能,支持快速响应的应用场景,例如客户支持、内容审核和物流应用程序。Anthropic之前以成本和性能为重点的模型是Claude Instant 1.2,于2023年8月发布。
2024年2月底,NVIDIA 研究人员发布了 Nemotron-4 15B 的技术报告,这是其最新的、尚未发布的基础模型。它基于仅解码器转换器架构,使用旋转位置嵌入和 SentencePiece 分词器进行了优化,并在 8 万亿个文本标记上进行了训练。它支持 54 种自然语言和 43 种编程语言。其前身 Nemotron-3 8B 系列自 2023 年 11 月起根据 NVIDIA AI Foundation 模型社区许可协议上市,具有 Base、3 Chat 和 1 Q&A 版本。
2023 年 12 月,Stability AI 的 Stable LM Zephyr 3B 发布,这是 StableLM 3B 的微调版本,训练类似于 Hugging Face 的 Zephyr 7B 测试版模型。
2023 年 7 月,Meta 的 Llama-2 系列的 7B 版本推出,同时推出的还有更大的 13B 和 70B。它具有 4k 的上下文窗口和纯文本支持,基于编码器-解码器架构构建。
Tiny Llama是由新加坡科技与设计大学的StatNLP研究小组开发的一个拥有11亿参数的模型。它在2023年8月至12月之间使用与Llama 2相同的架构和分词器训练了3万亿个tokens。
Zephyr 7B 于 2023 年 10 月发布,由 Hugging Face 创建,旨在提高小型模型的任务准确性和对齐性。
领取专属 10元无门槛券
私享最新 技术干货