又一国产大模型来了，超对称联合复旦大学发布 120 亿参数语言模型 BBT-2，已开源

深度学习与Python

发布于 2023-04-30 18:11:06

3900

发布于 2023-04-30 18:11:06

文章被收录于专栏：深度学习与python

作者 | 刘燕

InfoQ 获悉，近日，超对称联合复旦大学发布并开源 120 亿参数语言模型 BBT-2。

2022 年 5 月超对称技术公司发布了大语言模型 Big Bang Transformer【乾元】的第一版 BBT-1，10 亿参数预训练语言模型，在中文金融语料上训练而成。近期，超对称公司再推出 BBT-2，120 亿参数的通用大语言模型，并在 BBT-2 的基础上训出代码，金融，文生图等专业模型。

据悉，Big Bang Transformer【乾元】12B 大模型的开发基于英伟达的 DGX 算力，超对称公司主导大模型的预训练，并联合复旦大学知识工场实验室完成指令微调和评测工作。

超对称技术公司将发布基于 BBT-2 的系列模型（模型 Index 见于 https://bbt.ssymmetry.com）

BBT-2-12B-Text：120 亿参数的中文基础模型
BBT-2.5-13B-Text: 130 亿参数的中文 + 英文双语基础模型
BBT-2-12B-TC-001-SFT 经过指令微调的代码模型，可以进行对话
BBT-2-12B-TF-001 在 120 亿模型上训练的金融模型，用于解决金融领域任务
BBT-2-12B-Fig：文生图模型
BBT-2-12B-Science 科学论文模型

另外，通过与 UCloud 在开源方面的合作，超对称还将 3 个大模型开源到官网、Github 和 UCloud，后续用户可直接在 UCloud 官方平台通过 GPU 云主机的行业镜像或算力平台直接开箱使用这些模型：

BBT-1-0.2B：2 亿参数金融模型，包括三个不同预训练方式进行训练的模型, 训了 600 亿 Tokens：

（1）BBT-1-0.2B-001：2 亿参数，金融模型，T5 Decoder+Encoder 架构

（2）BBT-1-0.2B-002: 2 亿参数，金融模型，T5+GPT

（3）BBT-1-0.2B-003: 2 亿参数，金融模型，T5+UL2

BBT-1-1B：10 亿参数金融模型，T5 Encoder+Decoder 架构，使用金融中文语料库 1000 亿 tokens 进行预训练，包含社交媒体，财经新闻，券商研报，公司公告财报等数据
BBT-2-12B-Text：120 亿参数基础模型，GPT Decoder-Only 架构，未经指令微调，完成 2000 亿 token 预训练，模型性能还有较大提升空间，开发者可在通用模型上继续训练或进行下游任务微调
BBT-2.5-13B-Text: 130 亿参数基础模型，GPT Decoder-Only 架构，未经指令微调，完成 2000 亿中文 + 英文 tokens 预训

开源下载链接：

模型：