前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >又一国产大模型来了,超对称联合复旦大学发布 120 亿参数语言模型 BBT-2, 已开源

又一国产大模型来了,超对称联合复旦大学发布 120 亿参数语言模型 BBT-2, 已开源

作者头像
深度学习与Python
发布2023-04-30 18:11:06
3900
发布2023-04-30 18:11:06
举报
文章被收录于专栏:深度学习与python

作者 | 刘燕

InfoQ 获悉,近日,超对称联合复旦大学发布并开源 120 亿参数语言模型 BBT-2。

2022 年 5 月超对称技术公司发布了大语言模型 Big Bang Transformer【乾元】的第一版 BBT-1,10 亿参数预训练语言模型,在中文金融语料上训练而成。近期,超对称公司再推出 BBT-2,120 亿参数的通用大语言模型,并在 BBT-2 的基础上训出代码,金融,文生图等专业模型。

据悉,Big Bang Transformer【乾元】12B 大模型的开发基于英伟达的 DGX 算力,超对称公司主导大模型的预训练,并联合复旦大学知识工场实验室完成指令微调和评测工作。

超对称技术公司将发布基于 BBT-2 的系列模型(模型 Index 见于 https://bbt.ssymmetry.com)

  • BBT-2-12B-Text:120 亿参数的中文基础模型
  • BBT-2.5-13B-Text: 130 亿参数的中文 + 英文双语基础模型
  • BBT-2-12B-TC-001-SFT  经过指令微调的代码模型,可以进行对话
  • BBT-2-12B-TF-001 在 120 亿模型上训练的金融模型,用于解决金融领域任务
  • BBT-2-12B-Fig:文生图模型
  • BBT-2-12B-Science 科学论文模型

另外,通过与 UCloud 在开源方面的合作,超对称还将 3 个大模型开源到官网、Github 和 UCloud,后续用户可直接在 UCloud 官方平台通过 GPU 云主机的行业镜像或算力平台直接开箱使用这些模型:

  • BBT-1-0.2B:2 亿参数金融模型,包括三个不同预训练方式进行训练的模型, 训了 600 亿 Tokens:

(1)BBT-1-0.2B-001:2 亿参数,金融模型,T5 Decoder+Encoder 架构

(2)BBT-1-0.2B-002: 2 亿参数,金融模型,T5+GPT

(3)BBT-1-0.2B-003: 2 亿参数,金融模型,T5+UL2

  • BBT-1-1B:10 亿参数金融模型,T5 Encoder+Decoder 架构,使用金融中文语料库 1000 亿 tokens 进行预训练,包含社交媒体,财经新闻,券商研报,公司公告财报等数据
  • BBT-2-12B-Text:120 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿 token 预训练,模型性能还有较大提升空间,开发者可在通用模型上继续训练或进行下游任务微调
  • BBT-2.5-13B-Text: 130 亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成 2000 亿中文 + 英文 tokens 预训

开源下载链接:

模型:

  • 官网:https://bbt.ssymmetry.com/model.html
  • Github:https://github.com/ssymmetry

语料库,开源了接近 1000 亿 tokens 的预训练语料,包括通用语料和金融语料,详见:

  • https://bbt.ssymmetry.com/data.html
  • 评测数据集,开源了 8 个中文金融大模型的评测数据集,详见:

https://bbt.ssymmetry.com/evaluation.html

论文链接

https://arxiv.org/abs/2302.09432

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

ChatGPT写21个程序,16个有漏洞:离取代程序员还远着呢!

华为投入数千人实现自主可控ERP;SpaceX星舰爆炸了,马斯克:祝贺!谷歌合并两大人工智能部门,加速力战ChatGPT|Q资讯

马斯克将起诉微软,称其使用 Twitter 数据“非法”训练GPT,吃瓜网友:事情变得更有趣了!

谷歌或被抛弃!ChatGPT 引爆手机市场新一轮洗牌:Android 手机销冠三星30亿美元大单欲改投 Bing

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-04-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档