前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >智源开放3亿条语义向量模型训练数据, BGE模型持续迭代更新

智源开放3亿条语义向量模型训练数据, BGE模型持续迭代更新

作者头像
机器之心
发布于 2023-09-19 02:10:14
发布于 2023-09-19 02:10:14
1.7K0
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

机器之心编辑部

伴随着大模型开发和应用的火热发展,作为大模型核心基础组件的 Embedding 重要性愈发凸显。智源于一月前发布的开源可商用中英文语义向量模型 BGE(BAAI General Embedding)在社区收获颇高关注度,Hugging Face 累计下载量达到数十万。当前,BGE 快速迭代推出 1.5 版本并公布多项更新,其中,BGE 首次开源 3 亿条大规模训练数据,帮助社区训练同类模型,推动该领域技术发展。

  • MTP数据集链接:https://data.baai.ac.cn/details/BAAI-MTP
  • BGE 模型链接:https://huggingface.co/BAAI
  • BGE 代码仓库:https://github.com/FlagOpen/FlagEmbedding

3 亿中英向量模型训练数据开放

业界语义向量模型训练数据首次开源,达 3 亿中英文数据。

BGE 的出色能力很大程度上源于其大规模、多样化的训练数据。此前,业界同行鲜有发布同类数据集。在本次更新中,智源首次将 BGE 的训练数据向社区予以开放,为推动此类技术进一步发展打下了基础。

此次发布的数据集 MTP 由总计 3 亿条中英文关联文本对构成;其中,中文记录达 1 亿条,英文数据达 2 亿条。数据收集自 Wudao Corpora、Pile、DuReader、Sentence Transformer 等语料,经过必要的采样、抽取、清洗获得。

详细细节请参考 Data Hub:https://data.baai.ac.cn

MTP 为迄今开源的最大规模中英文关联文本对数据集,为训练中英文语义向量模型提供重要基础。

响应开发者社区,BGE 功能升级

基于社区反馈,BGE 在其 1.0 的版本之上进行了进一步优化,其表现更加稳健、出色。具体升级如下:

  • 模型更新。BGE-*-zh-v1.5 缓解了相似度分布问题,通过对训练数据进行过滤,删除低质量数据,提高训练时温度系数 temperature 至 0.02,使得相似度数值更加平稳 。
  • 新增模型。开源 BGE-reranker 交叉编码器模型,可更加精准找到相关文本,支持中英双语。不同于向量模型需要输出向量,BGE-reranker 直接文本对输出相似度,排序准确度更高,可用于对向量召回结果的重新排序,提升最终结果的相关性。
  • 新增功能。BGE1.1 增加难负样本挖掘脚本,难负样本可有效提升微调后检索的效果;在微调代码中增加在微调中增加指令的功能;模型保存也将自动转成 sentence transformer 格式,更方便模型加载。

值得一提的是,日前,智源联合 Hugging Face 发布了一篇技术报告,报告提出用 C-Pack 增强中文通用语义向量模型。

《C-Pack: Packaged Resources To Advance General Chinese Embedding》

链接:https://arxiv.org/pdf/2309.07597.pdf

在开发者社区收获高热度

BGE 发布自以来受到大模型开发者社区关注,目前 Hugging Face 累计下载量达到数十万,且已被 LangChain、LangChain-Chatchat、llama_index 等知名开源项目集成。

Langchain 官方、LangChain 联合创始人兼首席执行官 Harrison Chase、Deep trading 创始人 Yam Peleg 等社区大 V 对 BGE 表示关注。

坚持开源开放,促进协同创新,智源大模型技术开体系 FlagOpen BGE 新增 FlagEmbedding 新版块,聚焦于 Embedding 技术和模型,BGE 是其中明星开源项目之一。FlagOpen 致力于打造大模型时代的 AI 技术基础设施,未来将持续向学术界和产业界开源更为完整的大模型全栈技术。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-15 13:04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对
9月15日,北京人工智能产业峰会暨中关村科学城科创大赛颁奖典礼现场,智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP(massive text pairs)。
新智元
2023/09/19
6171
智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对
玩转RAG应用:如何选对Embedding模型?
在打造检索增强生成(RAG)应用时,选择合适的Embedding模型就像挑选合适的工具,直接影响到应用的表现和效果。​那么,面对众多的模型,我们该如何轻松找到最适合的那一款呢?​
致Great
2025/03/19
1.7K0
玩转RAG应用:如何选对Embedding模型?
BGE M3-Embedding 模型介绍
BGE M3-Embedding来自BAAI和中国科学技术大学,是BAAI开源的模型。相关论文在https://arxiv.org/abs/2402.03216,论文提出了一种新的embedding模型,称为M3-Embedding,它在多语言性(Multi-Linguality)、多功能性(Multi-Functionality)和多粒度性(Multi-Granularity)方面表现出色。M3-Embedding支持超过100种工作语言,支持8192长度的输入文本,同时支持密集检索(Dense Retrieval)、多向量检索(Multi-Vector Retrieval)和稀疏检索(Sparse Retrieval),为现实世界中的信息检索(IR)应用提供了统一的模型基础,通过这几种检索方式的组合,取得了良好的混合召回效果。
JadePeng
2024/04/19
11.3K0
BGE M3-Embedding 模型介绍
语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度
语义向量模型(Embedding Model)已经被广泛应用于搜索、推荐、数据挖掘等重要领域。在大模型时代,它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要技术。然而,当前中文世界的高质量语义向量模型仍比较稀缺,且很少开源
汀丶人工智能
2024/07/09
7690
语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度
智源开源最强语义向量模型BGE!中英文测评全面超过OpenAI、Meta
语义向量模型(Embedding Model)已经被广泛应用于搜索、推荐、数据挖掘等重要领域。
新智元
2023/09/09
6.3K1
智源开源最强语义向量模型BGE!中英文测评全面超过OpenAI、Meta
Rerank进一步提升RAG效果
目前大模型应用中,RAG(Retrieval Augmented Generation,检索增强生成)是一种在对话(QA)场景下最主要的应用形式,它主要解决大模型的知识存储和更新问题。
Steve Wang
2024/05/16
2K0
Rerank进一步提升RAG效果
又一届「AI春晚」拉开序幕!智源大模型集体爆发了
20+ 个不同主题的论坛、百场精彩报告让现场和线上的观众目不暇接,切实感受到了当下 AI 尤其是大模型对内容创作、生产办公、机器人、生物医疗等千行百业的深度赋能。
机器之心
2024/06/17
1680
又一届「AI春晚」拉开序幕!智源大模型集体爆发了
像调鸡尾酒一样调制多技能大模型,智源等机构发布LM-Cocktail模型治理策略
随着大模型技术的发展与落地,「模型治理」已经成为了目前受到重点关注的命题。只不过,在实践中,研究者往往感受到多重挑战。
机器之心
2023/12/12
2520
像调鸡尾酒一样调制多技能大模型,智源等机构发布LM-Cocktail模型治理策略
智源BGE-VL拍照提问即可精准搜,1/70数据击穿多模态检索天花板!
近日,智源研究院联合多所高校开发了多模态向量模型BGE-VL,进一步扩充了原有生态体系。BGE-VL在图文检索、组合图像检索等主要多模态检索任务中均取得了最佳效果。
新智元
2025/03/06
1400
智源BGE-VL拍照提问即可精准搜,1/70数据击穿多模态检索天花板!
全面提升 RAG 质量!Zilliz 携手智源集成 Sparse Embedding、Reranker 等多种 BGE 开源模型
近期,Zilliz 与智源研究院达成合作,将多种 BGE(BAAI General Embedding) 开源模型与开源向量数据库 Milvus 集成。得益于 Milvus 2.4 最新推出的 Sparse Vector(稀疏向量)和 Multi-vector(多向量)支持,开发者获得了多种选择,不仅有业界广泛采用的 Dense Embedding(稠密向量模型),还能使用 BGE 最新推出的 Sparse Embedding(稀疏检索模型)、Reranker(重排序) 模型。开发者可以轻松组合这些工具构建更加强大的召回方案,覆盖语义检索、全文检索和精排的能力。
Zilliz RDS
2024/04/30
1.3K0
全面提升 RAG 质量!Zilliz 携手智源集成 Sparse Embedding、Reranker 等多种 BGE 开源模型
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型知识库项目。
汀丶人工智能
2024/05/07
1.7K0
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
代码、多模态检索全面登顶SOTA!智源BGE向量模型三连击,并全面开放
检索增强技术在代码及多模态场景中的发挥着重要作用,而向量模型是检索增强体系中的重要组成部分。针对这一需求,近日,智源研究院联合多所高校研发了三款向量模型,包括代码向量模型 BGE-Code-v1,多模态向量模型 BGE-VL-v1.5 以及视觉化文档向量模型 BGE-VL-Screenshot。这些模型取得了代码及多模态检索的最佳效果,并以较大优势登顶 CoIR、Code-RAG、MMEB、MVRB 等领域内主要测试基准。BGE 自 2023 年 8 月发布以来,已成为中国首个登顶 Hugging Face 榜首的国产 AI 模型以及 2023 年所有发布模型的全球下载量冠军。
机器之心
2025/05/21
3050
代码、多模态检索全面登顶SOTA!智源BGE向量模型三连击,并全面开放
基于 Milvus + LlamaIndex 实现高级 RAG
随着大语言模型(LLM)技术的发展,RAG(Retrieval Augmented Generation)技术得到了广泛探讨和研究,越来越多的高级 RAG 检索方法也随之被人发现,相对于普通的 RAG 检索,高级 RAG 通过更深化的技术细节、更复杂的搜索策略,提供出了更准确、更相关、更丰富的信息检索结果。本文首先讨论这些技术,并基于 Milvus 给出一个实现案例。
Zilliz RDS
2024/05/31
9590
基于 Milvus + LlamaIndex 实现高级 RAG
【AI大模型】LLM主流开源大模型介绍
随着ChatGPT迅速火爆,引发了大模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款大模型发布及应用。
小言从不摸鱼
2024/09/24
5730
【AI大模型】LLM主流开源大模型介绍
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型知识库项目。
汀丶人工智能
2024/05/06
1.2K0
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
王小川大模型首亮相!70亿参数霸榜,清北抢先用|独家专访
时隔两个月,王小川组建的「百川智能」在6月15日正式推出首个70亿参数中英文预训练大模型——baichuan-7B。
新智元
2023/08/05
2610
王小川大模型首亮相!70亿参数霸榜,清北抢先用|独家专访
Anything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答
QAnything (Question and Answer based on Anything) 是致力于支持任意格式文件或数据库的本地知识库问答系统,可断网安装使用。
汀丶人工智能
2024/01/24
1.8K0
Anything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答
QAnything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答
QAnything (Question and Answer based on Anything) 是致力于支持任意格式文件或数据库的本地知识库问答系统,可断网安装使用。
汀丶人工智能
2024/01/22
2K0
QAnything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答
M3E 可能是最强大的开源中文嵌入模型
最近在研究和部署使用 LangChain + LLM(ChatGPT/ChatGLM) 构建企业专有知识库时,接触到两个 embedding (嵌入)模型:text2vec,m3e-base。‍‍‍‍
技术人生黄勇
2024/07/19
2.3K0
M3E 可能是最强大的开源中文嵌入模型
揭秘「 B 站最火的 RAG 应用」是如何炼成的
近日,bilibili 知名科技 UP 主“Ele 实验室”发布了一个视频,标题为“当我开发出史料检索 RAG 应用,正史怪又该如何应对?” 。
Zilliz RDS
2024/03/02
6180
揭秘「 B 站最火的 RAG 应用」是如何炼成的
推荐阅读
智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对
6171
玩转RAG应用:如何选对Embedding模型?
1.7K0
BGE M3-Embedding 模型介绍
11.3K0
语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度
7690
智源开源最强语义向量模型BGE!中英文测评全面超过OpenAI、Meta
6.3K1
Rerank进一步提升RAG效果
2K0
又一届「AI春晚」拉开序幕!智源大模型集体爆发了
1680
像调鸡尾酒一样调制多技能大模型,智源等机构发布LM-Cocktail模型治理策略
2520
智源BGE-VL拍照提问即可精准搜,1/70数据击穿多模态检索天花板!
1400
全面提升 RAG 质量!Zilliz 携手智源集成 Sparse Embedding、Reranker 等多种 BGE 开源模型
1.3K0
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
1.7K0
代码、多模态检索全面登顶SOTA!智源BGE向量模型三连击,并全面开放
3050
基于 Milvus + LlamaIndex 实现高级 RAG
9590
【AI大模型】LLM主流开源大模型介绍
5730
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
1.2K0
王小川大模型首亮相!70亿参数霸榜,清北抢先用|独家专访
2610
Anything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答
1.8K0
QAnything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答
2K0
M3E 可能是最强大的开源中文嵌入模型
2.3K0
揭秘「 B 站最火的 RAG 应用」是如何炼成的
6180
相关推荐
智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档