Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >搜索与问答——【NeurIPS 2021】BEIR:信息检索模型零样本评估的异构基准

搜索与问答——【NeurIPS 2021】BEIR:信息检索模型零样本评估的异构基准

作者头像
小爷毛毛_卓寿杰
发布于 2022-09-30 06:35:24
发布于 2022-09-30 06:35:24
1.3K00
代码可运行
举报
文章被收录于专栏:Soul Joy HubSoul Joy Hub
运行总次数:0
代码可运行

介绍

论文 BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models 中,作者提出了一种无需训练数据,即可学习(或适应)非对称语义搜索模型的方法。

在非对称语义搜索中,用户提供一个(简短的)查询,如一些关键字或问题。然后我们想要检索提供答案的更长的文本段落。

例如:

query: What is Python? passage to retrieve: Python is an interpreted, high-level and general-purpose programming language. Python’s design philosophy emphasizes code readability with its notable use of significant whitespace. Its language constructs and object-oriented approach aim to help programmers write clear, logical code for small and large-scale projects.

方案框架

整体框架比较清晰。该方案非常适用于冷启的passage,预训练T5能够生成其query,再利用SBERT进行QQ匹配。

相似问生成(QGenQ )

进一步的,如果我们已有标准Query,参考以上的思路,我们可以生成相似问数据,来进行匹配模型的训练。

于是,我尝试了LCQMC数据集的正样本,来尝试训练了一个mini版的T5

LCQMC(A Large-scale Chinese Question Matching Corpus), 百度知道领域的中文问题匹配数据集,目的是为了解决在中文领域大规模问题匹配数据集的缺失。该数据集从百度知道不同领域的用户问题中抽取构建数据。

我们来看下生成相似问的效果:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
2008年奥运会是第几届?	2008年奥运会是第几届
2008年奥运会是第几届?	2008年奥运会是第几
2008年奥运会是第几届?	2008年奥运会第几届
2008年奥运会是第几届?	2008年有奥运会会是第几届的
2008年奥运会是第几届?	2008年是为什么奥运会第几届啊
这是什么牌子的香水,卖多少钱?	这是什么牌子香水,多少钱
这是什么牌子的香水,卖多少钱?	这是什么牌子的香水,多少钱
这是什么牌子的香水,卖多少钱?	这是香水喝什么牌子多少
这是什么牌子的香水,卖多少钱?	这是什么牌子香水呢多少钱
这是什么牌子的香水,卖多少钱?	这是什么牌子的香水?多少
责任感是什么	责任感是什
责任感是什么	责任感是什么呀
责任感是什么	什么是责任?感她来叫什
责任感是什么	责任感觉的是什么
责任感是什么	什么是责任
怎么才能让胡子长得慢些?	怎么才能让胡子长得慢
怎么才能让胡子长得慢些?	怎么样才能让胡子长得
怎么才能让胡子长得慢些?	如何让胡子长得慢些
怎么才能让胡子长得慢些?	怎么样才能让胡子长得慢
怎么才能让胡子长得慢些?	怎么让胡子长得慢

看上去效果还过得去~

于是,我又尝试了将模型迁移,尝试垂直领域的BQ Corpus数据集进行相似问的生成。验证下模型的迁移性。

BQ Corpus(Bank Question Corpus), 银行金融领域的问题匹配数据,包括了从一年的线上银行系统日志里抽取的问题pair对,是目前最大的银行领域问题匹配数据。

效果如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
为什么我无法看到额度	为什么我的无法看到额
为什么我无法看到额度	为什么我无法看到额度提示
为什么我无法看到额度	为什么我看说无法看到额
为什么我无法看到额度	为什么无法看到额度
为什么我无法看到额度	说无法怎么看到额
为什么要输入支付密码来验证	为什么我的支付密码那么验证支付密
为什么要输入支付密码来验证	为什么那么入支付密码自己的密码
为什么要输入支付密码来验证	为什么输入支付密
为什么要输入支付密码来验证	为什么输入支付密码被来开
为什么要输入支付密码来验证	为什么输入支付密码上网店需要按
今天借明天还款可以?	今天的借款还款可以过
今天借明天还款可以?	今天的钱只是在私6天啊
今天借明天还款可以?	今天,借还款,那年天还是不
今天借明天还款可以?	《今天借地明还款的还款的
今天借明天还款可以?	今天都当服还款的还款
今天借明天还要手续费吗	今天借费有手续费吗
今天借明天还要手续费吗	今天网上买今天,求手续费
今天借明天还要手续费吗	今天借款手续费
今天借明天还要手续费吗	今天借费还要手续费
今天借明天还要手续费吗	借手第二季求手续费

这效果就比较差了。。。可能是模型太mini,预训练数据也太少了。但是这个方案还是可以继续实验尝试的~

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-09-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
给女同事讲完代理后,女同事说:你好棒哦
在故事中,「小明是一个客户」,它让小红帮忙购买香水,「小红就成了一个代理对象」,而「香水提供商是一个真实的对象」,可以售卖香水,小明通过代理商小红,购买到法国的香水,这就是一个代购的例子。我画了一幅图帮助理解这个故事的整个结构。
cxuan
2020/08/28
3020
谷歌杀疯了,顶级视频模型 Veo 2 竟免费开放?速来 AI Studio 白嫖。
产品负责人 Logan Kilpatrick 官宣,Google 的视频生成模型 Veo 2 正式登陆 Google AI Studio, Gemini API 和 Gemini App。
AI进修生
2025/04/17
780
谷歌杀疯了,顶级视频模型 Veo 2 竟免费开放?速来 AI Studio 白嫖。
_T-SQL程序练习03
2)利用 𝑆𝑒𝑎𝑠𝑜𝑛 表,参照如下转 换规则,写一个存储过程𝑆𝑒𝑎𝑠𝑜𝑛𝐿𝑎𝑛𝑑𝑆𝑐𝑎𝑝𝑒,实现如右边类似的格式输出
会洗碗的CV工程师
2023/11/23
1080
_T-SQL程序练习03
案例解析:海底捞、银行、商务酒店、香水单品市场、运营和销售数据挖掘
最近这段时间花了不少时间整理了关于数据采集、数据分析、数据挖掘的案例,这些案例包括了海底捞、银行信用分析、商务酒店分析、香水单品的市场竞争分析、渠道分析、客户特征分析、销售和运营数据分析,包括比较详细介绍数据来源、数据处理、数据分析、数据应用等数据分析知识。 一、银行信用卡欺诈与拖欠行为分析: 1、客户信用等级影响因素      1.1客户信用卡申请数据预处理      1.2信用卡申请成功影响因素 2、信用卡客户信用等级影响因素 3、基于消费的信用等级影响因素 4、信用卡欺诈判断模型      4.1基于
沉默的白面书生
2018/06/07
1.1K0
谷歌造出AI调香师:看一眼分子结构,就知道它闻起来什么味儿
把一个物质的分子结构,经过两轮神经网络的处理,就能把知道这种东西闻起来是玫瑰的芬芳,还是烤肉的香气。
量子位
2019/10/31
5220
谷歌造出AI调香师:看一眼分子结构,就知道它闻起来什么味儿
基于自然语言处理(语义/情感)的香水推荐
自然语言处理(NLP)在推荐系统和信息检索中有许多有趣的应用。作为一名香水爱好者和数据科学家,利基香水社区使用的不寻常且高度描述性的语言启发我使用NLP创建一个模型,帮助我发现我可能想购买的香水。Niche Perfume(沙龙香)是由小型精品香水公司生产的稀有香水。与葡萄酒类似,围绕着Niche Perfume有一个完整的亚文化,完美的NLP它有自己的诗意词汇!
AiTechYun
2019/10/15
1.2K0
基于自然语言处理(语义/情感)的香水推荐
数据采集与挖掘:香水产品运营挖掘分析,并给出一些营销建议
一、香水数据处理 数据来源于某电商网站的香水产品的数据,包括了香水产品的商品名称、产品毛重、商品场地、包装、香调、净含量、分类、适用性别、适用场所、价格,以及评价数这几个维度,总共1009条数据: 从
沉默的白面书生
2018/05/07
4.7K0
数据采集与挖掘:香水产品运营挖掘分析,并给出一些营销建议
AI For Fragrance Design ,人工智能与香水设计
最近MixLab在开展30天AI训练营,研究的是美食相关的AI应用,其中有一种应用方式是为特定的人群生成新的菜谱。思路可以参考IBM的研究:
mixlab
2018/12/06
6320
AI  For Fragrance Design ,人工智能与香水设计
数据挖掘:探索香水产品运营方向和核心卖点,并给出运营建议
数据来源于某电商网站的香水产品的数据,包括了香水产品的商品名称、产品毛重、商品场地、包装、香调、净含量、分类、适用性别、适用场所、价格,以及评价数这几个维度,总共1009条数据:
沉默的白面书生
2018/04/24
2.6K6
数据挖掘:探索香水产品运营方向和核心卖点,并给出运营建议
AI有鼻子了,还能远程传输气味,图像生成香水
最近,一个名叫 Osmo 的初创公司宣布,他们成功地将气味数字化了。第一个成功的案例是「新鲜的夏季李子」,而且复现出的味道「闻起来」很不错。整个过程依靠 AI 技术来完成,不需要人工干预。有了这项技术,你就可以像下载音乐一样下载香水了。
机器之心
2025/02/14
1160
AI有鼻子了,还能远程传输气味,图像生成香水
中国制霸生成器火了/ 马斯克香水被炒至原价10倍/ 闽南话翻英语算法来了… 今日更多新鲜事在此
根据它刚发布的Q3财报,尽管营收额创下214.5亿美元的新纪录,同比增长56%,但没有达到华尔街分析师平均预期的219.6亿美元。
量子位
2022/12/08
6380
中国制霸生成器火了/ 马斯克香水被炒至原价10倍/ 闽南话翻英语算法来了… 今日更多新鲜事在此
AI香水来了,你会买吗?
“A woman who doesn’t wear perfume has no future.”—from Coco Chanel
用户2908108
2020/11/11
5710
AI香水来了,你会买吗?
算法浅谈——怪盗基德的珠宝选择问题与贪心算法
在一个月黑风高的夜晚,怪盗基德潜入了一个著名的珠宝会馆。他面前有三个装着珠宝的柜子,这三个规则分别是A、B和C。每个柜子里装了一个珠宝,这三个珠宝的体积分别是6,5,5,价值分别是10,5, 6。基德每次只能打开一个柜子,他需要将偷出来的珠宝放进随身携带的包里。他的包的体积是10,那么请问,基德应该采取什么策略呢?
TechFlow-承志
2020/03/05
6650
算法浅谈——怪盗基德的珠宝选择问题与贪心算法
优思学院|六西格玛的方差分析怎么计算?
六西格玛或者统计学中的方差分析(Analysis of Variance, ANOVA)是一种用于分析多个变量之间差异性的统计方法,方差分析的基本思想是将总体方差分解为不同来源的方差,以确定这些来源是否对总方差产生显著的影响。
用户2865703
2023/03/23
5980
优思学院|六西格玛的方差分析怎么计算?
Pika 2.0横扫Sora惊艳全网,一键颠覆广告业!上传自拍秒变好莱坞大片,和明星同框不是梦
十一期间,Pika凭借万物皆可捏捏、融化和挤爆的网红特效,迅速在全网形成病毒式传播,引爆整个社交媒体。
新智元
2025/02/15
600
Pika 2.0横扫Sora惊艳全网,一键颠覆广告业!上传自拍秒变好莱坞大片,和明星同框不是梦
AIoT应用创新大赛-基于TencentOS Tiny 香水定制机方案
人们对生活品味的提升,个性的解放,结合物联网新技术,为个人提供差异化服务,香水作为女性日常消费的一部分,存在市场需求。本定制机依据香水调制的一般原理,提供便捷的私人香水定制方法。
用户1258616
2022/02/23
4830
3.27 VR扫描:PSVR最受欢迎养成游戏中文版发售,你的肾准备好了吗?
PSVR《夏日课程:宫本光》中文版将于4月27日发售 日前,PlayStation中国香港宣布PSVR游戏《夏日课堂:宫本光》中文版将于4月27日发售。《夏日课堂:宫本光》是PSVR上一款知名的VR恋爱养成类游戏,在游戏中,玩家将扮演家庭教师,为成绩不太理想的学生宫本光进行单独辅导。据了解,中文版将收录日文版追加内容,附“樱色/米白色制服”下载代码和特典“特制领带组合”,并使用特制信封包装。 VRPinea独家点评:带着PSVR最受欢迎的养成游戏名号,加上中国迷弟们强大的购买力,目测《夏日
VRPinea
2018/05/15
7050
文本聚类简单实现_文本聚类分析
文本聚类( text clustering ,也称文档聚类或 document clustering )指的是对文档进行的聚类分 析,被广泛用于文本挖掘和信息检索领域。 最初文本聚类仅用于文本归档,后来人 们又挖掘 出了许多新用途,比如改善搜索结果、生成同义词,等等。
全栈程序员站长
2022/11/17
3K0
文本聚类简单实现_文本聚类分析
IBM开发了一种AI系统,帮助人类创造新型香水
香水的创造通常被视为定制艺术。几个世纪以来,法国人对嗅觉业务感到自豪,专业的气味大师花费数十年的时间学习手艺。科蒂(Coty)和雅诗兰黛(EstéeLauder)等巨型化妆品公司向传说中的香水代理商进行了大量检查,这些香水代理商利用一丝不苟地研究芳香学的香水化学家。
AiTechYun
2018/12/04
6360
IBM开发了一种AI系统,帮助人类创造新型香水
HTML期末设计——代码篇[通俗易懂]
这个网页设计也就是用了我学到的知识做的一个中规中矩的网页,可以给以后的大一新生们做个参考,和商业网站的效果肯定是没得比的,期望太高的可以关掉了
全栈程序员站长
2022/07/01
1K0
HTML期末设计——代码篇[通俗易懂]
推荐阅读
相关推荐
给女同事讲完代理后,女同事说:你好棒哦
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验