首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >产品搜索竞赛推动语义匹配技术创新

产品搜索竞赛推动语义匹配技术创新

原创
作者头像
用户11764306
发布2025-10-10 17:36:55
发布2025-10-10 17:36:55
80
举报

产品查询竞赛吸引逾9200份提交方案

在KDD 2022会议期间举办的KDD Cup竞赛框架下,某机构发起了改进产品搜索的ESCI挑战赛,并发布了全新的产品查询数据集。

竞赛概况

本次竞赛于2022年3月15日至7月20日举行,吸引了来自65个国家的1600多名参赛者,累计提交超过9200个解决方案。参赛期间,参与者提交的代码和模型总量达2.5TB,创下历史记录。竞赛总奖金池为21000美元,并为表现优异的团队提供10500美元的云服务积分。

作为挑战赛的重要组成部分,组委会发布了“购物查询数据集”——一个包含复杂搜索查询的大规模数据集,旨在促进查询-商品语义匹配领域的研究发展。

技术挑战

尽管机器学习技术取得显著进展,正确分类产品查询结果仍面临诸多挑战:结果中的噪声信息、查询意图理解的困难性以及商品多样性都增加了该问题的复杂性。

参赛者的主要目标是构建新的排序策略,并识别能够提升用户体验的结果类别(如替代商品)。传统研究依赖二元相关性判断(商品是否与查询相关),这种方式限制了用户体验的进一步提升。

ESCI分类体系

ESCI挑战赛将相关性细分为四个类别:

  • 精确匹配(E)
  • 替代商品(S)
  • 互补商品(C)
  • 不相关(I)

因此得名“ESCI挑战赛”。

基于购物查询数据集的KDD Cup竞赛包含三个任务:

任务1:查询-商品排序

给定用户查询和匹配商品列表,将相关商品排序在非相关商品之上(通过标准化折损累积增益nDCG衡量)

任务2:多类别商品分类

给定查询和匹配商品列表,将每个商品分类为精确匹配、替代品、互补品或无关商品(通过准确率衡量)

任务3:商品替代识别

评估系统在给定查询结果列表中识别替代商品的能力(通过准确率衡量)

数据集特色

该数据集具有以下重要特征:

  • 源自真实客户的在线商品搜索行为,商品与在线目录相关联
  • 每个查询提供最多40个潜在相关结果及ESCI相关性标注
  • 包含英语、日语和西班牙语的多语言查询
  • 同时具备广度(大量查询)和深度(每个查询约20个结果)
  • 所有结果均在电子商务背景下进行多值相关性人工标注
  • 查询非随机采样,专门采样具有挑战性的问题子集
  • 每个查询-商品对都附带公共目录信息

竞赛成果

在专题研讨会上,KDD Cup竞赛的优胜团队展示了他们的解决方案。组委会在发布数据集时同时提供了强基线模型,作为参赛者方案的基准参考。

任务1的优胜团队将nDCG指标提升了6.35%,得分达到0.9043,较基线0.8503有显著改进。

任务2和任务3的优胜团队分别将准确率提升了12.36%(0.8326对比0.7410)和5.66%(0.8790对比0.8319)。

该数据集已公开发布,有望凭借其对真实客户查询复杂性的代表性,成为产品搜索领域的“ImageNet”。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 产品查询竞赛吸引逾9200份提交方案
    • 竞赛概况
    • 技术挑战
    • ESCI分类体系
    • 数据集特色
    • 竞赛成果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档