首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >KDD Cup 2022:9200+方案角逐商品搜索挑战赛

KDD Cup 2022:9200+方案角逐商品搜索挑战赛

原创
作者头像
用户11764306
发布2026-03-10 21:31:12
发布2026-03-10 21:31:12
160
举报

在今年的知识发现与数据挖掘大会(KDD)上,某机构举办了一场研讨会,公布了其在KDD Cup(KDD年度系列竞赛)框架下发起的“提升商品搜索的ESCI挑战赛”的结果。该挑战赛旨在同时改进商品查询结果(即与客户的相关性)的排序,并推荐有吸引力的替代商品(即可替代产品)。

该竞赛于2022年3月15日至7月20日期间举行,吸引了来自65个国家的1600多名参与者,提交了9200多个解决方案。在挑战过程中,参与者提交了超过2.5 TB的代码和模型,提交量之大前所未有。挑战赛设有21,000美元的奖金池,并为表现最佳的团队额外提供10,500美元的AWS积分。作为挑战的一部分,发布了一个包含困难搜索查询的大型数据集——购物查询数据集,旨在促进查询-商品语义匹配领域的研究。

挑战

尽管机器学习近期取得了进展,但正确分类商品查询结果仍然具有挑战性。结果中的噪音信息、理解查询意图的困难以及可用商品的多样性,都增加了这个问题的复杂性。

本次竞赛参与者的主要目标是构建新的排序策略,并识别可用于改善客户体验的有趣结果类别(例如替代产品)。以往的研究依赖于二元相关性的概念(即一个商品与给定查询是相关还是不相关),这限制了客户体验。

因此,在挑战中,将相关性细分为四类:精确匹配(E)、替代品(S)、互补品(C)和不相关(I)。这也是“ESCI挑战赛”名称的由来。

本次KDD Cup竞赛使用购物查询数据集的三个任务是:

  • 任务1:查询-商品排序:针对用户指定的查询和匹配的商品列表,将相关商品排在非相关商品之上(通过归一化折损累积增益(nDCG)衡量)。
  • 任务2:多类别商品分类:针对一个查询和匹配的商品列表,将每个商品分类为与查询精确匹配、替代品、互补品或不相关(通过准确率衡量)。
  • 任务3:商品替代品识别:衡量系统在给定查询的结果列表中识别替代商品的能力(通过准确率衡量)。

已经公开发布了购物查询数据集,希望它能因其在捕捉真实客户查询复杂性方面的代表性而成为商品搜索领域的ImageNet。在一篇arXiv论文中,介绍了数据收集和清理过程的更多细节,以及基本统计数据。

数据集的独特性

该数据集的一些重要特征:

  • 它源自真实用户在线上搜索真实商品。商品链接到一个在线商品目录。
  • 对于每个查询,数据集提供了一个包含多达40个潜在相关结果的列表,以及ESCI相关性判断。
  • 该数据集是多语言的,包含英语、日语和西班牙语的查询。与其他公开可用的数据集不同,它既提供了广度(大量查询),也提供了深度(每个查询约20个结果)。
  • 所有结果都已根据电子商务购物场景进行了带有手动标注的多值相关性标签。
  • 查询并非随机抽样,而是特意对查询的子集进行了抽样,以提供各种具有挑战性的问题(如否定、属性解析等)。
  • 每个查询-商品对都附带一些额外的公开商品目录信息(包括标题、商品描述和额外的商品要点)。

挑战结果与研讨会

研讨会邀请了KDD Cup竞赛的获胜者进行报告。在发布数据集时,还发布了一个强大的基线模型,用于对参赛者的作品进行基准测试。

任务1的获胜团队来自中国广州的网易互动娱乐事业群,其成绩在nDCG指标上比基线提高了6.35%(该团队的nDCG得分为0.9043,相较于基线0.8503有显著提升)。

任务2和任务3的获胜团队来自中国浙江杭州的蚂蚁集团,其成绩分别比基线提高了12.36%(0.8326对比0.7410)和5.66%(0.8790对比0.8319)。FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档