在KDD 2022会议期间举办的KDD Cup竞赛框架下,某机构发起了改进产品搜索的ESCI挑战赛,并发布了全新的产品查询数据集。
本次竞赛于2022年3月15日至7月20日举行,吸引了来自65个国家的1600多名参赛者,累计提交超过9200个解决方案。参赛期间,参与者提交的代码和模型总量达2.5TB,创下历史记录。竞赛总奖金池为21000美元,并为表现优异的团队提供10500美元的云服务积分。
作为挑战赛的重要组成部分,组委会发布了“购物查询数据集”——一个包含复杂搜索查询的大规模数据集,旨在促进查询-商品语义匹配领域的研究发展。
尽管机器学习技术取得显著进展,正确分类产品查询结果仍面临诸多挑战:结果中的噪声信息、查询意图理解的困难性以及商品多样性都增加了该问题的复杂性。
参赛者的主要目标是构建新的排序策略,并识别能够提升用户体验的结果类别(如替代商品)。传统研究依赖二元相关性判断(商品是否与查询相关),这种方式限制了用户体验的进一步提升。
ESCI挑战赛将相关性细分为四个类别:
因此得名“ESCI挑战赛”。
基于购物查询数据集的KDD Cup竞赛包含三个任务:
任务1:查询-商品排序
给定用户查询和匹配商品列表,将相关商品排序在非相关商品之上(通过标准化折损累积增益nDCG衡量)
任务2:多类别商品分类
给定查询和匹配商品列表,将每个商品分类为精确匹配、替代品、互补品或无关商品(通过准确率衡量)
任务3:商品替代识别
评估系统在给定查询结果列表中识别替代商品的能力(通过准确率衡量)
该数据集具有以下重要特征:
在专题研讨会上,KDD Cup竞赛的优胜团队展示了他们的解决方案。组委会在发布数据集时同时提供了强基线模型,作为参赛者方案的基准参考。
任务1的优胜团队将nDCG指标提升了6.35%,得分达到0.9043,较基线0.8503有显著改进。
任务2和任务3的优胜团队分别将准确率提升了12.36%(0.8326对比0.7410)和5.66%(0.8790对比0.8319)。
该数据集已公开发布,有望凭借其对真实客户查询复杂性的代表性,成为产品搜索领域的“ImageNet”。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。