在今年的知识发现与数据挖掘大会(KDD)上,某机构举办了一场研讨会,公布了其在KDD Cup(KDD年度系列竞赛)框架下发起的“提升商品搜索的ESCI挑战赛”的结果。该挑战赛旨在同时改进商品查询结果(即与客户的相关性)的排序,并推荐有吸引力的替代商品(即可替代产品)。
该竞赛于2022年3月15日至7月20日期间举行,吸引了来自65个国家的1600多名参与者,提交了9200多个解决方案。在挑战过程中,参与者提交了超过2.5 TB的代码和模型,提交量之大前所未有。挑战赛设有21,000美元的奖金池,并为表现最佳的团队额外提供10,500美元的AWS积分。作为挑战的一部分,发布了一个包含困难搜索查询的大型数据集——购物查询数据集,旨在促进查询-商品语义匹配领域的研究。
挑战
尽管机器学习近期取得了进展,但正确分类商品查询结果仍然具有挑战性。结果中的噪音信息、理解查询意图的困难以及可用商品的多样性,都增加了这个问题的复杂性。
本次竞赛参与者的主要目标是构建新的排序策略,并识别可用于改善客户体验的有趣结果类别(例如替代产品)。以往的研究依赖于二元相关性的概念(即一个商品与给定查询是相关还是不相关),这限制了客户体验。
因此,在挑战中,将相关性细分为四类:精确匹配(E)、替代品(S)、互补品(C)和不相关(I)。这也是“ESCI挑战赛”名称的由来。
本次KDD Cup竞赛使用购物查询数据集的三个任务是:
已经公开发布了购物查询数据集,希望它能因其在捕捉真实客户查询复杂性方面的代表性而成为商品搜索领域的ImageNet。在一篇arXiv论文中,介绍了数据收集和清理过程的更多细节,以及基本统计数据。
数据集的独特性
该数据集的一些重要特征:
挑战结果与研讨会
研讨会邀请了KDD Cup竞赛的获胜者进行报告。在发布数据集时,还发布了一个强大的基线模型,用于对参赛者的作品进行基准测试。
任务1的获胜团队来自中国广州的网易互动娱乐事业群,其成绩在nDCG指标上比基线提高了6.35%(该团队的nDCG得分为0.9043,相较于基线0.8503有显著提升)。
任务2和任务3的获胜团队来自中国浙江杭州的蚂蚁集团,其成绩分别比基线提高了12.36%(0.8326对比0.7410)和5.66%(0.8790对比0.8319)。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。