首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >电商搜索全链路(PART I)Overview

电商搜索全链路(PART I)Overview

作者头像
NewBeeNLP
发布于 2022-06-06 02:12:23
发布于 2022-06-06 02:12:23
1.7K0
举报
文章被收录于专栏:NewBeeNLPNewBeeNLP

大家好,我是kaiyuan。好久没码字了,趁着五一在家整理整理,毕竟北京这疫情哪儿也别想去

虽然我们之前分享过很多 #搜索推荐广告 方面的文章,但是发现很难有一个系统的框架,无法串联成完整的链路。于是,不如就以业务链路为核心,来好好地整理。这一系列规划的整体大纲如下,欢迎催更~

针对每个模块,重点在解释清其在系统中的位置和功能、面临的难点以及业界baseline和前沿解决方案。今天作为第一篇,不会深入具体技术细节,简单聊聊搜索大背景及其兄弟业务:推荐和广告。

【PS. 受限于个人水平和经验,欢迎讨论指教~ 内容也会随认知的深入不断更新】

流量和变现是互联网公司能否成功的两个关键因素,纵观所有公司发展,无一不是先砸钱打开市场、培养用户粘性(流量),然后开始想法子变现。搜索、推荐、广告,作为互联网公司的标配,基本撑起了全部的流量和收入。作为大厂核心应用,存在很多相似的地方,譬如

  • 数据 :量大而杂乱,虽然有取之不尽的用户日志,但如何从中过滤噪声提取真正有增益的信息,是一大难题;
  • 算法 :创新与落地,三者很多算法模型都是相似的(搜推广算法有多卷就不用我多说了吧~)。另外,不同于cv/nlp等偏离线的算法,为了不影响用户使用体验,必须考虑在线延时的影响,这就要求算法模型需要考虑效果和性能的trade off;
  • 架构 :经典三段式,同样受限于性能,常见的搜推广通常都是由『召回-粗排-精排』级联式三个板块组成。

搜索 VS 推荐 VS 广告

虽然三者之间存在诸多相似点,但深入细节,仍然会存在巨大差异,这也就是为什么通常需要搭建不同的团队来针对性地负责。甚至即使是单一方向,譬如推荐,面对不同的场景,也会有不同的团队来优化。

问题定义的区别
  • 搜索:搜索的经典场景是用户主动输入查询query,较明确地表达需求,然后搜索引擎从数据库中检索得到topK最优结果,最后展现给用户,这是一个用户主动获取信息的过程。
  • 推荐:推荐一般不存在用户主动提供query,而是系统根据其用户画像(性别、职业...)以及历史行为(浏览、点击、收藏...)等,排出最可能使用户消费的内容展现出来,这是一个用户被动获取信息的过程。
  • 广告:一般广告的参与有三个角色:广告主、平台和用户。与搜推的为用户找信息的过程不同,广告则是为信息找人,目的也非常直接,纯粹就是为公司增加收入,可以说是离 最近的业务了。
业务目标的区别
  • 搜索:相比与推荐和广告,搜索在某种意义上是存在『正确答案』的,即用户是带着明确目的来完成这次行为的。所以搜索第一目标就是相关性,能否将这些"正确答案"展现给用户;其次目标才是CTR/CVR/GMV等。随着相关商品量和算法的发展,现在也越来越强调类似推荐的 个性化/千X千面
  • 推荐:推荐算法的预估目标就不尽相同,视频类更多倾向于预测观看时长,新闻类预测CTR,电商类预估客单价等等这些 跟用户参与度最相关的业务指标
  • 广告:各大公司广告算法的预估目标非常统一,就是 预估CTR和CVR。
算法模型的区别

搜索、推荐、广告三者的模型相对是"通用"的,一个方向上效果不错的模型稍作修改即可适配到另外一个方向,譬如多向量表达MIND本是推荐召回的模型,现在在很多搜索召回中也普遍应用来解决多兴趣问题。要说区别,更多的可能是样本、特征这些方面的不同。

更详细深入推荐知乎@王喆老师的:

  • 排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法间到底有什么区别?[1]

网页搜索 VS 电商搜索

针对搜索而言,根据场景的不同,可以细分为很多种:网页搜索、电商搜索、视频搜索、O2O搜索等等。这里看两大类:网页搜索(如百度、搜狗等)和电商搜索(如淘宝、京东等)。那同为搜索引擎,这两者有什么区别呢?

  • 数据差异, 主要体现在规模、来源、组织结构等方面。
    • 规模:网页搜索使用的数据一般是万亿级的规模,有超过万亿的网页,但是商品搜索的话,根据客户规模的大小,商品的 SKU 数或者 SPU 数基本上是亿到十亿这个级别,与网页搜索不在一个量级,理论上是网页搜的一个子集;
    • 来源:网页搜索使用的是整个互联网的数据,而商品搜索,往往是一家企业内部的数据,而且这些数据存储在它的业务数据库或者数仓里,相对来说数据是比较好处理的;
    • 结构:网页搜索使用的是全网的非结构化数据,需要额外的非结构化数据处理工作;而对于商品搜索,使用的是优质的结构化数据,比起网页搜索里面参差不齐的非结构化数据,少了一部分数据整理和处理的工作;
  • 重点优化目标差异 。网页搜索主要是优化网页和搜索词的相关性与时效性;而电商搜索主要优化目标是点击率 ( CTR )、转化率 ( CVR )、交易额 ( GMV )等,当然既然作为一个搜索系统,这些目标也是在相关性的基础上去做;
  • 个性化程度差异 。网页搜索一般情况下也能做到个性化,通常像谷歌、百度等搜索公司在个性化上也会做一些工作,但是对个性化的要求并不高;而商品搜索对个性化的要求很高,比如搜索的时候,不同的人消费能力的不同,那么排序的时候,需要考虑把合适价格的产品返回给不同消费能力的人群。个性化要求的不同是网页搜索和商品搜索的重要区别,这就决定了两者技术实现的不同。

电商搜索系统

最后看几个图,对整体的搜索系统有个high-level的认知。

淘宝搜索

来自阿里KDD'21的论文:《Embedding-based Product Retrieval in Taobao Search》,介绍了淘宝搜索引擎:Query ---> Recall召回 ---> Rank排序

京东搜索

来自京东的分享 电商搜索中的语义检索与商品排序[2] 以及论文Towards Personalized and Semantic Retrieval: An End-to-End Solution for E-commerce Search via Embedding Learning[3],包括三个重要组成部分:

  • Query 理解:包括 query 的纠错、改写、扩展、分词等。
  • 召回阶段:给定一个查询词,从商品库中召回有效正确的商品候选集,并将结果返回给排序,召回方式有很多种。
  • 排序阶段:给定召回商品的候选集合,根据众多因子对这些商品进行排序,挑选出最好的候选商品展示给用户。
美团搜索

美团搜索同我们上面说的网页搜索、电商搜索还有些不同,是典型的O2O搜索。美团搜索的核心是提供服务,例如团单、旅游、医美等(也有同电商搜索一样的商超形态);另外一个重要的特点是 位置的重要程度非常高

下图是美团搜索系统流程,整体流程分为数据层、召回层、排序层和展示层,不赘述,看图就非常清晰了。

58同城搜索

发展历史

搜索推荐广告密不可分,发展历程基本一致,同每个行业一样,互联网的项目大都发展历程也是

  1. 项目运转:先让项目跑起来,流程走通
  2. 自动化:项目跑起来后,开始从人力到自动化过渡
  3. 智能化:完成自动化后,优化项目进行智能化提升效果

早期数据量少,靠人工即可做简单分类,所以门户网站在那时占据主导地位。年纪小的小朋友可能不太了解,但千禧年左右的中国最初的互联网三巨头是三大门户网站:新浪、网易、搜狐,当时二马还是以学生姿态向当时中国互联网第一人张朝阳学习讨教。海外雅虎门户作为互联网公司的先驱,开创了向广告主收费,用户免费的模式,为互联网的普及打下基础,否则若再像传统移动、联通、T-Mobile按次收费或量收费的模式,互联网的推广还要再晚不知道多少年。

03年至12年的十年属于搜索和社交的十年。全网搜索、细领域搜索,Google、百度等一众搜索起家公司开始腾飞。社交方面,熟人社交、陌生人社交,腾讯、Facebook、Twitter等通讯工具、媒体中介起家公司也开始腾飞。可以说这十年是互联网行业黄金十年。在资本积累之后,有大量的财力去反哺技术,实现了基于关键词等等的自动化能力。

12年至今,随着互联网的蓬勃发展,信息更一步爆炸,用户的需求也进一步提高,这就要求互联网公司要能提供更智能化,更贴近用户想要的才能更好的发展。所以,搜索推荐广告针对各垂直领域进行了细分优化,衣食住行,淘宝、美团、链家、滴滴...

好啦,下篇见~

本文参考资料

[1]

排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法间到底有什么区别?: https://zhuanlan.zhihu.com/p/430431149

[2]

电商搜索中的语义检索与商品排序: https://zhuanlan.zhihu.com/p/465504164

[3]

Towards Personalized and Semantic Retrieval: An End-to-End Solution for E-commerce Search via Embedding Learning: https://arxiv.org/pdf/2006.02282.pdf

[4]

王喆:排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法间到底有什么区别?: https://zhuanlan.zhihu.com/p/430431149

[5]

多业务建模在美团搜索排序中的实践: https://tech.meituan.com/2021/07/08/multi-business-modeling.html

[6]

深度语义模型 BERT 在 58 同城搜索的实践: https://www.6aiq.com/article/1617063677499

[7]

电商搜索中的语义检索与商品排序: https://zhuanlan.zhihu.com/p/465504164

[8]

如何构建一个好的电商搜索引擎?: https://www.infoq.cn/article/ixobeuyc5q0b1dmhrwh7

[9]

搜索推荐广告: https://chmx0929.gitbook.io/machine-learning/sou-suo-tui-jian-guang-gao/sou-suo-tui-jian-guang-gao

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 NewBeeNLP 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
电商搜索全链路(PART II)Query理解
大家好,我是kaiyuan。电商搜索全链路系列文章们躺在我的草稿箱里已经N久了,上一篇整理还是在上次,错过的小伙伴点击传送门:电商搜索全链路(PART I)Overview
NewBeeNLP
2022/11/11
2.5K0
电商搜索全链路(PART II)Query理解
美团搜索广告排序推荐,从机器学习到深度学习的模型实践
前言:深度学习驱动的 CTR 预估技术演化0. 浅层模型时代:以 MLR 为例 2005-2015 这十年间,大规模机器学习模型 (特指浅层模型) 一度统治着 CTR 预估领域,以 G/B 两家为代表的”大规模离散特征 + 特征工程 + 分布式线性 LR 模型”解法几乎成为了那个时代的标准解。相关的工作相信读者们耳熟能详,甚至据我所知今天业界的不少团队依然采用这样的技术。阿里在 2011-2012 年左右由 @盖坤同学创新性地提出了 MLR(Mixed Logistic Regression) 模型并实际
机器学习AI算法工程
2019/10/28
2.7K0
美团搜索广告排序推荐,从机器学习到深度学习的模型实践
万字长文解读电商搜索——如何让你买得又快又好
一个产品的搜索功能,是用户快速触达所需信息的通道,起到了引导用户走向的重要作用;优秀的产品必然有成熟、体验良好的搜索功能。
石晓文
2019/09/10
4.1K0
万字长文解读电商搜索——如何让你买得又快又好
关于电商推荐系统的一点小思考~
从18年11月开始,接触推荐系统半年左右时间,对推荐系统有了基本的认识。相比于之前做的 nlp 任务,推荐系统复杂更多,数据来源更复杂、pipeline 更复杂、场景更复杂、业务更复杂、指标更复杂。在 NLP 部分的时候,绝大多数时间花在了数据-模型以及其 match 上。而在推荐里由于系统复杂度提升,多了更多的功夫在系统架构、代码重构、快速部署上,工程侧的东西在复杂系统中显得更为重要。秉着精益算法的思想,延续之前的系列,这里我结合自己的经验,给大家分享下如何快速的搭建一个不错 baseline 的推荐系统。请各位吸取精华、去其糟柏即可。
石晓文
2019/06/17
2.8K0
深度学习模型实战-深度学习模型在各大公司实际生产环境的应用讲解文章
仓库地址:https://github.com/DA-southampton/Tech_Aarticle/edit/master/README.md
致Great
2021/02/22
1K0
爆料 | 解析阿里妈妈如何将深度学习应用在广告、推荐及搜索业务
非常高兴与大家进行“深度学习演进之路”的交流,阿里妈妈是阿里巴巴集团下的大数据营销平台,是负责阿里巴巴变现的一个事业部。我研究的方向是机器学习、计算机视觉、推荐系统和计算广告。我在清华大学读的本科和博士,专业是计算机视觉,毕业之后加入阿里巴巴广告技术部,后来组成阿里妈妈事业部,这个事业部负责阿里所有的广告变现产品。我现在是阿里妈妈的研究员,负责精准定向广告技术团队,负责的产品有智能钻展、直通车定向广告,熟悉阿里系统的同学可能会知道这两个产品。 我将分三个部分来讲一下。先讲互联网数据下的深度学习演进,然后讲一
昱良
2018/06/25
1.4K0
一窥推荐系统的原理
推荐系统是建立在海量数据挖掘基础上,高效地为用户提供个性化的决策支持和信息服务,以提高用户体验及商业效益。常见的推荐应用场景如:
算法进阶
2022/06/02
1K0
一窥推荐系统的原理
推荐工程-概述
随着移动互联网的飞速发展,人们已经处于信息过载的时代。在这个时代,信息的生产者很难将信息呈现在对其感兴趣的消费者面前,而信息消费者也难以从海量信息中找到自己感兴趣的内容。推荐系统充当了将信息生产者和信息消费者连接起来的桥梁,平台通常作为推荐系统的载体,实现信息生产者和消费者之间的匹配。
Zephery
2024/12/25
1630
推荐工程-概述
大众点评内容搜索算法优化的探索与实践
本文整理自美团技术沙龙第80期《美团内容智能分发的算法实践》,分享内容主要包括三部分。第一部分介绍了大众点评内容搜索的场景特点以及面临的挑战;第二部分介绍了为应对这些困难和挑战,技术团队在链路各环节上做的实践优化,包括内容消费和搜索满意度的优化等等;第三部分是总结和对未来的展望。希望能对大家有所帮助或启发。
美团技术团队
2024/03/22
3640
大众点评内容搜索算法优化的探索与实践
SDCC 2015算法专场札记:知名互联网公司的算法实践
【编者按】11月21日,为期三天的SDCC2015中国软件开发者大会成功闭幕,主办方总计邀请了95余位演讲嘉宾,为参会者奉献了10个主题演讲,9大技术专场论坛(80余场技术演讲),另外还有5场特色活动。另外,据官方统计参会人数高达1067名(不含工作人员)。其中21日的算法专场,现场听讲人数一度爆满,而没有机会亲临现场的童鞋们,我们特邀请了业内专家、与会者分享他们的听课感受及他们眼中的算法专场。以下是来自畅捷通公共服务部总监张俊林的参加算法专场的听课札记,以飨读者。 以下为张俊林的听课札记: 2015年11
CSDN技术头条
2018/02/11
1.6K0
SDCC 2015算法专场札记:知名互联网公司的算法实践
极致细节:OPPO搜索广告召回模型落地分享
Que2Search是Facebook的经典论文,之前我们详细解读了Que2Search的技术方案和一些个人的思考,感兴趣的同学可以移步观看:
NewBeeNLP
2023/09/01
1.1K0
极致细节:OPPO搜索广告召回模型落地分享
推荐系统炼丹笔记7:负样本的艺术
目前,在清洗数据构造正负样本时,由于日志的延迟上报问题,在点击事件的问题中构造样本时,往往会出现将曝光未点击数据误以为是负样本的情况,可真实的负样本真的是这样吗?
炼丹笔记
2021/12/22
5.3K0
推荐系统炼丹笔记7:负样本的艺术
美丽联合机器学习应用探索:用更强大的模型,干净解决问题
作者 | 吴海波 责编 | 何永灿 通常机器学习在电商领域有三大应用:推荐、搜索、广告,这次我们聊聊三个领域里都会涉及到的商品排序问题。从业务角度,一般是在一个召回的商品集合里,通过对商品排序,追求GMV或者点击量最大化。进一步讲,就是基于一个目标,如何让流量的利用效率最高。很自然的,如果我们可以准确预估每个商品的GMV转化率或者点击率,就可以最大化利用流量,从而收益最大。 蘑菇街是一个年轻女性垂直电商平台,主要从事服饰鞋包类目,2015年时全年GMV超过了百亿,后与美丽说合并后公司更名为美丽联合集团。2
用户1737318
2018/07/20
1.5K0
搜索与推荐那些事儿
搜索与推荐的区别 1. 场景需求不同 搜索的场景故名思义,就是用户提供想要寻找的内容的描述,系统返回给用户匹配到的结果,常见的场景如文字输入框的搜索,图片搜索,听音识曲,标签筛选等,看似很多场景,其实只是用户输入内容的形式不同。推荐的场景我们常见的有各大App首页的个性化推荐(如猜你喜欢/每日歌曲推荐),选择页面的关联推荐(买了还买,看了还看,买了它的用户还买等等)等,推荐的场景更加的丰富,因为没有用户提供的内容的限制,场景更具多样性,推荐方法也多种多样,例如基于内容的推荐,基于用户行为的推荐,协同过滤等等
ThoughtWorks
2022/06/10
1.1K0
搜索与推荐那些事儿
多目标学习在推荐系统中的应用
一般来说在搜索和推荐等信息检索场景下,最基础的一个目标就是用户的 CTR,即用户看见了一篇内容之后会不会去点击阅读。但其实用户在产品上的行为是多种多样的。比如在微信的订阅号中,用户可以对某个内容进行点赞,可以收藏这个内容,可以把它分享出去,甚至某篇文章如果他觉得比较符合他的兴趣,也可以进行留言。
石晓文
2020/11/09
4K0
多目标学习在推荐系统中的应用
KDD'23 | 阿里淘宝:重新审视搜索粗排
大家好,我是kaiyuan。最近大模型LLM的各类信息有种乱花渐欲迷人眼的感觉,刷几篇KDD'23的文章冷静一下。
NewBeeNLP
2023/08/29
2.1K0
KDD'23 | 阿里淘宝:重新审视搜索粗排
王喆:工作近十年的方向思考
导读:大家好,我是《深度学习推荐系统》的作者王喆,很多同行可能读过这本系统性介绍推荐系统的书,但大多数人可能不知道我职业生涯的头四年都在做广告系统,之后才在推荐系统方向工作了四年,这两年又回到了广告方向。既然是重操旧业,就不免想对计算广告这个方向做一次全面的再思考。
Datawhale
2023/01/10
2.5K0
王喆:工作近十年的方向思考
【独家】1号店电商大数据挖掘实践
大数据这个词为什么现在这么火,个人的理解是用一个新瓶装了很多旧酒,也就是说之前的很多技术,概念或者应用现在都可以往大数据这个词里放,比如分布式处理,数据挖掘,机器学习,文本处理,语音/图像处理,个性化
大数据文摘
2018/05/22
1.7K0
【AI in 美团】深度学习在美团搜索广告排序的应用实践
AI(人工智能)技术已经广泛应用于美团的众多业务,从美团App到大众点评App,从外卖到打车出行,从旅游到婚庆亲子,美团数百名最优秀的算法工程师正致力于将AI技术应用于搜索、推荐、广告、风控、智能调度、语音识别、机器人、无人配送等多个领域,帮助美团3.2亿消费者和400多万商户改善服务和体验,帮大家吃得更好,生活更好。
美团技术团队
2018/08/01
8100
【AI in 美团】深度学习在美团搜索广告排序的应用实践
搜推广生死判官:重排技术发展
全文1.2W字,PC阅读戳:https://f0jb1v8xcai.feishu.cn/wiki/LPlAwm6vSiesFBkysh8csZYfn1g
NewBeeNLP
2024/06/17
2.1K0
搜推广生死判官:重排技术发展
推荐阅读
相关推荐
电商搜索全链路(PART II)Query理解
更多 >
交个朋友
加入前端学习入门群
前端基础系统教学 经验分享避坑指南
加入腾讯云技术交流站
前端技术前沿探索 云开发实战案例分享
加入云开发企业交流群
企业云开发实战交流 探讨技术架构优化
换一批
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档