Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >用Dropout思想做特征选择保证效果,还兼顾了线上性能?

用Dropout思想做特征选择保证效果,还兼顾了线上性能?

作者头像
炼丹笔记
发布于 2022-04-06 11:17:02
发布于 2022-04-06 11:17:02
6930
举报
文章被收录于专栏:炼丹笔记炼丹笔记

这篇论文《Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach》教会了我们如何做粗排模型兼顾模型的效率和效果.提出了可学习的特征选择方法FSCD,并在真实电商系统中应用.

简介

如上图(a)所示,受系统时延约束,推荐系统往往是多阶段的.再看图(b),论文提到简单的representation-focused(RF)模型会严重制约我们模型的表达能力(如传统双塔,最后一层向量Dot,就是简单RF模型),主要是缺少特征交叉.所以我们能否在特征上做优化,只保留效果好的特征又能保证模型推断效率更高,用上和精排一样interaction-focused(IF)的模型呢?当然是可以的!

FSCD

粗排用上精排的模型并且要保持高效率,也就意味着在某些方面要做牺牲,那果断就是在特征上入手了,因此IF的粗排模型用上的特征是精排的子集.如上图所示,FSCD方法中效果是通过梯度优化,效率是通过特征维度的正则化来保证.在训练过程中就可以挖掘到一批有用的特征.

对于每个特征而言,都有个可学习的dropout参数Z𝑗 ∈ {0, 1} ,并且是符合伯努利分布:

该分布的超参是由特征复杂度cj决定的,cj是由特征的计算复杂度oj,向量维度ej,还有key的多少nj一起决定的.

最终损失函数如下所示:

我们可以看到每个zj还会乘上正则化系数:

又因为zj的伯努利分布不可导,可以近似为:

实验

参考文献

1、Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach

https://arxiv.org/pdf/2105.07706.pdf

2、https://zhuanlan.zhihu.com/p/375943741

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 炼丹笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
自然语言处理学术速递[6.22]
【1】 Ad Text Classification with Transformer-Based Natural Language Processing Methods 标题:基于转换器的自然语言处理方法在广告文本分类中的应用
公众号-arXiv每日学术速递
2021/07/02
1K0
美团搜索粗排优化的探索与实践
总第528篇 2022年 第045篇 粗排是工业界搜广推系统的重要模块。美团搜索排序团队在优化粗排效果的探索和实践中,基于业务实际场景,从精排联动和效果性能联合优化两方面优化粗排,提升了粗排的效果。本文介绍了美团搜索粗排的迭代路线、基于知识蒸馏和自动神经网络选择的粗排优化工作,希望为从事相关工作的同学带来一些启发或者帮助。 1. 前言 2. 粗排演进路线 3. 粗排优化实践 3.1 精排联动效果优化 3.2 效果性能联合优化 4. 总结 5. 附录 1. 前言 众所周知,在搜索、推荐、广告等大规模工业界应
美团技术团队
2022/08/26
9240
美团搜索粗排优化的探索与实践
结合Scikit-learn介绍几种常用的特征选择方法(下)
5 两种顶层特征选择算法 之所以叫做顶层,是因为他们都是建立在基于模型的特征选择方法基础之上的,例如回归和SVM,在不同的子集上建立模型,然后汇总最终确定特征得分。 5.1 稳定性选择 Stability selection 稳定性选择是一种基于二次抽样和选择算法相结合较新的方法,选择算法可以是回归、SVM或其他类似的方法。它的主要思想是在不同的数据子集和特征子集上运行特征选择算法,不断的重复,最终汇总特征选择结果,比如可以统计某个特征被认为是重要特征的频率(被选为重要特征的次数除以
智能算法
2018/04/02
3.8K0
结合Scikit-learn介绍几种常用的特征选择方法(下)
全链路总结!推荐算法召回-粗排-精排
大家好,这里是NewBeeNLP。现在的推荐系统都是一个很大的漏斗,将整个推荐系统分为(recall -> pre-rank -> rank -> rerank)。
NewBeeNLP
2022/11/16
3.6K0
全链路总结!推荐算法召回-粗排-精排
特征选择与特征提取最全总结
在上篇特征选择与提取最全总结之过滤法中已经介绍了特征选择的其中一大方法--过滤法。本篇将继续介绍特征选择与特征提取方法,其主要内容如下所示。
数据STUDIO
2021/09/26
5K0
特征选择与特征提取最全总结
结合Scikit-learn介绍几种常用的特征选择方法
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 减少特征数量、降维,使模型泛化能力更强,减少过拟合 增强对特征和特征值之间的理解 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者最方便的特征选择方法(往往目的是降维,而忽略了对特征和数据理解的目的)。 在许多机器学习相关的书里,很难找到关于特征
用户1737318
2018/06/05
1.1K0
三大视角,聊聊我眼中的广告系统
从实习到工作,接触过一些大大小小的广告系统,有麻雀虽小但五脏俱全的小 dsp,也有把 ssp、adx、dsp 都打包了的大媒体 ,算是对业界的广告系统有了一个初步的了解。趁着放假这几天,简单地梳理一下当前了解到的广告系统知识,主要是想对零散的知识做个整理。
NewBeeNLP
2021/09/14
1.4K0
推荐系统[三]:粗排算法常用模型汇总(集合选择和精准预估),技术发展历史(向量內积,Wide&Deep等模型)以及前沿技术
在搜索、推荐、广告等需要进行大规模排序的场景,级联排序架构得到了非常广泛的应用。以在线广告系统为例,按顺序一般包含召回、粗排、精排、重排等模块。粗排在召回和精排之间,一般需要从上万个广告集合中选择出几百个符合后链路目标的候选广告,并送给后面的精排模块。粗排有很严格的时间要求,一般需要在10~20ms内完成打分。在如此巨大的打分量以及如此严格的RT需求下,粗排是如何平衡算力、RT以及最后的打分效果呢?
汀丶人工智能
2023/02/23
1.8K0
MultiFS: 深度推荐系统中的自动多场景特征选择
传统的多场景推荐系统(MSRS)通常不加区别的使用所有相关的特征,忽视了特征在不同场景下的不同重要性,往往会导致模型性能下降。本文提出了多场景特征选择(MultiFS)框架来解决此问题,MultiFS能考虑场景间的关系,并通过分层门控机制为每个场景选择独特的特征。
秋枫学习笔记
2024/03/18
8110
MultiFS: 深度推荐系统中的自动多场景特征选择
结合Scikit-learn介绍几种常用的特征选择方法(上)
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 减少特征数量、降维,使模型泛化能力更强,减少过拟合 增强对特征和特征值之间的理解 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者最方便的特征选择方法(往往目的是降维,而忽略了对特征和数据理解的目的)。 在许多机器学习相关的书里,很难
智能算法
2018/04/02
4.7K0
结合Scikit-learn介绍几种常用的特征选择方法(上)
推荐系统中的Auto Embedding Size算法
推荐系统的输入特征具有稀疏性、分布差异大的特性,这两个特性决定了AES工作的意义。其中“稀疏性”理解为特征id经过hash化后,往往只占据完整hash表的一部分。比如文章的category,一般是百级别到千级别的,为了避免冲突,我们一般设定hash表的大小是category数量的数倍,这样就会存在着大量没有使用到的表元素。进一步的,对hash表中的元素建立embedding table,也会存在着大量embedding没有被使用。因此,embedding占据了推荐模型中的大部分参数量。而“分布差异大”则表现为,不同field的特征数量往往差别很大,比如对于“性别”只有3个值,而user ID的量级可能是数以亿计。因此,不同的features所携带的信息也是各异的。特别的,对于一些低频的特征,不仅应该设定更小的embedding size,甚至还可能要将其过滤掉以避免出现过拟合;而对于一些高频的特征,不仅本身携带较大的信息量,和其他特征也会有更大的“共现”机会(“共现”的特性可以用来建模交叉特征,这里不做展开讲),因此应该设定更大的embedding size。
独步天下
2021/11/09
2.8K0
KDD 2022 | 美团技术团队精选论文解读
总第529篇 2022年 第046篇 今年,美团技术团队有多篇论文被KDD 2022收录,这些论文涵盖了图谱预训练、选择算法、意图自动发现、效果建模、策略学习、概率预测、奖励框架等多个技术领域。本文精选了7篇论文做简要介绍(附下载链接,论文排名不分先后),希望能对从事相关研究方向的同学有所帮助或启发。 论文01:Mask and Reason: Pre-Training Knowledge Graph Transformers for Complex Logical Queries(支持知识推理的图谱预训
美团技术团队
2022/08/26
1.8K0
KDD 2022 | 美团技术团队精选论文解读
教你如何做特征选择
1、为什么要做特征选择 在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。
机器学习AI算法工程
2019/10/28
1.4K0
教你如何做特征选择
计算机视觉与模式识别学术速递[12.8]
【1】 SSAT: A Symmetric Semantic-Aware Transformer Network for Makeup Transfer and Removal 标题:SSAT:一种对称语义感知的补丁迁移与移除转换网络 链接:https://arxiv.org/abs/2112.03631
公众号-arXiv每日学术速递
2021/12/09
1.6K0
数据维度爆炸怎么办?详解5大常用的特征选择方法
在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一个子模块,一般不会单独拿出来讨论。
Datawhale
2020/07/28
1.7K0
数据维度爆炸怎么办?详解5大常用的特征选择方法
ECCV | Pixel2Mesh:单目彩色相机重建三维模型
该paper是由普林斯顿大学3个英特尔实验室4个复旦大学数据科学学院以及5个腾讯人工智能实验室研究员合作的。来自于复旦大学计算机科学学院上海市智能信息处理重点实验室。该论文已经投中ECCV2018。
小白学视觉
2019/11/07
2.1K0
WSDM Cup 2020检索排序评测任务第一名经验总结
美团搜索与NLP部与国内两所高校组队,提出了一种基于BERT和LightGBM的多模融合检索排序解决方案,拿下了WSDM Cup 2020 Task 1榜单的第一名。本文系获奖作者的经验总结文章。
美团技术团队
2020/03/26
9030
推荐系统[八]算法实践总结V2:排序学习框架(特征提取标签获取方式)以及京东推荐算法精排技术实战
「排序学习(Learning to Rank,LTR)」,也称「机器排序学习(Machine-learned Ranking,MLR)」 ,就是使用机器学习的技术解决排序问题。自从机器学习的思想逐步渗透到信息检索等领域之后,如何利用机器学习来提升信息检索的性能水平变成了近些年来非常热门的研究话题,因此产生了各类基于机器学习的排序算法,也带来了搜索引擎技术的成熟和发展,如今,Learning to Rank已经成为搜索、推荐和广告领域非常重要的技术手段。
汀丶人工智能
2023/02/28
9740
机器学习学术速递[12.9]
【1】 A graph representation based on fluid diffusion model for multimodal data analysis: theoretical aspects and enhanced community detection 标题:用于多模态数据分析的基于流体扩散模型的图表示:理论和增强的社区检测 链接:https://arxiv.org/abs/2112.04388
公众号-arXiv每日学术速递
2021/12/09
1.6K0
王喆:工作近十年的方向思考
导读:大家好,我是《深度学习推荐系统》的作者王喆,很多同行可能读过这本系统性介绍推荐系统的书,但大多数人可能不知道我职业生涯的头四年都在做广告系统,之后才在推荐系统方向工作了四年,这两年又回到了广告方向。既然是重操旧业,就不免想对计算广告这个方向做一次全面的再思考。
Datawhale
2023/01/10
2.3K0
王喆:工作近十年的方向思考
推荐阅读
相关推荐
自然语言处理学术速递[6.22]
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档