Loading [MathJax]/jax/output/CommonHTML/jax.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >『 DSSM』A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems

『 DSSM』A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems

作者头像
百川AI
发布于 2022-05-15 03:21:28
发布于 2022-05-15 03:21:28
1.1K0
举报
文章被收录于专栏:我还不懂对话我还不懂对话

Abstract

MULTI-VIEW-DNN联合了多个域做的丰富特征,使用multi-view DNN模型构建推荐,包括app、新闻、电影和TV,相比于最好的算法,老用户提升49%,新用户提升110%。并且可以轻松的涵盖大量用户,解决冷启动问题。

主要做user embedding的过程,通多用户在多个域的行为作为一个ivew,来表征用户,参与用户embedding过程。

Contribution

  1. 利用丰富的用户特征,建立多用途的用户推荐系统
  2. 针对基于内容的推荐,提出了一种深度学习方法。并学习不同的技术扩展推荐系统。
  3. 结合不同领域的数据,提出了Multi-View DNN模型建立推荐系统。
  4. multi-view DNN模型解决用户冷启动问题。
  5. 基于四个真实的大规模数据集,通过严格的实验证明所提出的推荐系统的有效性。

Data Set

Type

DataSet

UserCnt

FeatureSize

Joint Users

User view

Search

20M

3.5M

/

Item View

News Apps Movie/TV

5M 1M 60K

100K 50K 50K

1.5M 210K 60K

DSSM FOR USER MODELING IN RECOMMENDATION SYSTEMS

deep structured semantic model参考Learning deep structured semantic models for web search using clickthrough data

结构图:

  1. 把条目映射成低维向量。
  2. 计算查询和文档的cosine相似度。

其中:

word hashing

通过word hashing层将word映射为稠密向量。以good为例。

  1. 添加首尾标记: #good#
  2. 拆分word为n-grams: #go, goo, ood, od#
  3. 通过多个小的n-grams的向量表示word。

这种方法即使有新词出现,也不会出现问题。

DSSM训练

对于一次搜索,如果点击了一个文档,认为他们是相关的。对于搜索查询集,DSSM去最大化被点击文档 条件似然概率**。

其中D是全集, 是平滑因子。损失函数自然就是:

MULTI-VIEW DEEP NEURAL NETWORK

对于User view,计算User View和Item View之间的 ,然后最小化:

其中P()定义为:

Data input

对于第j行输入数据,它的主域 和一个激活View ,其余的View输入 都为0向量。

User features

  • search queries:规范化,然后处理成unigram格式。
  • clicked URLs:只保留主域名,如www.linkdin.com

News features

news article clicks:

  1. title( tri-gram)
  2. top-level category(binary features)
  3. named entities

App features

App download histories:

  1. App tile( tri-gram)
  2. category(binary)

Movie/TV feature

movie/TV view history

  1. title( tri-gram)
  2. description( tri-gram)
  3. genre(binary)

训练过程

训练目标:

原文公式:

训练目标:

最小化L()为目标得到 ,即网络的参数矩阵。

MV-DNN优势

  1. 和DSSM相比,其query和doc的feature是一样长的维度,使用同样的预处理,限制了feature。而跨域信息feature往往不同,而且n-gram方法并不适用,所以MV-DNN结合其类别特征(如电影和app类别,地理位置等)。
  2. MV-DNN可以结合多个跨域信息,实现对user embedding。pair-wise training过程,user-item pairs。

降维方法

top features

对于user features,选取top-k最频繁的features。并通过TF-IDF过滤掉最常用的特征。

k-means

k-mean会指定k为类簇的个数,目标是最小化所有类簇点与中心点的距离只和。公式表达:

其中 是数据点, 是每个类簇的中心。通过K-means对相似的特征群分组为同一个cluster并生成新的特征,共生产k个新的特征。

应用:

对于输入数据矩阵X,shape=[size=n, dimension=k],划分为 ,然后将每个 归一化,对 使用k-means聚类, 之间计算距离用cos相似度。然后就可以将特征降维到k维,对于每个新的特征向量 有:

比如原始维度是3.5M,设置k=10k,那么将为之后维度就是10k。

Local sensitive Hashing

通过一个随机的矩阵将数据映射到低纬向量空间上,并且保持原始空间上的pairwis cos距离在新的空间上仍然获得保留。

原始维度d,降维到k,那么映射矩阵 ,即A包含了k个映射,每个映射 都将X映射为 ,输出为 。计算 的公式为:

计算 的cos相似度近似表示为:

,其中 表示汉明距离,论文选取的k=10000.

Reduce the Number of Training Examples

每个用户在每个域都有大量的日志数据,将每个用户在每个域只选取一个user-item对,具体为用户特征-用户在此域喜欢的所有item的平均分数。

CONCLUSION AND FUTURE WORK

本文提出了一种通用的结合丰富用户特征和item特征的推荐系统框架,通过结合多个域的丰富信息,是的推荐系统的质量极大提高,并且此方法通过降维的方法可扩展到大的数据集,同时对于老用户和新用户都适用推荐,在几个公开的大数据集上的表现都明显优于其他方法。

此框架可以应用于各个推荐系统,未来还需要:

  1. 纳入更多的用户特征。
  2. 增加DNN扩展性,以便不在使用特征降维的方法。
  3. 加入更多的域并深入分析它的表现。
  4. 如何将协同过滤方法和本文的基于内容的方法结合。

代码

DSSM & Multi-view DSSM代码 https://github.com/InsaneLife/dssm Multi-view DSSM实现,参考GitHub:multi_view_dssm_v3 CSDN原文:http://blog.csdn.net/shine19930820/article/details/78810984

Model DSSM on Tensorflow

代码: https://github.com/liaha/dssm

keras实现

Reference

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017-12-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
10级商用版Kettle作业调度工具taskctl免费开源
taskctl是一款由成都塔斯克信息技术公司历经10年研发的etl作业集群调度工具,该产品概念新颖,体系完整、功能全面、使用简单、操作流畅,它不仅有完整的调度核心、灵活的扩展,同时具备完整的应用体系。目前已获得金融,政府,制造,零售,健康,互联网等领域1000多家头部客户认可。
TASKCTL 任务调度平台
2020/06/29
2.4K0
10级商用版Kettle作业调度工具taskctl免费开源
深入浅出的etl调度工具TASKCTL
批量调度自动化技术是大数据时代数据整合后台不可缺少的重要技术。数据是黄金,数据是整个社会乃各企业团体的重要资产,管好数据、用好数据是整个社会的重要命题。想要用好数据,首先就应该管好数据。而批量调度自动化技术,正是管好数据的重要保证。在众多大大小小数据仓库、数据集市以及各种各样的数据池子中,是批量调度自动化技术让大量数据的进出、存放、清洗、过滤、粗加工、细加工等各种各样的工作有序、高效的展开。没有批量调度自动化的数据管理、数据整合等ETL工作,就像一家大公司没有领导,所有工作必将变得紊乱、低效、失控。
TASKCTL 任务调度平台
2020/06/09
1.7K0
深入浅出的etl调度工具TASKCTL
【国产】大数据ETL自动化调度运维专家TASKCTL
批量调度自动化技术是大数据时代数据整合后台不可缺少的重要技术。TASKCTL 是一款企业级免费批量调度系统,支持各类脚本、程序的调度。具备可视化图形拖拽式设计界面,可视化作业管控、计划调度、实时监控、消息提醒和日志分析功能;有效弥补了传统ETL工具在调度管理和监控分析方面不足;同时平台还提供元数据管理、数据关系分析、版本控制、日志分析等完善的辅助管理功能,为企业提供数据迁移、数据仓库、数据标准化、数据同步、数据备份、数据交换以及企业定制化二次开发在内的一体化整合服务。
TASKCTL 任务调度平台
2022/05/27
1K0
【国产】大数据ETL自动化调度运维专家TASKCTL
【开源】etl作业调度工具性能综合对比
最近遇到了很多正在研究ETL及其工具的伙伴向我们抱怨:同样都在用 Kettle ,起点明明没差异,但为什么别人ETL做的那么快那么好,自己却不断掉坑?
TASKCTL 任务调度平台
2020/06/22
2.1K0
【开源】etl作业调度工具性能综合对比
金融服务业etl作业集群统一调度平台搭建
批量处理是银行业整个信息后台最为重要的技术形态,也是银行核心信息资产数据的分享、传输、演化的重要技术手段。有调查指出,全球70%的数据是经过批量处理得以再次使用,可见批量处理在整个信息生态中的技术占比与重要行。
TASKCTL 任务调度平台
2020/06/18
2.1K0
分布式批量任务调度、自动化运维管理监控平台Taskctl
前言 随着企业拥抱数字化程度的提高,数据是企业的发展关键。数据的需求来源于业务也服务于业务,数据的挖掘、探索、分析、个性化推荐、报表等等都依托于数据的输送、转换和写入。数据的调度就是作业的调度。批量作业调度是金融行业信息后台最为重要的技术形态。
TASKCTL 任务调度平台
2021/01/11
2.4K0
【开发者推荐】告别繁琐:一键解锁国产 ETL 新贵,Kettle 的终结者
TASKCTL 是一款免费、国产的ETL调度工具。以其实时数据集成、全 WEB 可视化操作、高性能和对国产数据库的深度支持,迅速成为市场的新选择。
TASKCTL 任务调度平台
2024/07/02
3450
【开发者推荐】告别繁琐:一键解锁国产 ETL 新贵,Kettle 的终结者
10万级etl作业批量调度工具Taskctl之轻量级Web应用版
批量处理是银行业整个信息后台最为重要的技术形态,也是银行核心信息资产数据的分享、传输、演化的重要技术手段。有调查指出,全球70%的数据是经过批量处理得以再次使用,可见批量处理在整个信息生态中的技术占比与重要性。
TASKCTL 任务调度平台
2020/11/30
7950
10万级etl作业批量调度工具Taskctl之轻量级Web应用版
中美两国10万级作业调度工具 "TaskCtl" Vs "Control-M" 如何选用
先说说PK方法:这两款软件都宣称企业级调度软件,我们就先从软件企业级特征方面PK,随后从软件功能点进行PK,最后,PK最关键的东东-用户体验!
TASKCTL 任务调度平台
2020/07/08
1.4K0
中美两国10万级作业调度工具 "TaskCtl" Vs "Control-M" 如何选用
etl作业部署与调度——taskctl管理概述
TASKCTL是一款功能全面的作业自动化调度技术管理工具。所谓作业,是指部署在网络中不同计算机上的各种程序或系统命令。通过TASKCTL,可以快速将这些作业组织起来,并进行有效的管理以及各种参数化运行控制。在业界,普遍将这种技术称为作业调度,其技术本质是作业运行管理的自动化控制。
TASKCTL 任务调度平台
2020/06/16
1K0
etl作业部署与调度——taskctl管理概述
Docker应用实例解析:如何与TASKCTL携手,助力商业银行运维革新
在数字化转型的浪潮中,商业银行的运维工作面临着前所未有的挑战和机遇。我们迎来了一个全新的运维时代——自动化运维。大家希望能够拥有一种工具,能够简化任务、提升效率,同时保障系统的安全稳定。今天,我想和大家聊聊 Docker 这一容器化技术,以及它是如何与 TASKCTL 这一自动化运维工具携手,共同助力商业银行运维革新的。
TASKCTL 任务调度平台
2024/05/27
1040
Docker应用实例解析:如何与TASKCTL携手,助力商业银行运维革新
这些常用ETL批量调度平台框架组件,你都知道几个?
一个基于Python,提供类似Cron功能,并深受Java Quartz 影响的轻量级进程内任务调度框架。
TASKCTL 任务调度平台
2021/01/06
1.3K0
这些常用ETL批量调度平台框架组件,你都知道几个?
etl调度工具Taskctl——稳定强大web版“0元授权”
2020年疫情席卷全球,更是对整个市场经济造成了严重影响,年初疫情肆虐,西方世界单方面的科技、经济封锁,国际关系吃紧.....导致很多中小型企业业务链受阻,大型企业经费资金吃紧,轮班制导致公司运维人员工作量大幅增加;塔斯克信息技术公司经领导研究决定为了履行社会责任,积极回报社会,帮助在此疫情期间受影响的企业减少运维资金支出、提升工作效率、保证后台数据安全,工作需求场景能够应用到的ETL批量作业调度工具的,为此公司技术团队集中人力耗时6个月在原有商用版Taskctl 6.0衍生出现有的web端 Taskctl Free应用版
TASKCTL 任务调度平台
2020/11/13
9730
etl调度工具Taskctl——稳定强大web版“0元授权”
【国产】自动化IT运维监控平台TASKCTL五种运行统计分布情况
柱状图展示平台作业在一天内,以每两小时为跨度,各个时段运行分布情况和峰值区域。帮助用户分析当天哪些时段的业务处理繁忙,从而优化业务处理的时间窗口。
TASKCTL 任务调度平台
2022/05/23
5820
【国产】自动化IT运维监控平台TASKCTL五种运行统计分布情况
国产自动化ETL调度运维工具 TASKCTL 控制容器概述
在产品中,控制信息主要通过具有一定规则的文本实现,且该文本信息直接面向用户设计开发。因此,掌握该文本信息的组织规则是设计 TASKCTL控制器的根本前提。
TASKCTL 任务调度平台
2022/04/28
7820
国产自动化ETL调度运维工具 TASKCTL 控制容器概述
国产数据仓库常用ETL调度平台TASKCTL对于Kettle作业类型的转换使用
TASKCTL默认采用pan命令方式调度kettle转换作业。除此之外,我们还提供了taskctl-plugin-kettle(Soap服务)插件的方式驱动kettle转换。相比原生的pan命令,Soap服务直接驱动kettle核心进行调度。资源消耗更低、速度更快,支持高并发。
TASKCTL 任务调度平台
2022/05/30
1.1K0
国产数据仓库常用ETL调度平台TASKCTL对于Kettle作业类型的转换使用
宜信微服务任务调度平台建设实践|分享实录
导读:如今,无论是互联网应用还是企业级应用,都充斥着大量的批处理任务,常常需要一些任务调度系统帮助我们解决问题。随着微服务化架构的逐步演进,单体架构逐渐演变为分布式、微服务架构。
宜信技术学院
2019/10/22
1.2K0
详解ETL银行数据仓储抽取和加载流程概述
ETL是Extract、Transfrom、Load即抽取、转换、加载三个英文单词首字母的集合:
TASKCTL 任务调度平台
2020/07/15
2.5K0
企业任务调度解决方案:Airflow vs TASKCTL 深度剖析
在实际系统运维工作中,Airflow 和 TASKCTL 都是强大的任务调度工具,但它们在功能、安全性、技术架构和应对压力方面各有特点。以下是我对两者的对比:
TASKCTL 任务调度平台
2024/07/09
3170
企业任务调度解决方案:Airflow vs TASKCTL 深度剖析
破多品类AGV混合调度“难点”,打通数智化“堵点”,磅旗ADS+LDS赋能智能制造提质升级!
由于制造业生产的离散性,企业初期导入自动化系统只是解决单场景的需求,缺乏统一的顶层设计、统筹规划,信息孤岛现象、上下工序没有智能协同需要人工介入、单点去人化、断点自动化等现象普遍存在。
老King
2023/11/30
8240
破多品类AGV混合调度“难点”,打通数智化“堵点”,磅旗ADS+LDS赋能智能制造提质升级!
推荐阅读
相关推荐
10级商用版Kettle作业调度工具taskctl免费开源
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档