Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI生图可“量身定制”了,华为&清华联手打造个性化多模态生成方法PMG

AI生图可“量身定制”了,华为&清华联手打造个性化多模态生成方法PMG

作者头像
量子位
发布于 2024-06-21 00:24:57
发布于 2024-06-21 00:24:57
2150
举报
文章被收录于专栏:量子位量子位
星海 投稿 量子位 | 公众号 QbitAI

苹果OpenAI官宣合作,GPT-4o加持Siri,让AI个性化生成赛道热度飙升。

其实,国内已有相关研究,一项基于大模型的个性化多模态内容生成技术,直接可让AI学会为用户“量身定制”输出。

例如在聊天软件中生成表情包,输入都是:

我通过了,很开心!

配备了个性化生成技术的聊天软件可以识别当前用户想表达的情绪并考虑用户的个性化偏好,自动生成表情库里没有的多个笑脸猫表情候选供用户点击使用:

图1 个性化生成能够生成符合用户偏好的表情包

相比而言,非个性化生成不会考虑每个用户之前的行为偏好,对用户无差别对待,就没那么懂用户了。

这项最新技术名为PMG(Personalized Multimodal Generation),由华为与清华大学联手打造。

PMG不仅限于即时通信软件,还可以广泛应用于电商、在线广告、游戏、创作辅助等领域,实现个性化背景、人体形态、颜色、表情、角色等内容的生成。

比如根据用户历史偏好提取关键词,生成T恤设计图:

PMG是如何做到个性化生成的?

PMG长啥样?

以个性化生成《泰坦尼克号》电影海报为例,下图展示了PMG的模型结构。

图2 PMG的模型结构

用户的观影和对话历史作为用户历史行为,电影泰坦尼克号真实的电影海报作为目标物品。研究团队利用大语言模型的推理能力,从用户历史行为中提取用户偏好。

具体包括两部分:

  • 通过冻结的大语言模型生成自然语言的显式关键词表达用户偏好,称为“显式(硬)用户偏好”,例如图中用户喜欢灾难、惊悚片;
  • 通过可训练的大语言模型生成的隐式向量,称为“隐式(软)用户偏好”,用来补充表达难以用少数关键词描述的偏好。

同时,他们将目标物品也通过大模型转换为显式关键词(称为“目标物品关键词”)作为目标项的描述信息。

最终,生成器(例如扩散模型或多模态大语言模型)通过整合和加权用户偏好和目标项关键词来生成既反映用户个性偏好、又符合目标物品的多模态内容,例子中为更具有灾难、惊悚风格的泰坦尼克号电影海报。

整个过程中有三个关键技术点:关键词生成、隐式向量生成、用户偏好和目标项的平衡。

下面我们逐一来看。

关键词生成

首先需要构造提示词指导大模型将用户偏好提取为关键词,该提示词主要包含三个组成部分:任务指令p、属性ai和任务示例e

这些组件是针对每个场景人工设计的。

其中,任务指令p描述了需要大语言模型执行的任务,即“提取用户偏好”。

属性a=[a1,a2…]针对每个场景进行了定制,例如对于服装可以是“颜色、材质、形状”,对于电影可以是“类型、地区、导演”等等。

在每个问题中,大语言模型被指派回答与特定属性相关的用户偏好,并将这些答案进行组合。

示例e提供了期望的输出格式和示例关键词(例如“可爱”、“卡通”等),不仅有助于指导模型的回答,还使其遵循了标准化的输出格式,从而便于从生成的输出中提取关键词。利用这个提示,可以将模型为属性ai生成的用户偏好关键词kpi表示为:

接下来,将每个属性的输出组合起来,并消除重复项,得到用户偏好关键词kp:

生成目标项目关键词kt的过程类似,但只有一个目标交互物品ht和相应的总结信息xt,同时在这种情况下,没有涉及到对话,其生成过程可以表示为:

隐向量生成

利用提取出的用户偏好关键词kp和目标项关键词kt,已经可以用于后续多模态内容生成,然而,作为一种离散化形式,自然语言表达能力有限。

另一方面,利用连续的隐向量能提供更丰富和精确的表示却需要大量的训练资源。因此我们采取以关键词为主,隐向量为辅两者结合的方式表征用户偏好,这些用户偏好向量有助于解决自然语言与实际用户偏好之间的不匹配问题,其训练过程如图3所示。

图3 用户偏好向量训练流程

在用户行为与提示词的基础上,研究团队引入P-Tuning V2微调的偏差校正大模型,在其中使用额外长度为L的多模态表征M=[m1,m2…mL]来学习多模态生成能力。

这些多模态表征会被传递给大语言模型,并且它们在向量层中的对应参数是可训练的。

同时按照P-Tuning V2的方法,在每个Transformer层的自注意力机制中,将S个可训练的前缀向量t=[t1,t2…tS]前置到向量序列中。偏差校正大模型正向传播操作的结果输出向量可以表示为:

其中Eprompt和Em表示大语言模型的两部分输出,其中多模态表征的输出Em被作为偏好隐向量用于后续多模态内容的生成过程。生成器结合偏好隐向量、用户关键词生成的多模态内容会与监督信号计算MSE损失,并反向传播到偏差校正大模型中的可训练参数中进行训练。

用户偏好和目标项的平衡

在生成推理过程中,需要同时结合用户偏好和目标项。

然而,生成器往往具有较大的随机性,简单地组合可能导致对某一个条件的过度侧重,而忽略了另一个条件。为了解决这一问题,研究团队使用生成内容与偏好关键词之间的相似度来衡量个性化程度,称之为“个性化水平”

同样地,生成结果与目标项关键词的相似度称为“准确度”,即目标契合指标。

通过这两个指标,可以从两个角度量化衡量生成效果。

这两个指标的计算方式为利用预训练的多模态网络(如CLIP),将生成结果M和关键词kp、kt转换为向量eM、ep、et,计算它们之间的余弦相似度,作为个性化水平dp和准确度dt。

最后,优化目标为最大化dp和dt的加权和:

超参数α通常设置为0.5,可以根据使用场景和需求进行调整,以实现不同程度的个性化。

考虑到当前多模态生成器具有强大的并行生成能力,研究团队使用多个预定义的权重集合wp、wt进行生成,并选择得分z最高的一个作为最终生成结果。

PMG效果如何?

研究团队通过以下三个应用场景来验证PMG:

  • 电商应用中以服装图片生成为例,根据用户历史点击的产品,生成服装的个性化图像。研究团队采用了一个多模态的时尚服装数据集POG,用于训练和评估。
  • 电影海报场景,根据用户观影历史,生成个性化电影海报。采用MovieLens数据集进行训练和评估。
  • 表情生成应用中,根据用户的对话和表情使用历史,生成个性化表情符号。

使用Llama2-7B作为基础的大模型进行了实验,生成效果如下图所示。

在每个场景中,PMG都能够生成反映用户偏好的个性化内容。

它可以为男性和女性生成不同风格的服装图片:

图4 服装场景生成效果

为喜欢卡通片的观众生成卡通版电影海报:

图5 电影海报场景生成效果

为喜欢小动物的用户生成小猫表情包:

图6 表情包场景生成效果

研究人员使用POG和MovieLens数据集对服装和电影海报这两个场景进行了量化评估。

评估方式是通过图像相似度指标LPIPS和SSIM计算生成结果与用户交互历史以及与目标物品图像之间的相似度,从而衡量其个性化程度以及与目标物品的符合程度。

PMG在这两个指标上都表现出色,测试结果如下表:

此外,研究人员展示了对偏好隐向量的Case Study分析。

当只提供关键词“鞋子,卡通”时,有一定可能形生成鞋子的卡通风格画。然而,在加入偏好隐向量后,模型始终生成带有卡通图案的逼真鞋子。

如下,左图为仅使用关键词生成,右图为同时使用关键词和隐向量进行生成。

图7 偏好隐向量的Case Study

研究团队通过用户调研对该技术进行了评估,结果显示,PMG生成的内容得分远高于非个性化生成内容。

最后,团队表示,个性化多模态生成技术目前处于早期探索阶段,近期重量级的OpenAI与苹果Siri合作的核心竞争力之一就是通过Siri的用户数据来让AI生成加入个性化,个性化多模态生成技术将成为AI的关键热点趋势。

我们相信这项技术将在未来拥有广阔的应用前景和巨大的商业潜力,很快迎来爆发式增长。

论文链接:https://arxiv.org/abs/2404.08677 代码链接:https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
个性化推荐算法总结[通俗易懂]
并且,推荐系统能够很好的发掘物品的长尾,挑战传统的2/8原则(80%的销售额来自20%的热门品牌)。
全栈程序员站长
2022/08/15
2.1K0
个性化推荐算法总结[通俗易懂]
《探秘AI驱动的个性化推荐系统:精准触达用户的科技密码》
在这个信息爆炸的时代,海量的信息如潮水般涌来,用户面临着选择的困境,企业也在思考如何让自己的产品或内容脱颖而出。AI驱动的个性化推荐系统应运而生,它像一位贴心的私人顾问,精准地洞察用户需求,为用户呈上符合心意的推荐。那么,这个神奇的系统是如何运作的呢?
程序员阿伟
2025/02/21
1870
读书笔记 |《推荐系统实践》- 个性化推荐系统总结
推荐系统实践 对于推荐系统,本文总结内容,如下图所示: 推荐系统.png 文章很长,你可以跳着看你感兴趣的部分。 一、什么是推荐系统 1. 为什么需要推荐系统 结论是,为了解决互联网时代下的信息超载问
小莹莹
2018/04/20
1.8K0
读书笔记 |《推荐系统实践》- 个性化推荐系统总结
算法入侵,不如拥抱、打造更好的个性化推荐系统?
此时此刻,算法正在监视着你。她们监视你去哪里、买了什么、遇见了谁,包括你的每一次呼吸、每一次心跳。
mixlab
2021/07/08
5400
算法入侵,不如拥抱、打造更好的个性化推荐系统?
集体智慧的结晶:个性化推荐系统
在DT(datatechnology)时代,人们的日常生活已经和各种各样的数据密不可分,例如在网络购物、在线视频、在线音乐、新闻门户等都在产生海量的数据。海量的数据产生也带来了信息过载和选择障碍的困扰,每个用户的时间和精力是有限的,怎样帮助用户进行信息的过滤和选择,在DT时代是非常有价值的。
博文视点Broadview
2020/06/12
9530
集体智慧的结晶:个性化推荐系统
AIGC个性化与定制化内容生成:技术与应用的前沿探索
随着人工智能技术的迅猛发展,生成式AI(AIGC,Artificial Intelligence Generated Content)逐渐成为各行各业的热门话题,特别是在内容创作和个性化推荐方面。个性化和定制化内容生成作为AIGC技术的重要应用场景之一,正在变革传统的内容生产模式,提供更符合用户需求、兴趣和情感的内容。这种趋势不仅在新闻、广告、社交媒体等领域表现突出,还在教育、娱乐、电子商务等行业中得到广泛应用。
云边有个稻草人
2025/01/03
6020
Tailored Visions:利用个性化提示重写增强文本到图像生成
当前,我们正在通过自监督学习的方式来训练越来越强大的基础模型。这些大型预训练模型(LPM)充当高效的压缩器,压缩大量互联网数据。这种压缩使得我们可以通过自然语言描述方便地提取这些模型中编码的知识。尽管还处于起步阶段,但这种方法显示出超越传统搜索引擎的潜力,成为知识和信息获取的优质来源。与改进搜索引擎的查询类似,提供给LPM的提示(Prompt)也必须精心设计。然而,与传统搜索引擎相比,提示的复杂性、模型响应的不可预测性带来了独特的挑战。为了理解LPM如何对各种提示做出反应,一些研究检验了重写提示以提高特异性的可行性。然而,在无法访问用户个人数据和行为的情况下,定制提示以准确满足用户的需求仍然具有挑战性。
用户1324186
2023/12/20
2530
Tailored Visions:利用个性化提示重写增强文本到图像生成
基于用户行为的个性化推荐
在数字化时代,个性化推荐系统已经成为各种在线服务的关键组成部分。无论是在电子商务平台、社交媒体、流媒体服务,还是新闻门户网站,个性化推荐系统都在帮助用户发现他们感兴趣的内容。通过分析用户的历史行为和偏好,推荐系统可以为每个用户提供定制化的内容推荐,从而提升用户体验和平台的使用粘性。
数字扫地僧
2024/07/31
3620
生成式推荐: 迈向下一代推荐系统新范式
TLDR: 这篇论文提出了一种新的生成式推荐系统范式GeneRec,它通过结合content generation和instruction guidance来服务用户的个性化信息需求。此外,作者还强调了多种fidelity checks的重要性,以确保生成内容的可信度。作者探索了在短视频生成上实现GeneRec的可行性,并在多种任务上展示了不错的结果,为未来的研究留下了许多有价值的方向。
张小磊
2023/08/22
7530
生成式推荐: 迈向下一代推荐系统新范式
AI驱动的个性化推荐系统:技术解析与实践案例
在当今信息爆炸的时代,个性化推荐系统已成为解决信息过载问题的关键工具。它通过分析用户的历史行为、兴趣偏好等信息,为用户推荐符合其需求的产品或服务。AI技术的引入使得推荐系统更加智能、精准,能够更好地满足用户需求,提升用户体验。
江南清风起
2025/03/23
8020
独家 | 一文读懂推荐系统知识体系-上(概念、结构、算法)
本文主要阐述: 推荐系统的3个W 推荐系统的结构 推荐引擎算法 浏览后四章的内容请见下篇。 1. 推荐系统的3个W 1.1 是什么(What is it?) 推荐系统就是根据用户的历史行为、社交关系、
数据派THU
2018/03/26
3.5K0
独家 | 一文读懂推荐系统知识体系-上(概念、结构、算法)
达观数据个性化推荐系统应用场景及架构实现
在当今DT时代,每天都在产生着海量的数据,移动互联网的兴起更是让我们体验到获取信息是如此的简单和方便。 同时,更多的选择也带来更多的困扰,面对层出不穷的信息和服务带来的困扰,使得个性推荐迅速崛起,并且大放异彩,在金融、电商、视频、资讯、直播、招聘、旅游等各个领域都能看到推荐系统的存在。 达观数据凭借多年在推荐系统方面的技术积累和优质的大数据服务,已经有数百家公司接入达观推荐系统,覆盖多个行业,实现企业经营业绩的大幅提升。本次分享结合达观数据个性化推荐引擎在各个行业的从业经验,围绕以下内容展开: 个性化
机器学习AI算法工程
2018/03/14
1.7K0
达观数据个性化推荐系统应用场景及架构实现
[自然语言处理|NLP]推荐系统中的应用:从原理到实践
在推荐系统领域,自然语言处理(NLP)技术的崭新应用正迅速改变着用户体验和推荐精度。本文将深入研究NLP在推荐系统中的关键角色,探讨其对个性化推荐、搜索排序和用户交互的积极影响。我们将通过详细的示例和实践代码演示NLP在推荐系统中的实际应用,让你更好地理解这一领域的前沿发展。
数字扫地僧
2023/11/16
8110
超火的个性化推荐你再不会就OUT啦,让飞桨手把手来教你
导读:随着电子商务规模的不断扩大,电商平台的商品数量和种类呈爆发式增长,用户往往需要花费大量的时间才能找到自己想买的商品,这就是信息超载问题。为了解决这个难题,“个性化推荐”技术应运而生,有效地节约用户时间,提升电商成单率。本篇文章中,将为大家介绍个性化推荐系统的实现方法,并送上一份基于飞桨(PaddlePaddle)实现个性化推荐的代码教程。
用户1386409
2019/10/14
4910
超火的个性化推荐你再不会就OUT啦,让飞桨手把手来教你
Embedding 背景 发展 生成方法 在推荐中的应用
随着深度学习在工业届不断火热,Embedding技术便作为“基本操作”广泛应用于推荐、广告、搜索等互联网核心领域中。Embedding作为深度学习的热门研究方向,经历了从序列样本、图样本、再到异构的多特征样本的发展过程。本文主要主要参考几个篇大神写的文章,总结了现在主流的Embedding技术,简单介绍它们的基本原理,以及在推荐下的使用场景,希望对大家快速整理相关知识有所帮助。
大鹅
2021/01/26
3.5K0
Embedding 背景 发展 生成方法 在推荐中的应用
「文生图」再升级!学习个性化参照,无限生成多样图片,轻松设计玩具建筑
最近,来自南加州大学、哈佛大学等机构的研究团队提出了一种全新的基于提示学习的方法——DreamDistribution。
新智元
2024/01/17
2270
「文生图」再升级!学习个性化参照,无限生成多样图片,轻松设计玩具建筑
BOOM!多模态遇上推荐系统
关于多模态和推荐系统融合的文章,我们之前有分享过一期:BOOM!推荐系统遇上多模态信息。
NewBeeNLP
2022/04/14
2.3K0
BOOM!多模态遇上推荐系统
【机器学习】推荐系统——基于用户行为分析的个性化推荐技术
推荐系统是一种信息过滤技术,其核心任务是通过分析用户的历史行为、兴趣偏好以及其他用户的行为数据,为用户预测和推荐他们可能感兴趣的内容或产品。推荐系统不仅能提高用户的满意度,还可以帮助平台提升用户粘性、增加收益。
2的n次方
2024/10/15
1.4K0
【机器学习】推荐系统——基于用户行为分析的个性化推荐技术
尝试改进微信读书个性化推荐:一个基于 CTR 预估的方法
本文设计了一个离线实验,用 CTR 预估方法做书籍个性化推荐,发现效果(准确率、召回率)较现网方法(Word2vec)提升接近一倍。
刘笑江
2018/05/28
1.4K0
AI 驱动的个性化推荐系统设计
文章链接:https://cloud.tencent.com/developer/article/2469020
Swift社区
2024/11/25
4050
AI 驱动的个性化推荐系统设计
推荐阅读
相关推荐
个性化推荐算法总结[通俗易懂]
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档