某电商平台如何知道向顾客展示哪些产品和优惠?部分答案涉及强化学习——这是一种机器学习类型,其中智能体逐步学习一套策略,以最大化某些奖励。某中心的广告部门高级首席应用科学家李立宏正在开发强化学习技术,以改善客户体验。
在单次访问中最大化广告效果相对容易。但此项工作的目标是创造积极的体验,促使顾客持续回访。这涉及在给定查询或产品下,关于在网页上展示内容的一系列长期决策。
“我们研究的科学问题是‘如何优化决策,以在长时间范围内改善客户体验?’”他解释道。
强化学习不同于其他仅关注预测的机器学习类型。例如,电子邮件客户端可能预测某条消息是否为垃圾邮件,或者医疗程序可以为MRI图像是否与特定诊断相关分配概率。但仅有预测不足以做出随后改变系统的决策。
“我们需要将这些预测与下游效用结合起来,并做出优化效用的决策,”李立宏说。他以某对话系统为例进行说明。
“我们不只是预测‘客户在对话的特定时刻会如何回应?’”他在谈到该场景时说,“我们需要决定一个实际回应来吸引并协助顾客。然后,该回应的结果会反馈给学习算法。”
李立宏指出,强化学习涉及的主要挑战是复杂性和风险。当算法必须根据决策及其结果进行自我更新,而不是做出实际上不会改变系统的预测时,设计算法的任务变得复杂得多。这是复杂性部分。然后是风险部分。
“当系统自主采取行动时,我们付出巨大努力以确保良好的客户体验,”他说。工程师和科学家在算法投入生产之前,会在线下对其进行广泛验证。其中一个工具是离线策略强化学习,它使用历史数据来预测未来的在线性能。
李立宏在中国广州读高中时接触了计算机科学。“主要是学术兴趣,”他说,“我被计算机可能实现的功能潜力所吸引。”他也受到哥哥的启发,哥哥也是一名计算机科学家,基于李立宏在数学和科学方面的天赋,鼓励他从事该领域。
他从高中毕业后,在北京清华大学获得计算机科学学士学位,并继续在阿尔伯塔大学获得计算科学硕士学位,在罗格斯大学获得计算机科学博士学位。
在研究生院期间,李立宏担任过学术界的助教以及工业界的实习生。他说他不记得自己决定选择学术界还是工业界——他的职业生涯随着时间的推移自然发展。获得博士学位后,他在接下来的十年里先后在某公司、某机构以及最近的某公司担任研究科学家。
在加入新平台之前,李立宏之前的角色主要集中在不同研究组织内的算法研究。新平台更加以客户为中心、研究与工程相结合的方法吸引了他。
“我对新平台组织其科学和工程工作的方式印象深刻,”他说,“成为产品团队的一员使协作更加容易,也让科学家能够深入理解业务问题。”他补充说,新平台大量的技术机会和优秀人才也吸引了他。
今年早些时候,李立宏与同事(一位高级应用科学家)在KDD 2021上提交了一篇关于赌博机问题(强化学习问题的一个子类)的研讨会论文。这篇题为《电子商务的赌博机算法图谱》的论文源于近年来围绕赌博机问题的社区爆炸式增长。
大量赌博机算法和潜在应用为工业界人士带来了一个实际问题,李立宏说:“我如何知道应该从这个庞大的算法宇宙中选择哪一种算法用于手头的应用?”
他表示,这篇论文通过为电子商务问题绘制这些算法的图谱,朝着缩小这一差距迈出了第一步。他还在其他两个领先的人工智能会议——国际机器学习会议(ICML)和国际学习表征会议(ICLR)中担任高级领域主席。
根据李立宏的说法,在某平台取得成功的科学家类型是那些痴迷于客户并愿意深入研究实际问题的人。“这是在创造性和务实性之间取得平衡,”他说,“我们希望它在实践中运行良好,能够扩展,并对客户产生积极影响。”
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。