首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >强化学习研究者的成长之路与技术探索

强化学习研究者的成长之路与技术探索

原创
作者头像
用户11764306
发布2026-01-31 15:24:10
发布2026-01-31 15:24:10
1140
举报

Alexander Long 原计划追随父亲的脚步,在石油和天然气行业工作。在他的祖国澳大利亚,该行业是电气工程师的主要雇主,因此在他于昆士兰大学获得学士学位后,这似乎是一条自然的道路。

2013年,当 Long 准备毕业时,他成为昆士兰大学与慕尼黑工业大学合作项目选中的第一位学生。他在德国度过了两年时间,同时完成了昆士兰大学和慕尼黑工业大学的电气工程硕士学位。就在那时,他第一次听说了强化学习——并且他很快意识到他想深入探索。

“强化学习是构建最优行动问题的一种框架,” Long 解释道。“国际象棋就是一个很好的例子,你有一个目标——赢得比赛——并且你必须采取一系列连续的步骤来实现该目标。但直到你走了20或30步之后,你才会得到任何具体的反馈。” 同样的框架可以用来解决从赢得游戏到优化炼油厂或控制核聚变反应堆等多种问题。

强化学习的广泛应用让 Long 着迷。但他也指出,该方法存在一些显著的缺点。“其中之一是,在你学会如何良好行动之前,你需要与环境进行大量的交互,”他解释道。

更快速地学习

在完成硕士课程后,Long 在新南威尔士大学攻读计算机科学博士学位。他希望探索如何帮助强化学习模型通过更少的交互学习,从而变得更加数据高效的挑战。成果便是论文《通过非参数价值近似从像素中实现快速且数据高效的强化学习》,该论文在 AAAI 2022 的海报会议上展示。

论文指出,先前强化学习算法效率的进步是“以增加样本和计算复杂性为代价实现的”。这种增加的复杂性“为在线、现实世界环境设置了一个主要障碍”。在他们的论文中,研究人员提出了“迹间回报非参数近似算法”,这是一种兼具计算和样本效率的算法。

“我在那个领域探索,做基线工作,我发现有一种非常基础的方法,可以通过添加几项创新来现代化它,没什么复杂的,而且效果非常好,”他说。“这非常令人惊讶;该算法在数据效率方面与所有最佳方法不相上下,但在计算时间上快了大约100倍。”

他寻找解决方案的动力并不局限于强化学习。在攻读博士学位期间,Long 还有过一次创业经历,他与人共同创立了一家名为 Sigeion 的初创公司。他利用休假时间参加了风险投资公司 Antler 的加速器项目。

“他们的方法是吸纳个人,将他们融合在一起,并希望公司从中诞生,”他说。“他们的逻辑是,如果我们找到80个优秀的人,也许我们能得到3家可以投资的好公司。所以,他们把这变成了一场为期八周的小型‘饥饿游戏’竞赛。强度很大,压力很高,但相当有趣。”

Long 和他的联合创始人致力于将强化学习应用于供应链挑战。“强化学习的一个应用是优化库存水平和订单,”他说。“目前,这在许多行业都是以非常初级的方式解决的。” 最终,Long 和他的联合创始人是获得资助的八家公司之一,但他决定继续攻读博士学位。

加入某中心

当 Long 看到某中心于2021年在澳大利亚开设办公室时,他集中精力争取在那里获得一份工作。他通过联系他未来的老板、某中心应用科学总监 Anton van den Hengel 做到了这一点。“我给他发了三封邮件,缠着他要一份工作,”他回忆道。最终他获得了一次实习面试机会。他的第一次面试没有带来职位,但第二次成功了。

作为一名实习生,Long 从事了两个与某中心商店产品列表相关的不同项目。第一个项目涉及的问题是,虽然客户可以从相关图片中看到产品的特性,但与这些属性相关的实际数据——如尺寸、颜色或款式——有时会缺失或不完整。事后填补这些数据已被证明具有挑战性,原因之一在于此类系统必须应用的规模。

在以前的机器学习系统中,图像必须被标记,或具有与之相关的分类值。“最近的研究表明,实际上可以使用自由形式的文本,只要是自然语言,将其通过文本编码器,用某种联合目标进行训练,你就能得到该文本与图像中任何内容之间的相似性度量,” Long 说。“我们证明,可以使用这种方法,仅用一个单一模型来填补这些属性。这很重要,因为以前人们是为每个属性单独制作模型。”

这引出了第二个项目:试图结合现有单一属性模型的最佳特性与他之前项目的广泛预训练方法,以解决长尾分类问题。在这种情况下,一些数据被标记,但大多数类别只包含少数几个样本。

因此,Long 和他的研究员同事们提出了一种新方法,该方法在论文《用于长尾视觉识别的检索增强分类》中提出,并被计算机视觉与模式识别会议接受。论文引入了检索增强分类方法,将其应用于长尾分类问题,结果表明“相较于先前的最先进技术有显著改进……尽管仅使用训练数据集本身作为外部信息来源”。

“当你对一个类别的训练数据不足时,进行检索更好。但当你有大量训练数据时,经典的监督学习更好。理解RAC的一种方式是,它只是一种同时使用两者的方法,尽管它也解锁了一些其他能力,” Long 说。

初创心态

在实习结束时,Long 经历了一系列面试,并展示了他在这段时间内所做的工作,以帮助他获得应用科学家的全职职位。Van den Hengel 说,聘用 Long 的决定很容易。“他拥有出色的技能和强大的发表记录。但更重要的是,他展示了应用和扩展机器学习研究领域最先进技术的能力。这正是我们所寻求的。”

回顾他的实习经历,Long 说他的初创公司经历让他以为,像某中心这样的大公司意味着他不会有多少自由,而且会被明确告知该做什么。“根本不是那样,”他指出。“我被告知要设定自己的方向,按照自己的节奏工作,然后看看六个月后你做出了什么。”

“实习中另一件特别棒的事情是与一些最聪明的人相处,” Long 说。在实习的头几周,他正在准备发表他的博士论文,并与一位同事分享了一份草稿,后者很快提出了宝贵的修改建议。“他知道所有这些我的大学里没人知道的小细节。而且你经常会有那样的互动。”

Long 将他在这家机构的经历与他父亲在石油和天然气行业的经历进行了比较,在那里,效率的微小改进可能产生数千万或数亿美元的业务影响。“一个人或一群人能够坐下来,深入思考,并对客户和业务产生不成比例的影响,这太棒了。能够发生这种情况的地方非常少。”FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档