首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >计算机视觉先驱的技术探索与应用

计算机视觉先驱的技术探索与应用

原创
作者头像
用户11764306
发布2026-05-26 22:23:55
发布2026-05-26 22:23:55
90
举报

Anton van den Hengel 从知识产权法到计算机视觉先驱的历程

某机构在澳大利亚阿德莱德的应用科学总监认为,计算机视觉的经济价值已经“飙升”。

作者:Sean O'Neill

2022年6月20日

9分钟阅读

计算机视觉及其众多应用领域的国际先驱 Anton van den Hengel 于2020年4月离开南澳大利亚的阿德莱德大学,加入某机构担任应用科学总监。他正在阿德莱德创建一个新的、世界级的机器学习中心,并通过开发和最先进的计算机视觉及可扩展机器学习来支持某机构的业务。

2018年,van den Hengel 担任澳大利亚机器学习研究所(AIML)的创始主任,这是澳大利亚首个致力于机器学习研究的机构。当他离开加入某机构时,AIML 已有140名员工,在计算机视觉研究方面的机构世界排名中名列前茅。他目前仍担任 AIML 新成立的增强推理中心的兼职主任,该中心的任务是在澳大利亚构建核心人工智能能力。Van den Hengel 撰写了超过300篇研究论文,拥有八项专利商业化,并担任过许多世界500强公司资助的研究项目的首席研究员。

产生影响的机会

改变 van den Hengel 想法的是学习计算机视觉的机会。“我看到了参与一项将产生巨大影响的事业的机会,”他说。如今计算机视觉及其应用无处不在,但在1990年代初期,情况截然不同。“现在很难相信,但当时世界上可能只有1000人在研究计算机视觉,而且那时还没有数码相机,”他回忆道。“当时计算机视觉领域的大多数论文至少有一半内容是关于人们如何获取图像的。”

90年代初 世界上可能只有1000人在研究计算机视觉,那时还没有数码相机。大多数计算机视觉论文至少有一半内容是关于人们如何获取图像的。

Anton van den Hengel

Van den Hengel 明白人类主要是视觉动物,他清楚地看到计算机必将利用视觉来感知并最终与世界交互的必然性。“但在那时,让计算机能够实际测量或影响现实世界几乎是不可想象的,”他说。

此后,计算机视觉从一个高度数学化的领域——每次会议只有300个彼此都认识的参与者——转变为拥有数千人参加的会议和挤满了试图招聘员工和销售产品的公司的会场。“计算机视觉的经济价值已经飙升,”他说。

Van den Hengel 表示,计算机视觉是一项基础技术,因为它将现实世界与符号联系起来。“人类用符号来推理事物,所以‘猫’、‘天空’、‘汽车’、‘道路’和‘鱼’都是符号,对吧?计算机视觉从现实世界获取视觉信号,并将这些信号与符号联系起来,”他说。“这一直是拼图中缺失的关键部分。几十年来人们预测到2000年我们将拥有做家务的机器人以及许多其他‘神奇’的事物,但我们未能实现,因为现实世界中的事物有着无穷无尽的变化,让计算机推理我们的物理环境比任何人想象的都要困难得多。”

寻找答案

计算机视觉的一个子领域——视觉问答(VQA)——致力于解决这个缺失的部分。其理念不仅是让计算机能以更语义化、更类人的方式理解图像(或视频/直播流)的内容,还能回答用自然语言提出的关于该图像的问题。例如:“这张照片是在哪里拍的?”、“看起来野餐毯上的人是在等人吗?”、“离停车标志最近的狗是什么颜色的?”。Van den Hengel 是视觉问答领域被引用次数最多的研究者,引用量接近22,000次。

“我很早就进入这个领域,因为我将其视为人工智能工作方式的一种门槛式变革,”van den Hengel 说。“VQA的有趣之处在于,你在运行时提出问题并需要立即得到答案,因此它需要非常灵活,不像当前的机器学习应用,通常是针对特定问题的固定、单一用途的解决方案。”换句话说,它需要更接近真正的人工智能——通常被称为通用人工智能。

沿着这个思路,想象一个能够基于对其周围所见事物的更深层次理解来遵循自然语言指令的机器人。这是一个科幻梦想,但还能持续多久?2018年,Van den Hengel 与来自澳大利亚各地的同事团队开发了一个模拟器,使用从真实建筑内部拍摄的图像来训练虚拟代理,使其能够成功遵循视觉基础指令导航,例如:“上楼,穿过正前方的拱门经过钢琴。当走廊尽头出现画作和桌子时右转。在挂在墙上的麋鹿角旁边等待。”van den Hengel 说,在必要时能够以类似方式与自动驾驶汽车对话只是时间问题。

神经网络的力量

机器学习的高速发展是近期计算机视觉研究加速的幕后推手。“在计算机视觉的最近十年中,我们基本上训练了深度学习神经网络来替代我们之前为解决大量问题而提出的所有那些精妙的计算机视觉算法,”他说。“事实上,神经网络在这方面表现要好得多,它们从一个有趣的谜题解决方案,变成了我们面临的一些核心挑战的实用解决方案。”

在阿德莱德大学期间,van den Hengel 应用机器学习和计算机视觉的进展以多种方式改善世界。这些工作包括与总部位于阿德莱德的医疗技术公司 LBT Innovations 合作,创建了一款名为 APAS Independence 的自动化病理学机器,该机器能够筛选和解读大量病理板。“受过培训的病理学家短缺,部分原因是一整天坐着做化学实验和看样本并不是很有趣。APAS 承担了视觉检查过程中的繁琐工作。”该设备于2019年获得 FDA 批准。

除了计算机视觉,van den Hengel 目前还是澳大利亚国家健康与医学研究委员会健康住房卓越研究中心的首席研究员,该中心正在利用机器学习帮助在澳大利亚住房系统内实现更好的成果,不仅是在住房方面,也包括健康方面。

“无家可归者患有疾病和受伤,这让他们住进医院,而无家可归可能使人陷入一系列困境,社会解决这些问题的成本非常高昂,”他说。“实际上,给某人提供住所比解决无家可归造成的影响更便宜。那么,我们可以在住房过程的哪个环节进行干预,从而使每个人受益并节省资金?”

然而,并非 van den Hengel 的所有工作都如此严肃。“我最满意但得到认可最少的一篇论文告诉人们如何从图像中的物体构建真实的乐高模型,”他说。“其中包含了出色的数学内容;那是我最喜欢的一些数学内容。它结合了重力、结构考量,以及,你知道的,精彩的数学。”他提到数学了吗?

Van den Hengel 甚至使用机器学习来设计一款 IPA 啤酒。“收集数据真是一场磨难:我们必须喝并评价大量的啤酒,”他 lamented。他将由此酿造的麦酒命名为 The Rodney,以向澳大利亚人工智能研究员和机器人专家 Rodney Brooks 致敬,Brooks 的工作成果是 Roomba 吸尘器。

加入某机构

作为澳大利亚在世界舞台上的积极倡导者,van den Hengel 渴望在某机构对该国的研究推进中发挥主导作用。“对于像某机构这样的公司来说,在澳大利亚启动一个新团队是一个绝佳的机会。”

通常,当学者转入某机构时,他们会谈论从学术界到工业界的节奏加快。Van den Hengel 却逆势而行。“我当时管理着一个140人的团队,努力赚足够的钱来支付他们的薪水,维持运营,交付价值数千万美元的项目,做公关,你能想到的都有,”他说。“在这里,我手下有大约25位拥有博士学位的世界级人才和12名实习生。”

Van den Hengel 指出,某机构是一个以结果为导向的环境。“在某机构,你需要交付成果,但你是与一支工程团队和支持系统一起完成的,这些团队和系统都旨在为客户带来利益。”

那么 van den Hengel 正在交付什么呢?当前的一个项目是应用视觉检查方法,帮助确保某机构的客户能获得尽可能优质的生鲜产品。

“我认为整个零售领域正朝着更好地理解世界中物体的本质以及人类如何与这些物体或产品相关联的方向发展。而这是计算机视觉特别擅长提供的。”

Anton van den Hengel

“视觉检查是一项宏伟的挑战,也是计算机视觉中的一个核心问题,”他说,“解决它意味着我们可以确保,当客户收到例如西红柿的配送时,它们尽可能完美。”

另一个关键项目涉及使用计算机视觉和机器学习,以更深层次的方式理解某机构不断变化的商品目录中数亿件商品。该目录拥有大量信息,既有基于文字的产品描述,也有卖家提供的图像。

“充分利用这两种信息来源中包含的信息——这本质上正是人类所做的——是一个有趣的挑战,因为它依赖于视觉信号和符号之间的关系,”他解释道,并补充说,攻克这一挑战将有助于使用某机构搜索的客户找到最符合其需求的商品,“即使他们自己也不完全确定如何最好地描述它。”

尽管管理一个不断壮大的团队有相当大的要求,van den Hengel 决心继续亲自参与自己的研究。“某机构是一家创新的公司,真正以一种能够为客户提供其他人无法提供的价值的方式进行创新,这意味着你需要那些深刻理解技术发展方向的领导者,”他说。

那么技术的发展方向是什么?“我认为整个零售领域正朝着更好地理解世界中物体的本质以及人类如何与这些物体或产品相关联的方向发展,”他说。“而这是计算机视觉特别擅长提供的。”FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档