首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >计算机视觉史上激动人心的2022年

计算机视觉史上激动人心的2022年

作者头像
AiCharm
发布于 2023-05-15 09:07:53
发布于 2023-05-15 09:07:53
4140
举报
文章被收录于专栏:AiCharmAiCharm

计算机视觉在过去的一年中迅速发展,涵盖了从基础设施支持到跨行业应用的全方位领域,同时也在算法研究和AI生成艺术领域取得了突破性进展。虽然无法在一篇博文中详细介绍所有这些发展,但有几个最大和最令人兴奋的进展值得回顾。

计算机视觉趋势

AI 生成作品“Théâtre D'opéra Spatial”的复制品,该作品在科罗拉多州博览会上

获得了数字艺术类别第一名。

Transformers 掌握计算机视

2017年,Transformer模型以"All You Need is Attention"的形式进入深度学习领域,为各种NLP任务设立了标准,开创了大型语言模型(LLM)的时代。2020年底,随着Vision Transformer(ViT)的推出,这些基于自我注意力机制的模型也首次在计算机视觉领域得到了应用。

今年,研究工作将Transformer模型推向了计算机视觉领域的前沿,并在各种任务中取得了最先进的性能。可以直接在Hugging Face的模型库中查看一整套视觉Transformer模型,其中包括DETR、SegFormer、Swin Transformer和ViT!此外,该GitHub页面还提供了一个相当全面的视觉转换器列表。

以数据驱动为中心的计算机视觉

随着计算机视觉领域的成熟,越来越多的机器学习开发者开始专注于整理、清理和扩充数据,因为数据质量已经成为影响性能的瓶颈。目前,该行业正在向数据模型协同设计的方向发展。

基于数据的机器学习运动越来越受欢迎,而该运动的领航者是新的初创公司,如合成数据生成公司(例如gretel、Datagen、Tonic)、评估、可观察性和实验跟踪工具(例如Voxel51、Weights&Biases、CleanLab),它们加入现有的标签和注释服务(例如 Labelbox、Label Studio、CVAT、Scale、V7)的努力。

AI 生成的艺术作品(也?)很好

在生成对抗网络(GAN)的改进和传播模型的快速迭代之间, AI生成艺术正在经历着一场复兴。现在,借助于Stable Diffusion、Nightcafe、Midjourney以及OpenAI的DALL-E2等工具,用户可以根据输入的文本提示生成极其细致的图像。Artbreeder使得用户可以将多个图像组合成新的作品,Meta的Make-A-Video可以根据文本生成视频,而RunwayML则改变了创建动画和视频编辑的游戏规则。这些工具中的许多还支持修复和增强图像,可用于编辑和扩展图像的范围。随着所有这些工具完全改变了AI艺术的能力,争议几乎是不可避免的,而且已经引发了许多。

去年9月,一张由AI生成的图像赢得了一场美术比赛,引发了关于什么才算是艺术以及所有权、归属和版权如何适用于这类新内容的激烈讨论。可以预见这场辩论会越来越激烈!

多模态人工智能成熟

除了 AI 生成的艺术作品,2022 年还见证了多种模式交叉领域的大量研究和应用。处理多种类型数据(包括语言、音频和视觉)的模型和管道正变得越来越流行。这些学科之间的界限从未如此模糊,异花授粉也从未如此富有成果。

这种上下文冲突的核心是对比学习,它改进了将多种类型的数据嵌入同一空间的方法,开创性的例子是 Open AI 的对比语言-图像预训练 (CLIP) 模型。

这样做的一个结果是能够根据文本或其他图像的输入对图像集进行语义搜索。这刺激了矢量搜索引擎的繁荣,Qdrant、Pinecone、Weaviate、Milvus 和其他引擎引领潮流。同样,模态之间的系统连接正在加强视觉问答和零镜头和少镜头图像分类。

大型科技公司在计算机视觉领域的竞争

Amazon 的 Rayleigh EigenDirections (REDs) 方法的插图,用于修改 GAN 生成的图像中的特定特征。

随着数据集规模的不断增长,从头开始训练大型高质量模型所需的计算和财务资源急剧增加。因此,今年许多最广泛应用的进展都是由大型科技研究小组的科学家领导或支持的。这是一些亮点。

Alphabet

Alphabet 今年在计算机视觉领域很活跃,Google Brain 团队研究了 Vision Transformers 的缩放,Google 研究开发了对比字幕 (CoCa)。Google Brain 团队还使用 Imagen Video 将他们的文本到图像扩散模型 Imagen 扩展到视频领域。DeepMind 引入了一种新的自我监督学习范式,在各种迁移学习任务中实现了最先进的性能。最后,Google 发布了 Open Images V7,它为超过一百万张图像添加了关键点数据。

Amazon

亚马逊至少可以说是多产的,有 40 篇论文被 CVPR 和 ECCV 接受。突出这一名副其实的大量研究的是一篇关于将图像转化为地图的论文,该论文在 ICRA 2022 上获得了最佳论文奖,这是一种评估没有完整(或任何)标签的人脸验证系统偏差的方法,以及修改特定特征的系统处方在 GAN 生成的图像中,它通过用瑞利商的语言重铸问题来工作。

Microsoft

Microsoft 在 Transformer 模型方面做了大量工作。就在 1 月,微软介绍 BEiT(图像转换器的 BERT 预训练)的论文在 ICLR 上被接受,随后的模型系列已成为 Transformer 模型领域的主要内容,基础模型从 Hugging 获得了 140 万以上的下载量面对过去的一个月。BEiT 家族蓬勃发展,发表了关于生成视觉语言预训练 (VL-BEiT)、使用矢量量化视觉标记器进行掩蔽图像建模 (BEiT V2) 以及将图像建模为外语的论文。

除了 BEiT 之外,Microsoft 一直在利用他们去年通过 StyleSwin 和 Swin Transformer V2 创造的 Swin Transformer 浪潮。2022 年的其他著名作品包括 MiniViT:使用权重多路复用压缩视觉转换器、RegionCLIP:基于区域的语言图像预训练和 NICE-SLAM:SLAM 的神经隐式可扩展编码。

Meta

Meta 在语言和视觉的十字路口保持着对多模态机器学习的高度关注。视听 HuBERT 在唇读和视听语音识别方面取得了最先进的成果。多种语言的视觉语音识别演示了向视觉语音识别 (VSR) 模型添加辅助任务可以显着提高性能。FLAVA: A Foundational Language And Vision Alignment Model 提出了一个模型,该模型在 35 种不同的语言和视觉任务中表现良好。data2vec 引入了一个统一的框架,用于跨越视觉、语音和语言的自我监督学习。

借助 DEiT III,Meta AI 的研究人员重新审视了 Vision Transformers 的训练步骤,并表明经过基本数据增强训练的模型可以显着优于完全监督的 ViT。Meta 在重建符号距离场 (SDF) 的持续学习方面也取得了进展,包括 Yann LeCun 在内的一组研究人员分享了对比学习为何有效的理论见解。

最后,在 9 月,Meta AI 将 PyTorch 拆分为与供应商无关的 PyTorch Foundation,此后不久发布了 PyTorch 2.0。

Adobe

2022 年,Adobe 采用了现代计算机视觉的精密机器,并将其转化为艺术操作任务,如编辑、重新样式化和重新排列。第三次的魅力?将 Nvidia 的 StyleGAN3 用于编辑图像和视频,引入了一种减少纹理粘连的视频反转方案。BlobGAN 将场景建模为中级(像素级和图像级之间)“斑点”的集合,这些斑点在没有监督的情况下与场景中的对象相关联,允许在对象级编辑场景。ARF:Artistic Radiance Fields 通过将风格转换与神经辐射场 (NeRF) 相结合,加速艺术 3D 内容的生成。

Nvidia

Nvidia 做出了全面的贡献,包括使用单视图(单目)图像和视频执行三维计算机视觉任务的多项工作。CenterPose 设定了仅使用单级网络的类别级 6 自由度 (DoF) 姿态估计的标准;GLAMR 通过使用动态(移动)摄像机录制的视频在全球范围内将人类置于 3D 空间中;通过分离特征生成和神经渲染的任务,EG3D 可以从单个图像生成高质量的 3D 几何图形。

其他值得注意的作品包括 GroupViT 、 FreeSOLO 和 ICLR 聚焦论文 Tackling the Generative Learning Trilemma with Denoising Diffusion GANs

计算机视觉的新应用

国际足联在 2022 年卡塔尔世界杯上使用的半自动越位检测功能的图示。

计算机视觉现在在从体育和娱乐到建筑、安全、农业等各个领域都发挥着重要作用,在这些行业中的每一个行业中,都有太多的公司采用计算机视觉来计算。本节重点介绍计算机视觉正在深入嵌入的一些行业中的一些关键发展。

Sports

当国际足联在卡塔尔世界杯上使用半自动系统检测越位时,计算机视觉就出现在了最大的舞台上。他们还使用计算机视觉来防止体育场发生踩踏事件。

其他值得注意的发展包括 Sportsbox AI 筹集了由 EP Golf Ventures 牵头的 550 万美元 A 系列,将运动跟踪引入高尔夫(和其他运动),以及新公司 Jabbr 为格斗运动定制计算机视觉,从 DeepStrike 开始,这是一种自动计算出拳次数的模型并编辑拳击视频。

气候与保护

循环经济初创公司 Greyparrot 为其计算机视觉驱动的废物监测系统筹集了 1100 万美元的 A 轮融资。Carbon marketplace NCX 使用尖端的计算机视觉模型和卫星图像来提供木材和碳潜力的精确评估,筹集了 5000 万美元的 B 轮融资。Microsoft 宣布了 Microsoft Climate Research Initiative (MCRI),它将把他们的计算机视觉用于可再生能源测绘、土地覆盖测绘和冰川测绘方面的气候努力。

自动驾驶汽车

2022 年对整个自动驾驶汽车行业来说有点喜忧参半,自动驾驶汽车公司 Argo AI 在 10 月关闭运营,福特和 Rivian 将他们的重点从 L4(高度自动化)转移到 L2(部分)和L3(条件)自动化。Apple 最近还宣布缩减其自动驾驶项目“Project Titan”,并将发布时间推迟到 2026 年。

尽管如此,计算机视觉还是取得了一些显着的胜利。麻省理工学院的研究人员发布了第一个用于自动驾驶的开源逼真模拟器。在从英特尔分拆出来后,驾驶辅助部门 Mobileye 筹集了 8.61 亿美元的 IPO。谷歌收购了空间人工智能和移动创业公司 Phiar。Waymo 在凤凰城市中心推出了自动驾驶汽车服务。

健康与医药

在澳大利亚,工程师们设计了一种很有前途的基于计算机视觉的非接触式血压检测方法,它可以替代传统的充气袖带。此外,谷歌开始将其基于计算机视觉的乳腺癌检测工具授权给癌症检测和治疗提供商 iCAD。

CV 工具初创公司的规模和影响力都在增长

标注初创公司 Labelbox 筹集了 1.1 亿美元的 D 轮融资

领先的企业机器学习应用训练数据平台 Labelbox 今天宣布完成由软银 Vision Fund 2 领投的 1.1 亿美元 D 轮融资。Snowpoint Ventures 和 Databricks Ventures还与之前的投资者 B Capital Group、Andreessen Horowitz 和 ARK Invest 的首席执行官兼创始人 Catherine Wood 一起参与。迄今为止,Labelbox 已筹集到 1.89 亿美元的风险投资。

V7 筹集了 3300 万美元的 A轮融资,

以帮助团队构建强大的 AI

2022 年 11 月 28 日——今天,为计算机视觉构建和改进 AI 的数据引擎 V7 宣布了其 3300 万美元的 A 系列融资,由专注于 AI 的 Radical Ventures 和 Temasek 共同领投,现有投资者 Air Street Capital 跟投, Amadeus Capital Partners 和 Partech。这是同类产品中规模最大的 A 轮融资,融资额增加了一倍多,将使 V7 进一步扩展到美国市场,在其最大市场扩大其团队。

Roboflow 发布了 Roboflow 100,

一个新的对象检测基准

Voxel51 筹集了 1250 万的A 轮融资

以帮助提高全球数据的清晰度和透明度

以数据为中心的机器学习软件公司 Voxel51 今天宣布,它已经从 Drive Capital、Top Harvest Capital、Shasta Ventures 筹集了 1250 万美元的 A 轮融资和现有投资者。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-03-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 2017年,Transformer模型以"All You Need is Attention"的形式进入深度学习领域,为各种NLP任务设立了标准,开创了大型语言模型(LLM)的时代。2020年底,随着Vision Transformer(ViT)的推出,这些基于自我注意力机制的模型也首次在计算机视觉领域得到了应用。
  • 今年,研究工作将Transformer模型推向了计算机视觉领域的前沿,并在各种任务中取得了最先进的性能。可以直接在Hugging Face的模型库中查看一整套视觉Transformer模型,其中包括DETR、SegFormer、Swin Transformer和ViT!此外,该GitHub页面还提供了一个相当全面的视觉转换器列表。
  • 随着计算机视觉领域的成熟,越来越多的机器学习开发者开始专注于整理、清理和扩充数据,因为数据质量已经成为影响性能的瓶颈。目前,该行业正在向数据模型协同设计的方向发展。
  • 基于数据的机器学习运动越来越受欢迎,而该运动的领航者是新的初创公司,如合成数据生成公司(例如gretel、Datagen、Tonic)、评估、可观察性和实验跟踪工具(例如Voxel51、Weights&Biases、CleanLab),它们加入现有的标签和注释服务(例如 Labelbox、Label Studio、CVAT、Scale、V7)的努力。
  • 除了 AI 生成的艺术作品,2022 年还见证了多种模式交叉领域的大量研究和应用。处理多种类型数据(包括语言、音频和视觉)的模型和管道正变得越来越流行。这些学科之间的界限从未如此模糊,异花授粉也从未如此富有成果。
  • 这种上下文冲突的核心是对比学习,它改进了将多种类型的数据嵌入同一空间的方法,开创性的例子是 Open AI 的对比语言-图像预训练 (CLIP) 模型。
  • 这样做的一个结果是能够根据文本或其他图像的输入对图像集进行语义搜索。这刺激了矢量搜索引擎的繁荣,Qdrant、Pinecone、Weaviate、Milvus 和其他引擎引领潮流。同样,模态之间的系统连接正在加强视觉问答和零镜头和少镜头图像分类。
  • Alphabet 今年在计算机视觉领域很活跃,Google Brain 团队研究了 Vision Transformers 的缩放,Google 研究开发了对比字幕 (CoCa)。Google Brain 团队还使用 Imagen Video 将他们的文本到图像扩散模型 Imagen 扩展到视频领域。DeepMind 引入了一种新的自我监督学习范式,在各种迁移学习任务中实现了最先进的性能。最后,Google 发布了 Open Images V7,它为超过一百万张图像添加了关键点数据。
  • 亚马逊至少可以说是多产的,有 40 篇论文被 CVPR 和 ECCV 接受。突出这一名副其实的大量研究的是一篇关于将图像转化为地图的论文,该论文在 ICRA 2022 上获得了最佳论文奖,这是一种评估没有完整(或任何)标签的人脸验证系统偏差的方法,以及修改特定特征的系统处方在 GAN 生成的图像中,它通过用瑞利商的语言重铸问题来工作。
  • Microsoft 在 Transformer 模型方面做了大量工作。就在 1 月,微软介绍 BEiT(图像转换器的 BERT 预训练)的论文在 ICLR 上被接受,随后的模型系列已成为 Transformer 模型领域的主要内容,基础模型从 Hugging 获得了 140 万以上的下载量面对过去的一个月。BEiT 家族蓬勃发展,发表了关于生成视觉语言预训练 (VL-BEiT)、使用矢量量化视觉标记器进行掩蔽图像建模 (BEiT V2) 以及将图像建模为外语的论文。
  • 除了 BEiT 之外,Microsoft 一直在利用他们去年通过 StyleSwin 和 Swin Transformer V2 创造的 Swin Transformer 浪潮。2022 年的其他著名作品包括 MiniViT:使用权重多路复用压缩视觉转换器、RegionCLIP:基于区域的语言图像预训练和 NICE-SLAM:SLAM 的神经隐式可扩展编码。
  • Meta 在语言和视觉的十字路口保持着对多模态机器学习的高度关注。视听 HuBERT 在唇读和视听语音识别方面取得了最先进的成果。多种语言的视觉语音识别演示了向视觉语音识别 (VSR) 模型添加辅助任务可以显着提高性能。FLAVA: A Foundational Language And Vision Alignment Model 提出了一个模型,该模型在 35 种不同的语言和视觉任务中表现良好。data2vec 引入了一个统一的框架,用于跨越视觉、语音和语言的自我监督学习。
  • 借助 DEiT III,Meta AI 的研究人员重新审视了 Vision Transformers 的训练步骤,并表明经过基本数据增强训练的模型可以显着优于完全监督的 ViT。Meta 在重建符号距离场 (SDF) 的持续学习方面也取得了进展,包括 Yann LeCun 在内的一组研究人员分享了对比学习为何有效的理论见解。
  • 最后,在 9 月,Meta AI 将 PyTorch 拆分为与供应商无关的 PyTorch Foundation,此后不久发布了 PyTorch 2.0。
  • 2022 年,Adobe 采用了现代计算机视觉的精密机器,并将其转化为艺术操作任务,如编辑、重新样式化和重新排列。第三次的魅力?将 Nvidia 的 StyleGAN3 用于编辑图像和视频,引入了一种减少纹理粘连的视频反转方案。BlobGAN 将场景建模为中级(像素级和图像级之间)“斑点”的集合,这些斑点在没有监督的情况下与场景中的对象相关联,允许在对象级编辑场景。ARF:Artistic Radiance Fields 通过将风格转换与神经辐射场 (NeRF) 相结合,加速艺术 3D 内容的生成。
  • Nvidia 做出了全面的贡献,包括使用单视图(单目)图像和视频执行三维计算机视觉任务的多项工作。CenterPose 设定了仅使用单级网络的类别级 6 自由度 (DoF) 姿态估计的标准;GLAMR 通过使用动态(移动)摄像机录制的视频在全球范围内将人类置于 3D 空间中;通过分离特征生成和神经渲染的任务,EG3D 可以从单个图像生成高质量的 3D 几何图形。
  • 其他值得注意的作品包括 GroupViT 、 FreeSOLO 和 ICLR 聚焦论文 Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
  • 当国际足联在卡塔尔世界杯上使用半自动系统检测越位时,计算机视觉就出现在了最大的舞台上。他们还使用计算机视觉来防止体育场发生踩踏事件。
  • 其他值得注意的发展包括 Sportsbox AI 筹集了由 EP Golf Ventures 牵头的 550 万美元 A 系列,将运动跟踪引入高尔夫(和其他运动),以及新公司 Jabbr 为格斗运动定制计算机视觉,从 DeepStrike 开始,这是一种自动计算出拳次数的模型并编辑拳击视频。
  • 循环经济初创公司 Greyparrot 为其计算机视觉驱动的废物监测系统筹集了 1100 万美元的 A 轮融资。Carbon marketplace NCX 使用尖端的计算机视觉模型和卫星图像来提供木材和碳潜力的精确评估,筹集了 5000 万美元的 B 轮融资。Microsoft 宣布了 Microsoft Climate Research Initiative (MCRI),它将把他们的计算机视觉用于可再生能源测绘、土地覆盖测绘和冰川测绘方面的气候努力。
  • 2022 年对整个自动驾驶汽车行业来说有点喜忧参半,自动驾驶汽车公司 Argo AI 在 10 月关闭运营,福特和 Rivian 将他们的重点从 L4(高度自动化)转移到 L2(部分)和L3(条件)自动化。Apple 最近还宣布缩减其自动驾驶项目“Project Titan”,并将发布时间推迟到 2026 年。
  • 尽管如此,计算机视觉还是取得了一些显着的胜利。麻省理工学院的研究人员发布了第一个用于自动驾驶的开源逼真模拟器。在从英特尔分拆出来后,驾驶辅助部门 Mobileye 筹集了 8.61 亿美元的 IPO。谷歌收购了空间人工智能和移动创业公司 Phiar。Waymo 在凤凰城市中心推出了自动驾驶汽车服务。
  • 在澳大利亚,工程师们设计了一种很有前途的基于计算机视觉的非接触式血压检测方法,它可以替代传统的充气袖带。此外,谷歌开始将其基于计算机视觉的乳腺癌检测工具授权给癌症检测和治疗提供商 iCAD。
  • 以数据为中心的机器学习软件公司 Voxel51 今天宣布,它已经从 Drive Capital、Top Harvest Capital、Shasta Ventures 筹集了 1250 万美元的 A 轮融资和现有投资者。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档