首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >为什么图像处理如此困难

为什么图像处理如此困难

作者头像
小白学视觉
发布于 2025-04-11 06:07:56
发布于 2025-04-11 06:07:56
13302
代码可运行
举报
运行总次数:2
代码可运行

图像处理/计算机视觉方面,一切仍然是一个开放的研究领域!

但为什么会这样呢?你认为经过几十年的研究,我们会很自然地说“这里的问题已经解决了,让我们专注于别的事情”。在某种程度上,我们可以这样说,但仅适用于狭窄和简单的用例(例如,在空的白板上放置红色勺子),而不是一般的计算机视觉(例如,在所有可能的场景中找到一把红色的勺子,就像一个大盒子满了五颜六色的玩具)。

在我们深入研究我认为计算机视觉如此严峻的主要原因之前,我首先需要解释机器如何“看到”图像。当我们人类观看图像时,我们会感知物体,人物或景观。当机器“查看”图像时,他们看到的只是代表单个像素的数字。

一个例子可以解释这一点。假设你有一个灰度图像。然后,每个像素由一个通常在0到255之间的数字表示(我在这里抽象压缩,颜色空间等等),其中0表示黑色(无颜色),255表示白色(全强度) )。0到255之间的任何一个都是灰色阴影,如下图所示。

因此,对于要任何获取图像内容的机器来说,它必须以某种方式处理这些数字。这正是图像/视频处理和计算机视觉的全部 - 处理数字

接下来将从四个方面来解释,解决这个问题非常困难的主要原因。

  1. 数据量大
  2. 固有的信息丢失
  3. 伴随噪音
  4. 理解图像含义困难

数据量大

正如我上面所说,当涉及到图像时,所有计算机都看到数字...... 很多数字!许多数字意味着需要处理的大量数据才能被理解。

我们举一个例子来说明图像的数据量究竟有多大。如果您具有1920 x 1080分辨率的灰度(黑白)图像,则表示您的图像由200万个数字(1920 * 1080 = 2,073,600像素)描述。现在,如果切换到彩色图像,则需要三倍的数字,因为通常情况下,当您表示彩色像素时,您可以指定它所包含的读数,蓝色和绿色。然后,如果你试图分析来自视频/摄像机流的图像,例如30帧/秒的帧速率(现在是标准的帧速率),你突然处理1.8亿个数字每秒(3 * 2,073,600 * 30~ = 1.8亿像素/秒)。这是需要处理的大量数据!即使拥有当今功能强大的处理器和相对较大的内存大小,机器也很难做出有意义的事情,每秒有1.8亿个数字。

信息丢失

数字化过程中的信息丢失是造成计算机视觉难度的另一个主要因素。图像处理的本质是从3D世界(如果我们处理视频流中的数据则是4D)投影到2D平面(即平面图像)上获取信息。这意味着在此过程中会丢失大量信息。

我们的大脑可以非常出色的推断出丢失的数据是什么,但是对于计算机来说却是极其困难的挑战。下图显示的是一个凌乱的房间

我们可以很容易地看出,绿色健身球比桌子上的黑色平底锅更大更远。但是如果黑色平底锅比绿色球占据更多的像素,机器应该如何推断呢?这不是一件容易的事。当然,我们可以尝试通过同时拍摄两张照片并从中提取3D信息来模拟我们用两只眼睛看到的方式,这被称为立体视觉。然而,将图像拼接在一起也不是一项微不足道的任务,因为同样是一个开放的研究领域。

伴随噪声

数字化过程中经常伴随着噪音。例如,没有相机会拍摄出一个完美的不含噪声的现实图片,特别是当我们用手机上的相机进行拍照时,他们会通过调整强度等级,色彩饱和度等去尝试捕捉我们美丽的世界。同时在图像拍摄过程中肯能会出现“镜头光晕”的现象,我们可以轻松的判断光晕后面是什么场景,而对于计算机来说确实非常困难的。

虽然已经有很多去除光晕的算法,但是去除光晕的算法本身也是开放的领域。

另外,在图像压缩的过程中会对图像降低像素或者变换操作,而这样的图片对于人来说可以轻松的识别,而对于计算机,如果不告诉它压缩变换的操作,它会当作压缩后的图像为原图像进行识别,从而产生错误。

理解图像含义困难

最后也是最重要的是就是对图像内容的理解。对于机器来说,这绝对是计算机视觉环境中最难处理的事情。当我们观看图像时,我们会用累积的学习和记忆(称为先验知识)来分析它。

例如,我们知道,我们可以坐在健身球上,而平底锅通常用在厨房里,因为这些东西我们过去已经了解过。如果有一些东西看起来像天空中的平底锅,很可能它不是平底锅(除非是红太狼把打灰太狼的平底锅扔天上了),因此我们可以进一步仔细检查,以确定对象可能是什么(例如飞盘!)。或者如果有人围着绿球踢球,很可能是小孩子的球而不是健身球。

但机器没有这种知识。他们不了解我们的世界,不了解其中固有的复杂性,以及我们在数千年的进化中创造的众多工具,商品,设备等。也许有一天机器将能够获得维基百科并从那里了解有关对象的信息,但目前我们离这种情况很远。

有些人会争辩说,我们永远不会达到机器能够完全理解我们现实的阶段 - 因为意识总是对他们来说是遥不可及的。

但是在未来的发展中谁又说的好呢。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小白学视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
为什么图像处理如此困难
但为什么会这样呢?你认为经过几十年的研究,我们会很自然地说“这里的问题已经解决了,让我们专注于别的事情”。在某种程度上,我们可以这样说,但仅适用于狭窄和简单的用例(例如,在空的白板上放置红色勺子),而不是一般的计算机视觉(例如,在所有可能的场景中找到一把红色的勺子,就像一个大盒子满了五颜六色的玩具)。
小白学视觉
2019/06/02
1.4K0
FPGA Xilinx Zynq 系列(十四)应用和机会 之 图像和视频处理,及计算机视觉
今天给大侠带来FPGA Xilinx Zynq 系列第十四篇,本篇内容目录简介如下:
FPGA技术江湖
2020/12/30
1.6K0
从.JPG到.AVI,这篇视频编码的最强入门科普,你值得拥有!
剧里主要讲述的,是一群美国硅谷年轻人的创业故事。我觉得挺好看的,一口气追完了(貌似后面还会更新)。同为创业者,对里面的剧情非常有感触。
鲜枣课堂
2019/07/22
8710
从.JPG到.AVI,这篇视频编码的最强入门科普,你值得拥有!
零基础,史上最通俗视频编码技术入门
本文引用了微信公众号“鲜枣课堂”的《视频编码零基础入门》内容。为了更好的内容呈现,引用和收录时内容有改动,转载时请注明原文来源信息,尊重原作者的劳动。
JackJiang
2019/11/21
1.9K0
零基础,史上最通俗视频编码技术入门
PyTorch 图像篇
计算机视觉技术是一门包括计算机科学与工程、神经生理学、物理学、信号处理、认知科学、应用数学与统计等多学科的综合性科学技术, 是人工智能的一个重要分支, 目前在智能安防、自动驾驶汽车、医疗保健、生成制造等领域具有重要的应用价值。
@小森
2024/05/13
1790
PyTorch 图像篇
【AI白身境】深度学习必备图像基础
图像是什么?这个问题大家都有自己的答案。我的答案是,图像是一门语言,是人类文明的象征。
用户1508658
2019/07/26
9870
【AI白身境】深度学习必备图像基础
手把手教你使用图像处理利器OpenCV
在本文中,将学习如何使用Python语言进行图像处理,我们不会局限于一个单独的库或框架,然而,有一个库的使用率将会是最高的,那就是OpenCV。我们一开始会讨论一些图像处理,然后继续探讨不同的应用/场景,也就是图像处理的用武之地。开始吧!
老齐
2020/05/15
1.5K0
手把手教你使用图像处理利器OpenCV
Prophesee:基于帧的传感器到基于事件的视觉系统
基于事件的视觉功能,如眼睛和大脑,以克服传统机器视觉的固有限制。人眼与传统摄像机几乎没有什么共同之处。
AiTechYun
2019/06/18
1.5K0
Prophesee:基于帧的传感器到基于事件的视觉系统
为什么深度学习不能取代传统的计算机视觉技术?
译者 | 王柯凝 编辑 | 周翔 当你辗转于各种论坛时,相信会经常看到这样的问题:深度学习是否会取代传统的计算机视觉?或者说,当深度学习看起来如此有效时,是否还有必要研究传统的计算机视觉技术? 这是一个非常好的问题。 深度学习已经彻底改变了计算机视觉和人工智能这一领域,许多曾经看起来不可能解决的问题,深度学习都能够解决——尤其是在图像识别和分类问题上,机器已经超越人类(短链:http://t.cn/Rnzv2JX)。事实上,深度学习也强化了计算机视觉在行业中的重要地位。 但是,深度学习对计算机视觉来说仅仅是
用户1737318
2018/06/05
6410
观点 | 为什么深度学习仍未取代传统的计算机视觉技术?
选自zbigatron 作者:Zbigatron 机器之心编译 参与:张楚、黄小天 本文作者认为,深度学习只是一种计算机视觉工具,而不是包治百病的良药,不要因为流行就一味地使用它。传统的计算机视觉技术仍然可以大显身手,了解它们可以为你省去很多的时间和烦恼;并且掌握传统计算机视觉确实可以让你在深度学习方面做得更好。这是因为你可以更好地理解深度学习的内部状况,并可执行预处理步骤改善深度学习结果。 本文的灵感同样来自论坛中的一个常见问题: 深度学习已经取代了传统的计算机视觉吗? 或是换种说法: 既然深度学习看起来
机器之心
2018/05/08
6630
观点 | 为什么深度学习仍未取代传统的计算机视觉技术?
图像处理基础知识!!
· 图像 一张图片包含了:维数、高度、宽度、深度、通道数、颜色格式、数据首地址、结束地址、数据量等等。
用户6133654
2019/12/12
1.4K0
机器人视觉的九大挑战
机器人视觉解决方案是我们实现机器人视野的几大挑战。即便变得越来越简单易用,还是有一些棘手的问题。很多因素影响机器人在环境中的视觉,任务设置和工作场所。这里有9个总结出来的机器人视觉挑战:
小白学视觉
2019/07/30
9280
一文囊括图像处理25个高频考点
从非结构化数据中提取有用的信息一直是研究界极为关注的话题。图像就是一种这样的非结构化数据,图像数据分析在商业的各个方面都有应用。
AI算法与图像处理
2020/08/28
4920
一文囊括图像处理25个高频考点
TRTC Android端开发接入学习之音视频基础(一)
是人对视觉感知的物质再现。三维自然场景的对象包括:深度,纹理和亮度信息。二维图像:纹理和亮度信息。
腾讯云-hongyang
2020/08/31
1.4K0
TRTC Android端开发接入学习之音视频基础(一)
【OpenCV】入门教学/了解图像处理的基本原理
本文是基于哔哩哔哩OpenCV入门课程的内容加上我个人的理解而来。 本篇文章的主要内容: 阅读本篇文章,你需要具备python的基本语法的学习。如果你并没有学习过python,可以去看我的python专栏:python
Yui_
2025/02/03
5000
【OpenCV】入门教学/了解图像处理的基本原理
十个python图像处理工具
【磐创AI导读】:本篇文章为大家介绍了十个python图像处理工具,希望对大家有所帮助。想要获取更多的机器学习、深度学习资源,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。
磐创AI
2019/09/03
1.7K0
十个python图像处理工具
整理 Python 中的图像处理利器(共10个)
当今世界充满了各种数据,而图像是其中高的重要组成部分。然而,若想其有所应用,我们需要对这些图像进行处理。图像处理是分析和操纵数字图像的过程,旨在提高其质量或从中提取一些信息,然后将其用于某些方面。
Python知识大全
2021/10/26
1.4K0
整理 Python 中的图像处理利器(共10个)
[Python图像处理] 一.图像处理基础知识及OpenCV入门函数
数字图像处理(Digital Image Processing)又称为计算机图像处理(Computer Image Processing),旨在将图像信号转换成数字信号并利用计算机对其进行处理的过程。其运用领域如下图所示,涉及通信、生物医学、物理化学、经济等。
Eastmount
2021/12/02
2.2K0
[Python图像处理] 一.图像处理基础知识及OpenCV入门函数
Zynq-7000能干什么
因为Zynq-7000 PS(Processing System)端嵌入了Cortex-A9 ARM 处理核以及PL(Programmable Logic)端为基于Kintex-7或者Artix-7的FPGA架构使得Xilinx Zynq-7000更加强悍,应用领域更加广泛。下面将从以下方面介绍Zynq-7000的应用领域:汽车、通信系统、机器人、控制和仪器 、图像和视频处理 、医药、工业控制和许多其他领域。
FPGA开源工作室
2019/10/29
1.4K0
Zynq-7000能干什么
【图像篇】opencv图像处理(一)---图像基础知识
伴随着人类社会历程的不断向前推进,先进的科技就一直承载着人类社会的进步,特别是近年来日渐成熟的AI技术,深远地改变了我们熟悉的各个领域。我们公众号时刻紧跟当前社会发展潮流,考虑到,图像处理技术作为人工智能领域中计算机视觉(CV)的重要基础知识,同时可能也是粉丝朋友们感兴趣的地方,为此,小编决定新开一个专栏——opencv图像处理,期待能够帮助更多想要学习AI技术的小伙伴们,当然,这些知识对于大学三四年级的同学也非常有用哦,期待能够带给大家更多的快乐,我们,一直在前行。
用户5410712
2022/06/01
7140
【图像篇】opencv图像处理(一)---图像基础知识
推荐阅读
相关推荐
为什么图像处理如此困难
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验