前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >为什么图像处理如此困难

为什么图像处理如此困难

作者头像
小白学视觉
发布于 2025-04-11 06:07:56
发布于 2025-04-11 06:07:56
680
举报

图像处理/计算机视觉方面,一切仍然是一个开放的研究领域!

但为什么会这样呢?你认为经过几十年的研究,我们会很自然地说“这里的问题已经解决了,让我们专注于别的事情”。在某种程度上,我们可以这样说,但仅适用于狭窄和简单的用例(例如,在空的白板上放置红色勺子),而不是一般的计算机视觉(例如,在所有可能的场景中找到一把红色的勺子,就像一个大盒子满了五颜六色的玩具)。

在我们深入研究我认为计算机视觉如此严峻的主要原因之前,我首先需要解释机器如何“看到”图像。当我们人类观看图像时,我们会感知物体,人物或景观。当机器“查看”图像时,他们看到的只是代表单个像素的数字。

一个例子可以解释这一点。假设你有一个灰度图像。然后,每个像素由一个通常在0到255之间的数字表示(我在这里抽象压缩,颜色空间等等),其中0表示黑色(无颜色),255表示白色(全强度) )。0到255之间的任何一个都是灰色阴影,如下图所示。

因此,对于要任何获取图像内容的机器来说,它必须以某种方式处理这些数字。这正是图像/视频处理和计算机视觉的全部 - 处理数字

接下来将从四个方面来解释,解决这个问题非常困难的主要原因。

  1. 数据量大
  2. 固有的信息丢失
  3. 伴随噪音
  4. 理解图像含义困难

数据量大

正如我上面所说,当涉及到图像时,所有计算机都看到数字...... 很多数字!许多数字意味着需要处理的大量数据才能被理解。

我们举一个例子来说明图像的数据量究竟有多大。如果您具有1920 x 1080分辨率的灰度(黑白)图像,则表示您的图像由200万个数字(1920 * 1080 = 2,073,600像素)描述。现在,如果切换到彩色图像,则需要三倍的数字,因为通常情况下,当您表示彩色像素时,您可以指定它所包含的读数,蓝色和绿色。然后,如果你试图分析来自视频/摄像机流的图像,例如30帧/秒的帧速率(现在是标准的帧速率),你突然处理1.8亿个数字每秒(3 * 2,073,600 * 30~ = 1.8亿像素/秒)。这是需要处理的大量数据!即使拥有当今功能强大的处理器和相对较大的内存大小,机器也很难做出有意义的事情,每秒有1.8亿个数字。

信息丢失

数字化过程中的信息丢失是造成计算机视觉难度的另一个主要因素。图像处理的本质是从3D世界(如果我们处理视频流中的数据则是4D)投影到2D平面(即平面图像)上获取信息。这意味着在此过程中会丢失大量信息。

我们的大脑可以非常出色的推断出丢失的数据是什么,但是对于计算机来说却是极其困难的挑战。下图显示的是一个凌乱的房间

我们可以很容易地看出,绿色健身球比桌子上的黑色平底锅更大更远。但是如果黑色平底锅比绿色球占据更多的像素,机器应该如何推断呢?这不是一件容易的事。当然,我们可以尝试通过同时拍摄两张照片并从中提取3D信息来模拟我们用两只眼睛看到的方式,这被称为立体视觉。然而,将图像拼接在一起也不是一项微不足道的任务,因为同样是一个开放的研究领域。

伴随噪声

数字化过程中经常伴随着噪音。例如,没有相机会拍摄出一个完美的不含噪声的现实图片,特别是当我们用手机上的相机进行拍照时,他们会通过调整强度等级,色彩饱和度等去尝试捕捉我们美丽的世界。同时在图像拍摄过程中肯能会出现“镜头光晕”的现象,我们可以轻松的判断光晕后面是什么场景,而对于计算机来说确实非常困难的。

虽然已经有很多去除光晕的算法,但是去除光晕的算法本身也是开放的领域。

另外,在图像压缩的过程中会对图像降低像素或者变换操作,而这样的图片对于人来说可以轻松的识别,而对于计算机,如果不告诉它压缩变换的操作,它会当作压缩后的图像为原图像进行识别,从而产生错误。

理解图像含义困难

最后也是最重要的是就是对图像内容的理解。对于机器来说,这绝对是计算机视觉环境中最难处理的事情。当我们观看图像时,我们会用累积的学习和记忆(称为先验知识)来分析它。

例如,我们知道,我们可以坐在健身球上,而平底锅通常用在厨房里,因为这些东西我们过去已经了解过。如果有一些东西看起来像天空中的平底锅,很可能它不是平底锅(除非是红太狼把打灰太狼的平底锅扔天上了),因此我们可以进一步仔细检查,以确定对象可能是什么(例如飞盘!)。或者如果有人围着绿球踢球,很可能是小孩子的球而不是健身球。

但机器没有这种知识。他们不了解我们的世界,不了解其中固有的复杂性,以及我们在数千年的进化中创造的众多工具,商品,设备等。也许有一天机器将能够获得维基百科并从那里了解有关对象的信息,但目前我们离这种情况很远。

有些人会争辩说,我们永远不会达到机器能够完全理解我们现实的阶段 - 因为意识总是对他们来说是遥不可及的。

但是在未来的发展中谁又说的好呢。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小白学视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
谷歌真被ChatGPT搞慌了!两位创始人紧急回归制定战术,搜索广告根基不容有失
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌是真的慌了。 一边节流:12000名打工人年关遭裁员,如今又被曝制定防守战略: 并且紧急召唤了两位创始人。 △谷歌创始人佩奇(左图)和布林(右图) 就在微软准备在自家产品中整合ChatGPT之际,上个月,谷歌创始人拉里·佩奇和谢尔盖·布林就ChatGPT的猛烈攻势,召开了多次高层会议。 要知道,3年来,佩奇和布林虽仍在董事会担任要职,但已经卸任了在谷歌的具体运营管理职务——换句话说,就是退出一线了。 此次两人与会事件与会议主题一经爆出,无疑在向外
量子位
2023/02/28
3210
谷歌真被ChatGPT搞慌了!两位创始人紧急回归制定战术,搜索广告根基不容有失
“人生搜索引擎”融资7千万估值5个亿,回溯你在网上做过的一切,网友:《黑镜》成真了
甚至有网友联想到了《黑镜》中“你的全部历史”那一集,描述了一种人人都植入芯片、能随时读取过去记忆的未来生活,细思极恐。
量子位
2022/12/08
4270
“人生搜索引擎”融资7千万估值5个亿,回溯你在网上做过的一切,网友:《黑镜》成真了
用YOLOv5和CLIP做了一个找图神器,搜图、裁剪一步到位,在线可试用
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:Edison_G ---- 给 Crop-CLIP 一个口令,就能自动搜图,还能帮忙裁剪出图片中的关键部分。 ---- 转自《机器之心》经常找图的人都知道,根据检索关键词组寻找理想中的照片是件很麻烦的事情。 打开搜索引擎或无版权图片网站,输入关键词,如果幸运的话,可能会在第一页或前 N 个检索结果中找到想要的图像。这种搜索方式仍然是基于图片标签进行的。
计算机视觉研究院
2022/03/04
1.6K0
百度智能搜索到底有多智能?
当在北戴河阿那亚的剧场里被突然问到类似稀奇古怪的问题,一时发懵的我只想当场掏出手机,给对方来个“百度一下”。
量子位
2021/05/11
5310
百度智能搜索到底有多智能?
“视频领域的Midjourney”!AI视频生成新秀Gen-2内测作品流出,网友直呼太逼真
丰色 发自 凹非寺 量子位 | 公众号 QbitAI 号称可以一句话拍大片的AI视频生成工具Gen-2,开始露出庐山真面目。 有推特博主已经率先拿到了内测资格。 这是他用提示词“一个身材匀称or对称(symmetrical)的男人在酒吧接受采访”生成的结果: 只见一个身着深色衬衣的男人正望着对方侃侃而谈,眼神和表情透露着一股认真和坦率,对面的人则时不时点头以示附和。 视频整体非常连贯且画质很是清晰,乍一看,真实访谈感满满有没有! 同样的提示词生成的另一个版本也不赖: 这次镜头更加拉近,背景更逼真,人物则仍
量子位
2023/04/13
5100
“视频领域的Midjourney”!AI视频生成新秀Gen-2内测作品流出,网友直呼太逼真
蔚来手机一年内发布/ 微信内测图片视频拖动一键转发/ 马斯克携推特威胁苹果...今日更多新鲜事在此
除了可以在微信内的朋友圈、个人、群聊之间互动外,该功能还支持跨APP操作,比如把微信里的图片视频拖动转发到备忘录中。
量子位
2022/12/09
2720
蔚来手机一年内发布/ 微信内测图片视频拖动一键转发/ 马斯克携推特威胁苹果...今日更多新鲜事在此
Google 翻译中国站点疑似关闭;28岁程序员网购生发丸吃成肝损伤;硅谷巨头集体向 Tiktok 开火 | EA周报
字节跳动官微宣布,员工假期及健康福利计划升级,新增“家庭关爱假”,每年 10 个工作日;“全薪病假”天数从半年 4 个工作日提升至全年 12 个工作日,丧假也分别比之前的假日多出两个工作日。
yuanyi928
2022/11/07
4820
Google 翻译中国站点疑似关闭;28岁程序员网购生发丸吃成肝损伤;硅谷巨头集体向 Tiktok 开火 | EA周报
最神秘国产大模型团队冒泡,一出手就是万亿参数MoE,两款应用敞开玩
姜大昕在微软工作16年有余,曾任职微软全球副总裁,微软亚洲互联网工程院(STCA)首席科学家,全面负责微软必应搜索的技术研发工作。但就是这么一位风云人物,此番创业,却有不少令人费解的动作。
量子位
2024/04/01
2100
最神秘国产大模型团队冒泡,一出手就是万亿参数MoE,两款应用敞开玩
大模型挑选指南来了!涵盖六种情况下的选择方案,为你匹配最佳模型|来自沃顿商学院教授
最近Claude 2亮相、谷歌Bard支持中文、Open AI推出Code Interpreter(代码解释器)……
量子位
2023/08/05
3000
大模型挑选指南来了!涵盖六种情况下的选择方案,为你匹配最佳模型|来自沃顿商学院教授
用PS的照片申请理赔,保险公司能过吗?
摘要:保险作为当今风险保障的重要手段,已然成为众多企业、个人的选择。作为风险保障的主体,保险公司在承保、理赔等各类业务处理中,都离不开影像资料。影像资料已然成为保险公司大数据浪潮中不容忽视的重要数据要素。如何做好影像资料的自动识别、真假判定等成为保险公司降本增效、风险防范的重要课题。本文就保险行业的影像资料技术和应用给出探讨。
AI科技大本营
2022/12/10
1.3K0
用PS的照片申请理赔,保险公司能过吗?
快手AI技术副总裁郑文:为什么说AI是短视频平台的核心能力
7月初举办的中国软件研发管理行业峰会(CSDI)上,快手AI技术副总裁郑文针对AI技术在短视频领域的应用做了精彩演讲。他介绍了人工智能技术是如何在快手整个业务流程中发挥作用,以及互联网公司如何从0开始成功推进一个AI项目。
量子位
2018/08/08
8720
快手AI技术副总裁郑文:为什么说AI是短视频平台的核心能力
有人翻小红书种草,有人却翻到了最新AI技术趋势
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 小红书变了。 你以为它还在“美妆”、“穿搭”,但现在在社交媒体上,关于小红书的不少说法画风却有些令人意外。 俨然有了那么一点“搜索引擎”的味道。 这是发生了甚么事? 扒了扒数据,我们发现,去年一年,小红书科技数码内容同比增长500%、体育赛事同比增长1140%,美食类消费DAU甚至一度超过美妆。 而在小红书的首页,下拉菜单中的品类标签已经多达30多个。做菜教程、居家指南、户外露营、旅游攻略、考研考公甚至是创业,其内容之广泛,早已远超当年安身立命的美妆
量子位
2022/04/25
7040
有人翻小红书种草,有人却翻到了最新AI技术趋势
献上一串Python代码,拿去冲顶百万大奖吧!王思聪周鸿祎这回真要哭晕了
作者 | 明明 编辑 | 鸽子 2018年伊始,王思聪就在微信朋友圈发布了新年第一周的总结:“王思聪撒币,张一鸣撒币,周鸿祎撒币,奉佑生撒币。” 瞬间将直播竞赛答题的热度推上了新的高度,许多不明真相的吃瓜群众争相下载直播平台,进入答题环节,瓜分巨额奖金。 对于炒作这件事来说,营长只服国民老公王思聪,一举一动都能将自己推上热搜榜,这不,2018年的第一周总结就将自已以及直播平台推在了风口浪尖上。 对于直播竞赛答题,网友们也想出了适合自己的作弊方法,这些方法无一例外用到了AI技术,比如语音识别、语义理解
AI科技大本营
2018/04/27
1.1K0
献上一串Python代码,拿去冲顶百万大奖吧!王思聪周鸿祎这回真要哭晕了
表情包 40 年
这个节日由Emoji搜索引擎Emojipedia创始人Jeremy Burgo最先提出。之所以定在这一天,是因为苹果手机的日历表情符📅,显示的就是7月17日。[1]
腾讯研究院
2023/11/16
2610
表情包 40 年
搜狗AI,正在抢滩智能手机
近期,先是在MegaFace百万级人脸识别竞赛中夺冠,接着又亮相了世界首个AI合成主播,在国内外引发大量关注。搜狗有AI,AI能力挺厉害,这些成果都是明证。
量子位
2019/04/24
5030
搜狗AI,正在抢滩智能手机
取代搜索,“干掉”艺术家?顶流「AIGC」的疯狂与争议
作者 | 刘燕 审校 | 蔡芳芳 本文是 “2022 InfoQ 年度技术盘点与展望” 系列文章之一,由 InfoQ 编辑部制作呈现,重点聚焦 AIGC 领域在 2022 年的重要进展、动态,希望能帮助你准确把握 2022 年 AIGC 领域的核心发展脉络,在行业内始终保持足够的技术敏锐度。 “InfoQ 年度技术盘点与展望”是 InfoQ 全年最重要的内容选题之一,将涵盖操作系统、数据库、AI、大数据、云原生、架构、大前端、编程语言、开源安全、数字化十大方向,后续将聚合延展成专题、迷你书、直播周
深度学习与Python
2023/03/29
4200
取代搜索,“干掉”艺术家?顶流「AIGC」的疯狂与争议
中国大模型,产业落地这一年
12月28日,2024中国信通院ICT+深度观察报告会暨“虹桥之源”大模型驱动数字经济新生态峰会拉开帷幕,会上由国内人工智能领域核心专业智库中国信通院联合上海人工智能实验室成立的大模型测试验证与协同创新中心,重磅首发《2023大模型落地应用案例集》。这是国内首部聚焦AI大模型落地应用的权威研究成果,评选出的52个案例均为大模型商业落地的优秀示范。本文将从52个案例为切入点,为大家呈现当前AI行业的现状与趋势。
大数据文摘
2024/01/04
3100
中国大模型,产业落地这一年
刚刚!苹果发布Apple Intelligence,官宣免费接入ChatGPT,Siri迎来重磅更新
苹果发布生成式模型 Apple Intelligence,并官宣与 OpenAI 达成合作。
HyperAI超神经
2024/06/17
1460
刚刚!苹果发布Apple Intelligence,官宣免费接入ChatGPT,Siri迎来重磅更新
库克现身米哈游总部/ 周鸿祎演示360GPT/ 微软必应有广告了…今日更多新鲜事在此
日报君 发自 凹非寺 量子位 | 公众号 QbitAI 大噶好,今天是3月30日星期四。 三月马上就过完了,在这个特殊的日子里,你不得…… 看看科技圈发生了哪些大事吗? 库克现身米哈游总部 真是双厨狂喜啊。 今天上午,库克突然现身米哈游总部,并和《原神》创作团队合影。 随后他更新微博,表示很开心见到iPhone和iPad获奖游戏《原神》背后的创作者。 网友们已经在喊话了:这不得送个十连庆祝一下? 苹果WWDC23定档6月5日 苹果最新官宣,今年全球开发者大会(WWDC 2023)将在6月5日-6月9日
量子位
2023/04/06
3690
库克现身米哈游总部/ 周鸿祎演示360GPT/ 微软必应有广告了…今日更多新鲜事在此
独家 | 百度美研第一号员工走了,百度搜索公司第一任CTO来了
李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI △ 郑子斌(资料图) 百度美研的第一号员工,走了。 量子位近日获悉,百度美国研发中心总经理郑子斌,已正式“归国”,并将出任百度搜索公司CT
量子位
2018/03/26
1.2K0
独家 | 百度美研第一号员工走了,百度搜索公司第一任CTO来了
推荐阅读
谷歌真被ChatGPT搞慌了!两位创始人紧急回归制定战术,搜索广告根基不容有失
3210
“人生搜索引擎”融资7千万估值5个亿,回溯你在网上做过的一切,网友:《黑镜》成真了
4270
用YOLOv5和CLIP做了一个找图神器,搜图、裁剪一步到位,在线可试用
1.6K0
百度智能搜索到底有多智能?
5310
“视频领域的Midjourney”!AI视频生成新秀Gen-2内测作品流出,网友直呼太逼真
5100
蔚来手机一年内发布/ 微信内测图片视频拖动一键转发/ 马斯克携推特威胁苹果...今日更多新鲜事在此
2720
Google 翻译中国站点疑似关闭;28岁程序员网购生发丸吃成肝损伤;硅谷巨头集体向 Tiktok 开火 | EA周报
4820
最神秘国产大模型团队冒泡,一出手就是万亿参数MoE,两款应用敞开玩
2100
大模型挑选指南来了!涵盖六种情况下的选择方案,为你匹配最佳模型|来自沃顿商学院教授
3000
用PS的照片申请理赔,保险公司能过吗?
1.3K0
快手AI技术副总裁郑文:为什么说AI是短视频平台的核心能力
8720
有人翻小红书种草,有人却翻到了最新AI技术趋势
7040
献上一串Python代码,拿去冲顶百万大奖吧!王思聪周鸿祎这回真要哭晕了
1.1K0
表情包 40 年
2610
搜狗AI,正在抢滩智能手机
5030
取代搜索,“干掉”艺术家?顶流「AIGC」的疯狂与争议
4200
中国大模型,产业落地这一年
3100
刚刚!苹果发布Apple Intelligence,官宣免费接入ChatGPT,Siri迎来重磅更新
1460
库克现身米哈游总部/ 周鸿祎演示360GPT/ 微软必应有广告了…今日更多新鲜事在此
3690
独家 | 百度美研第一号员工走了,百度搜索公司第一任CTO来了
1.2K0
相关推荐
谷歌真被ChatGPT搞慌了!两位创始人紧急回归制定战术,搜索广告根基不容有失
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档