首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌发现机器视觉的“阿喀琉斯之踵”

---- 现代科技最引人注目的进步之一是机器视觉的兴起。在短短的几年间,新一代的机器学习技术已经改变了计算机对图像的识别方法。...现在,机器在人脸识别和物体识别方面已超越了人类并且彻底改变了大量的基于视觉的任务,比如驾驶、安全监控等等。机器视觉现在已具有超人的能力。...但据麻省理工《技术评论》报道,来自谷歌和OpenAI研究所的研究人员发现了机器视觉算法的一个弱点:机器视觉会被一些经过修改的图像干扰,而人类可以很容易地发现这些图像的修改之处。...研究人员指出:“一例子是对人脸图像打上非常细微的标记,人类依然可以正确地识别出图像中人物的身份,但机器学习系统会把他们识别成其他人”。研究人员对此进行了系统的研究,揭示了机器视觉系统的弱点。...这项研究揭示了机器视觉的阿喀琉斯之踵,未来还有很多值得研究的内容。研究人员希望为其他类型的视觉系统开发比较图像,从而使这些系统更有效率。

72980

谷歌最新黑科技LaMDA,能让你的语音助手不再智障吗?

美国时间2021年5月18日,一年一度的谷歌I/O大会如期而至。在一众产品和技术之间,LaMDA并不起眼,但它却可能是智障语音助手的拯救者。 ?...美国时间2021年5月18日,一年一度的谷歌I/O大会如期而至。在一众产品和技术之间,LaMDA并不起眼,但它却可能是智障语音助手的拯救者。 ? 01 LaMDA究竟是什么?...[4]毕竟对于一个语音助手来说,有趣很重要,正确更重要。 ? 03 LaMDA的前路仍然遥远 无论是更先进的AI还是更智能的聊天机器人,谷歌在过去几年一直在着力促进AI如何更好地与人类沟通。...虽然现在LaMDA可以根据对话语境提供建议和答案,让对话不违和地进行下去,但它仍在研发初期,想要达到AI助手的功能,还需要时间的磨合。 问题是,提升AI助手的对话能力,究竟有什么意义?...至少对于谷歌而言,这项能力作用重大,因为谷歌的很多重要产品都与信息检索有关,它们都基于对计算语言的解读,无论是翻译能力,还是对用户检索信息的理解。

1.3K40
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    装了谷歌助手的大朋DPVR,可同步观看院线电影?

    小编觉得像是苹果手机的Siri,或者类似智能电视一样的语音交互功能,的确有可能出现在这款VR新品上,毕竟这也是许多消费者内心的呼声。...语音交互虽然听起来不是很复杂的功能,但是需要很深的技术积淀,小编已经十足好奇这款神秘新品能否听懂我的方言了。 ? 从上面这个谍照来看,应该是印证了新品自带VR”独立全景声单元”的说法。...从另一个谍照中,我们还是无法看到整机的构造,但是通过镜片上螺纹的特点,大概可以猜出新品使用的应该是定制款的菲涅尔透镜;据业内人士解释,这款定制的菲涅尔透镜,与其它镜片相比,能让人在同样的角度内能看到更多的象素点...如果消息属实,大朋DPVR凭借这点或将把VR观影体验提升到新的高度。 ? 另外有消息称大朋DPVR正在整合和扩充自家的VR内容平台, 或可以支持观看最新上映的大片,并且在测试最新的蓝光高码流的视频。...一些直播平台,如斗鱼、熊猫直播等使用的一般都是4M或者8M码流,而大朋的蓝光会员视频的码流据说能达到斗鱼等直播平台的两倍以上, 能够帮助大家看到更高清且无卡顿的VR、3D和2D视频。

    46230

    业界 | 谷歌开源高效的移动端视觉识别模型:MobileNet

    选自Google Research 机器之心编译 参与:蒋思源 近日,谷歌开源了 MobileNet,它一个支持多种视觉识别任务的轻量级模型,还能高效地在移动设备上运行。...同时机器之心也关注过开源圈内利用苹果最新发布的 Core ML 实现的谷歌移动端神经网络 MobileNet。此外,谷歌的这次开源充分地体现了其「移动优先」与「AI 优先」的有机结合。...,深度学习令计算机视觉取得了极大的进展。...然而移动设备和嵌入式应用的视觉识别还存在着很多挑战,即模型必须在有限资源的环境中充分利用计算力、功率和储存空间以在高精度下快速运行。...因此近日谷歌发布了 MobileNet 网络架构,它是一系列在 TensorFlow 上高效、小尺寸的移动优先型视觉模型,其旨在充分利用移动设备和嵌入式应用的有限的资源,有效地最大化模型的准确性。

    1.1K60

    拼智商,谷歌、苹果、微软、亚马逊的AI助手谁赢了?有些结果没料到

    在“商业”相关的询问中,Alexa在产品类别中经常给出“亚马逊的选择”,而不是更广泛的列表,导致用户被迫进行额外的研究。...Loup提到,与Alexa和Cortana相比,谷歌和Apple将他们的助手直接集成到手机中,这让它们的能力具有了天然的优势,而Alexa和Cortana在Android和iOS手机上仅作为第三方应用运行...这种集成转化为口袋设备的卓越导航技能,也让助手们跟操作系统有更深层次的融合。 所有助手都在语言处理和多设备支持方面取得了重大进步,Loup表示,他们并没有预料到精度的进一步大幅提升。...AI助手将学会做更多的事情,并控制更广泛的设备。...四大AI助手都在以出人意料的速度进步,在未来中他们将替我们做更多事情。不过按《就业大崩溃》一书的说法,现有的助手们都是弱人工智能。

    51320

    谷歌助手首席工程师Huffman:5项必须遵守的语音计算规则

    1.声音是为了完成任务 一个全能的,聪明的助手,同时扮演着伙伴和健谈的角色,这一愿景还没有实现。Huffman说,与谷歌助手的互动比典型的谷歌搜索的可能性要高出40倍。...“音箱没有被过度索引的观点实际上是我一直对我的团队强调的。”他说。 购物,查看列表或获取发送到智能手机的路线时,视觉效果也非常明显。...谷歌智能助手在视觉表面上的运作方式变得更加智能。除了制作免提电视控制外,使用Google on Google第三方平台的开发人员还可以创建可视语音应用。...作为近几个月为谷歌智能助手推出的一系列变化的一部分,除了用于安排预约和六种新声音的Duplex AI试验开始之外,谷歌在安卓智能手机上的Lens计算机视觉已获得计算机视觉实时分析能力和风格与时尚情报等新的功能...最近几周有关于谷歌智能助手在视觉领域的主要潜在后续步骤的谣言已经出现。据报道,谷歌正在研发自己的智能音箱,屏幕,与索尼,LG和JBL的亚马逊Echo Show和第三方音箱竞争。

    62940

    谷歌提出纯 MLP 构成的视觉架构,无需卷积、注意力 !

    当前,卷积神经网络(CNN)和基于自注意力的网络(如近来大火的 ViT)是计算机视觉领域的主流选择,但研究人员没有停止探索视觉网络架构的脚步。...近日,来自谷歌大脑的研究团队(原 ViT 团队)提出了一种舍弃卷积和自注意力且完全使用多层感知机(MLP)的视觉网络架构,在设计上非常简单,并且在 ImageNet 数据集上实现了媲美 CNN 和 ViT...计算机视觉的发展史证明,规模更大的数据集加上更强的计算能力往往能够促成范式转变。...虽然卷积神经网络已经成为计算机视觉领域的标准,但最近一段时间,基于自注意力层的替代方法 Vision Transformer(ViT)实现新的 SOTA 性能。...不过,谷歌 DeepMind 首席科学家 Oriol Vinyals 也提出了质疑,他认为:「per-patch 全连接,那不就是卷积吗」 ?

    68620

    CVPR2018 | CMU&谷歌Spotlight论文:超越卷积的视觉推理框架

    近日,来自卡耐基梅隆大学(CMU)的陈鑫磊(现 Facbook 研究科学家)、Abhinav Gupta,谷歌的李佳、李飞飞等人提出了一种新型推理框架,其探索空间和语义关系的推理性能大大超过了普通卷积神经网络...空间和语义上的视觉推理对人类至关重要 [ 1 ],但我们目前的视觉系统与之不同,除了具有较大接受域的卷积之外,它们都缺乏语境推理。...许多语义推理需要从很少或近乎为零的实例中学习 [ 14 ]。因此,我们需要设法利用额外的结构化信息进行视觉推理。 本研究提出了一个空间推理和语义推理的通用框架。...与目前仅依赖卷积的方法不同,我们的框架还可以从知识库 [ 5,56 ] 形式的结构化信息中学习视觉识别。...论文链接:https://arxiv.org/abs/1803.11189 摘要:我们提出了一种新的迭代视觉推理框架。该框架超越了目前只具备卷积堆栈推理能力的识别系统。

    67960

    机器视觉的阿基里斯之踵,秘密都在谷歌Brain论文中

    “从一些方面看,机器视觉比人类视觉更好。但是现在研究人员找到了一类能够轻松‘愚弄’机器视觉的‘对抗性图像’。“——来自arXiv的Emerging Technology。...谷歌Brain的Alexey Kurakin、Samy Bengio以及非营利机构OpenAI的Ian Goodfellow说。...最好的机器视觉系统之一是谷歌的 Inception v3 算法,其前五错误率为3.46%。进行同样任务的人类的前五错误率为大约5%,因此 Inception v3 确实具有超人般的能力。...然后,他们测试了谷歌 Inception v3 算法能否良好分类50,000个对抗性图像。 这两个简单的算法大大降低了前五和前一精确度。...在此,雷锋网为大家分享来自谷歌Brain和 OpenAI 科学家、名为《物理世界中的对抗性例子》论文全文。 摘要 大部分现有的机器学习分类器都很容易受到对抗性例子的影响。

    76860

    业界 | 会打电话的谷歌语音助手通不过图灵测试,正如AI代替不了老师

    大数据文摘编译作品 编译:杨小咩是小怪兽、张文静、云舟 虽然一些人坚定的认为,谷歌在其最新的I/O大会上造出了离人最近的AI,但实际上,Google Duplex根本无法通过图灵测试。...Google Duplex 赢得的赞赏更多来自其语调的自然,但从谈话的主题毋庸置疑非常低级:虚拟助手通过死记硬背的对话完成了一个理发预约,对话中,自由发挥的空间并不多。...对技术的过分吹捧可能更多地说明了,我们过分看低了人类潜能。 我们看到一个虚拟助手捕捉到了人类行为的一个微小方面,就迅速得到结论:人类已经一无所有了。...Google应该投入同样多的精力来向我们展示它的虚拟助手还不能做的事情。如果Sundar Pichai能用更丰富的对话提示来测试Duplex,或许会更有意义。...放弃这些教学的核心原则,让老师成为一个虚拟的存在,是削弱你以及学生的抱负的最有效的方法。 但完全舍弃虚拟导师也是不必要的。强硬的传统主义者在教育中有一种扭曲的讽刺。

    43940

    AI眼中的世界什么样?谷歌&OpenAI新研究打开AI视觉的黑箱

    机器之心报道 机器之心编辑部 近日,谷歌和 OpenAI 发布新研究,提出一种新方法 Activation Atlas,旨在映射计算机视觉系统用于理解世界的视觉数据,进一步打开 AI 视觉的黑箱。...AI 眼中的世界是什么样的? 这个问题已经困扰研究人员数十年了,近年来这个问题变得更加紧迫。机器视觉系统被部署到生活的各个方面,从医疗健康到自动驾驶。...来自谷歌和非盈利实验室 OpenAI 的新研究希望通过映射这些系统用来理解世界的视觉数据,进一步打开 AI 视觉的黑箱。...今日,谷歌与 OpenAI 的研究人员合作撰写并发布了《Exploring Neural Networks with Activation Atlases》。...它显示了网络用来给图像分类的很多视觉检测器,如水果状纹理、蜂窝图案和纤维状纹理。

    66630

    谷歌大脑与Open AI合著论文:机器视觉的一个致命缺陷

    【新智元导读】计算机视觉很厉害,但是,只要稍加修改,比如使用美图软件加一个滤镜,计算机视觉就错误频出。MIT报道把这一缺陷称为计算机视觉的“阿喀琉斯之踵”,认为这是目前视觉领域的一个致命缺陷。...机器视觉现在简直就是超人。 但是也产生了一个问题。机器视觉的研究人员发现了一些令人担忧的缺点。机器视觉的算法有一个致命缺陷:修改后的图像能骗过机器,但辨别这些图片,对人类来说并不是问题。 ?...来自“谷歌大脑”项目的Alexey Kurakin和Samy Bengio以及OpenAI的 IanGoodfellow说。 因为机器视觉系统还很新,对于对抗图像知之甚少。...表现最佳的机器视觉系统是谷歌的Inception v3算法,前5个答案的错误率是3.46%。而参与相同测试的人类表现是5%。所以从某处程度上可以说,Inception v3的能力超越了人类。...然后,他们测试谷歌的Inception v3算法对50,000张对抗图像分类的表现。 前两种简单的算法显著减少了Inception v3在前5个答案和前1个答案的正确率。

    65680

    谷歌开源MobileNets:在移动设备上高效运行的计算机视觉模型

    吴唯 编译自 Google Research Blog 量子位出品 | 公众号 QbitAI 今早谷歌在自家的科研博客上发文,宣布开源MobileNets——一组移动端优先的计算机视觉模型。...量子位将原文编译如下: 近几年来,伴随着神经网络不断将视觉识别技术向前推进,深度学习已经为计算机视觉领域的进步贡献了太多太多。...而这其中的许多技术,包括对物体、地标、logo和文本的识别等,都是通过云视觉API在联网设备上实现的。 但我们相信,移动设备计算力的不断提升,将可能让用户在脱机状态下随时、随地地接触到这些技术。...然而,在设备端和嵌入式应用上的视觉识别面临着诸多挑战——在资源受限的环境下,这些模型必须利用有限的计算力、能耗和空间来保证运行的速度与精确度。...今天我们很高兴地宣布开放MobileNets,一个为TensorFlow所准备、移动端优先的计算机视觉模型包,其设计考虑了设备端和嵌入式应用上首先的资源,力图最大化地提升精确度。

    63940

    最全面的SourceTree账号注册教程 SourceTree使用详解:

    前言: 作为一个国内开发者而言使用Git操作神器SoureTree最大的问题就是账号注册问题,因为注册账号的链接在不翻墙的情况下基本上是打不开的(弄过的童鞋应该都体会过),所以有的时候我们需要借助一些翻墙工具助我们一臂之力...如蓝灯,谷歌访问助手等,该篇博客主要是讲解一下如何注册SoreceTree(我的版本是3.3.9)的Atlassian账号,文末还有一个SourceTree跳过注册安装使用的教程(不知道是不是我的版本太高的原因按照该篇博客的教程操作了还是不起作用...蓝灯: 官网地址:https://lantern.io/en_US/ GitHub开源地址:https://github.com/getlantern/download 谷歌访问助手: 极简插件下载地址...在浏览器中直接输入刚才注册好的Atlassian账号(注意在登录的时候可能会比较慢需要需要慢慢等待,翻墙感觉就不一样了),登录账号的过程图忘记截了(略...) 登录成功后显示界面: ?...SourceTree跳过注册安装使用: 注意:这里不知道是不是我的SourceTree版本太高的原因按照该篇博客的教程操作了还是不起作用,大家有需要可以看看(仅供参考)。

    5.5K40

    CVPR2018 | CMU&谷歌Spotlight论文:超越卷积的视觉推理框架

    近日,来自卡耐基梅隆大学(CMU)的陈鑫磊(现Facebook 研究科学家)、Abhinav Gupta,谷歌的李佳、李飞飞等人提出了一种新型推理框架,其探索空间和语义关系的推理性能大大超过了普通卷积神经网络...空间和语义上的视觉推理对人类至关重要 [ 1 ],但我们目前的视觉系统与之不同,除了具有较大接受域的卷积之外,它们都缺乏语境推理。...许多语义推理需要从很少或近乎为零的实例中学习 [ 14 ]。因此,我们需要设法利用额外的结构化信息进行视觉推理。 本研究提出了一个空间推理和语义推理的通用框架。...与目前仅依赖卷积的方法不同,我们的框架还可以从知识库 [ 5,56 ] 形式的结构化信息中学习视觉识别。...论文链接:https://arxiv.org/abs/1803.11189 摘要:我们提出了一种新的迭代视觉推理框架。该框架超越了目前只具备卷积堆栈推理能力的识别系统。

    72980

    实测9款AI文件助手!原来最好用的并不是全网称赞的谷歌NotebookLM...

    而万知没有介绍传播是什么,而是对截图中的“传播学”非常感兴趣,回答只字不提传播是什么。通义智文:通义智文是阿里云推出的免费AI阅读助手,可阅读网页、论文、图书和文档,也可上传音视频进行分析。...但与谷歌相比,其分析的速度远慢于谷歌,通义智文需要在5分钟之内。但惊喜的是,通义智文有着其他国内AI工具,甚至谷歌没有的亮点!1.通义智文不仅对全文自动形成摘要,而且对文档的每一页都进行总结!...对于目前国内热门AI工具,小编认为“通义智文”有能力完全代替谷歌中的一些功能进行使用。通义智文可以与谷歌一样支持各种文件,网页,音视频的分析,摘要形成的比谷歌更为全面细致。...但我们也发现实测的AI工具也拥有谷歌没有的优势。我们实测的目的,是想找到是否有比谷歌更适合我们国内的AI文档助手。单方面使用谷歌一个AI文件助手,并不是最适合最好用的。...我想各位小伙伴对这套AI文件助手组合还有更多的方法,期待大家可以挖掘更高效的方法,文章推荐“AI教父”辛顿与物理学家霍普菲尔德荣获诺贝尔物理学奖!

    27910

    AI眼中的世界是什么样子?谷歌新研究找到了机器的视觉概念

    作者:Amirata Ghorbani等 机器之心编译 参与:魔王 来自斯坦福大学和谷歌大脑的研究人员为基于概念的解释方法提出了一些原则和要求,在整个数据集上识别更高层次的人类可理解概念。...此外,研究者还开发了一种可以自动提取视觉概念的新型算法 ACE。...近日,来自斯坦福大学和谷歌大脑的研究人员为基于概念的解释提出了一些原则和要求,它们超出了每个样本的特征(per-sample feature),而是在整个数据集上识别更高层次的人类可理解概念。...研究者开发了一种可以自动提取视觉概念的新型算法 ACE。该研究进行了一系列系统性实验,表明 ACE 算法可发现人类可理解的概念,这些概念与神经网络的预测结果一致且非常重要。...谷歌大脑的研究贡献 来自斯坦福大学和谷歌大脑的研究者列举了基于概念的解释方法应该满足的几项通用原则,并开发了一种系统框架来自动识别对人类有意义且对机器学习模型很重要的高级概念。

    38130

    谷歌助手为App开发者开放大量新特性,新增音箱到手机的交互

    △ 谷歌官方介绍视频(生肉) 话说回来,谷歌的助手到底增加了哪些具体的新特性呢? 帮助用户找到App 不怕App多,就怕用户看不到。为了帮助用户找到更多合适的App,谷歌可是下了大手笔。...首先,谷歌升级了App目录,在谷歌助手手机端的搜索页面中加入了“最新”和“最热”两个可选项。这部分为动态内容,根据用户地点和总体趋势的变化更新推荐,增加谷歌助手里应用的曝光机会。...更互动的用户体验 体验至上。 搜索到那么多的应用,体验不能太差。对此,谷歌不仅提出了构建个性化App,让应用程序记住用户的选择和偏好。 重要的是,谷歌助手开始支持音箱 到手机的转换交互了。...这个即将推出的新API能实现将智能助手上的内容传递到手机。你可以对着语音助手说“想吃宫保鸡丁”,语音助手可以将外卖的订单、收据和发票发送至手机上。...△ 用户通过对话设置每日推送时间 看来,谷歌并不想把语音助手打造成纯语音交互的一款产品,还在不断增强第三方应用在其中的作用,看来亚马逊的Echo Show又多了一个强势的竞争对手。

    70240

    150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码

    来源:机器之心本文共2400字,建议阅读5分钟本文为你介绍谷歌开源史上最大视觉模型V-MoE的全部代码。...他们推出了史上最大规模的视觉模型 V-MoE,实现了接近 SOTA 的 Top-1 准确率。如今,谷歌大脑开源了训练和微调模型的全部代码。...这一范式已经在谷歌提出的 pathway(一种全新的 AI 解决思路,它可以克服现有系统的许多缺点,同时又能强化其优势)愿景和最近的大型语言模型研究中得到了重视,但在计算机视觉中还没有得到很好的探索。...去年 6 月,来自谷歌大脑的研究者提出了 V-MoE(Vision MoE ),这是一种基于专家稀疏混合的新视觉架构。当应用于图像识别时,V-MoE 在推理时只需要一半的计算量,就能达到先进网络性能。...因此,可以得出结论,patch 的一些语义聚类出现在网络的更深层。 更高的路由决策与图像类别相关。 谷歌大脑相信这只是计算机视觉大规模条件计算的开始。

    35420

    150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码

    他们推出了史上最大规模的视觉模型 V-MoE,实现了接近 SOTA 的 Top-1 准确率。如今,谷歌大脑开源了训练和微调模型的全部代码。...这一范式已经在谷歌提出的 pathway(一种全新的 AI 解决思路,它可以克服现有系统的许多缺点,同时又能强化其优势)愿景和最近的大型语言模型研究中得到了重视,但在计算机视觉中还没有得到很好的探索。...去年 6 月,来自谷歌大脑的研究者提出了 V-MoE(Vision MoE ),这是一种基于专家稀疏混合的新视觉架构。当应用于图像识别时,V-MoE 在推理时只需要一半的计算量,就能达到先进网络性能。...这个迄今为止最大的视觉模型在 ImageNet 上实现了 90.35 的 Top-1 准确率。...因此,可以得出结论,patch 的一些语义聚类出现在网络的更深层。 更高的路由决策与图像类别相关。 谷歌大脑相信这只是计算机视觉大规模条件计算的开始。

    25320
    领券