过去几年中,深度学习中的很多技术如计算机视觉、自然语言处理等被应用在很多实际问题中,而且相关成果也表明深度学习能让人们的工作效果比以前更好。
去年,在 iOS 15 中,Apple 添加了一项功能,旨在让用户可以选中照片中文本,突出显示,并进行交互,就像操作系统中的任何其他位置发短信一样。
近年来,生成对抗网络(Generative Adversarial Networks, GAN)成为了人工智能领域最为炙手可热的研究方向。GAN 的想法最早由 Ian Goodfellow 在 2014 年提出。GAN 用对抗的方法,同时训练了一个「生成模型(G)」与一个「判别模型(D)」,在学习的过程中,生成模型的优化目标是尽可能地去生成伪造的数据,从而获得真实数据的统计分布规律;而判别模型则用于判别给出的一个输入数据到底来源于真实数据还是生成模型。最终,当一个判别模型无法准确分辨生成模型所生成的数据是否为伪造时,此时我们认为判别模型与生成模型都已经提高到了较高的水平,生成模型所生成的数据足以模仿真实世界中的数据。因此,当我们使用 GAN 来「识别」图片时,我们不但识别了图片的内容,还可以生成各种不同内容的图片。费曼曾经说过:“What I cannot create, I do not understand.”生成模型为人工智能的研究提供了一种“create” 的可能性,因而引起了广泛的关注。
今天是美国的国家猫咪日,也是国际 Internet 日。毫无疑问,在互联网上最受欢迎的动物,非猫莫属。我们做 CV 的,做 GAN 的时候,也很喜欢使用猫的图片。
在 GitHub 热点趋势 Vol.046 中,HG 介绍过一个微软开源的 AI 工具——Bringing-Old-Photos-Back-to-Life
原文地址:https://en.wikipedia.org/wiki/Intelligent_personal_assistant 当首次介绍深度学习时,我们认为它是一个要比机器学习更好的分类器。或者,我们亦理解成大脑神经计算。 第一种理解大大低估了深度学习构建应用的种类,而后者又高估了它的能力,因而忽略了那些不是一般人工智能应用的更现实和务实的应用。 最好最自然的理解应该是从人机交互角度来看待深度学习应用。深度学习系统似乎具备近似于生物大脑的能力,因此,它们可以非常高效地应用于增强人类或者动物已经可以执
2014年Ian Goodfellow首次提出Generative adversarial networks (生成对抗网络)简称GANs,生成对抗网络就开始在计算机视觉领域得到广泛应用,成为对有用的视觉任务网络之一,也是如今计算机视觉热点研究领域之一,其已经出现的应用领域与方向如下:
AI 科技评论按:2016 即将画上句号,当我们回顾这一年的科技进展时,很难不联想到一个词——深度学习。当它从研究室中脱胎而出,并成为今年的当红热词,实际上我们已经意识到深度学习的来临。从 AlphaGo 到 Google Translate,AI 科技评论也做过不少覆盖和解析。Cade Metz 为 Wired 撰文回顾了与深度学习同行的这一年,本文由 AI 科技评论进行编译。 在澳大利亚西海岸,Amanda Hodgson 正在操控无人机飞跃海面,无人机可以帮助他们在水面上拍摄照片,利用这些照片,可
【导读】图像到图像的转换技术一般需要大量的成对数据,然而要收集这些数据异常耗时耗力。因此本文主要介绍了无需成对示例便能实现图像转换的 CycleGAN 图像转换技术。文章分为五部分,分别概述了:图像转换的问题;CycleGAN 的非成对图像转换原理;CycleGAN 的架构模型;CycleGAN 的应用以及注意事项。
众所周知,人类可以从几个有限的图像样本中有效地学习和识别物体。然而,对于现有的主流深度神经网络来说,仅从少数图像中学习仍然是一个巨大的挑战。受人类思维中类比推理的启发,一种可行的策略是“翻译”丰富的源域的丰富图像,以用不足的图像数据丰富相关但不同的目标域。为了实现这一目标,我们提出了一种新的、有效的基于部分全局学习的多对抗性框架(MA),该框架实现了一次跨域图像到图像的翻译。具体而言,我们首先设计了一个部分全局对抗性训练方案,为特征提取提供了一种有效的方法,并防止鉴别器被过度拟合。然后,采用多对抗机制来增强图像到图像的翻译能力,以挖掘高级语义表示。此外,还提出了一种平衡对抗性损失函数,旨在平衡训练数据,稳定训练过程。大量实验表明,所提出的方法可以在两个极不平衡的图像域之间的各种数据集上获得令人印象深刻的结果,并且在一次图像到图像的转换上优于最先进的方法。
CycleGAN tensorflow PyTorch by LynnHo,一个简单的 TensorFlow 实现
作为一名学术领域的探索者,我们都知道,检索和阅读论文是我们获取知识、启发思考、验证假设的基石,也是日常学习中必不可少的基本功之一。然而在浩瀚的学术海洋中,如何快速、准确地找到我们需要的论文,就像是航海家如何在茫茫大海中找到正确的航线。海量的学术资源、复杂的检索系统、不断更新的研究热点,都为我们设置了重重障碍。最近,我就收到了不少同学私信说他们检索并阅读完一篇论文所花费的时间,甚至比追完一季电视剧还要长,那么:
No.50期 众包应用举例 小可:那除了维基百科之外,众包还有哪些应用呢? Mr. 王:其实众包在业界的应用还是非常广泛的。大量的公司和网站都使用了众包算法, 有些众包算法是显性的任务分配和任务处理,也有些众包算法是隐性的。比如这种特殊的验证码: 小可:哦,验证码还是很常用的,只是这个验证码中有两个单词。在登录网站时,为了防 止一些自动的脚本攻击网站,会将一个机器难以识别而人容易识别的图像文字放在登录窗口中,只要把相应的文字输进去就可以登录了。 Mr. 王:不错,但是这个验证码比较特殊,之所以使用了两个
📌 号外!号外!5月12日,Google I/O 大会正式开幕,在长达近3个小时的主题演讲中,令人感到意外的是,谷歌在一场开发者大会上,接连发布了五款重磅硬件新品,其中包含了智能手机、智能手表、TWS 耳机、平板电脑和一款 AR 概念眼镜。 智能手机 让我们先一睹手机容颜,看图:👀 大家觉得这个外观咋样呢?从配色的角度来说,纯黑白及奶绿色,看上去还是比较讨喜的,根据之前同事买过Pixel6Pro来看,整机的质感做工非常不错的,谷歌在这次大会上发布Pixel 6a智能手机,并且搭载了自家研制的Tenso
时间轴 | 李 晶 翻 译 | 弋 心 校 对 | 云 舟 后期 | Halo 项目管理 | 大 力 编 辑 | 韩 蕊 Neurons字幕组 第5期作品震撼来袭! Neurons字幕组源自英文单词Neuron,一个个独立的神经元,汇聚千万,成就了四通八达,传递最in最酷炫信息的神经网络。 来吧,和Neurons一起,玩点不一样的AI! 还记得童年的哆啦A梦系列为我们带来的神奇工具“六面相机”吗?当你拍摄物体的时候,获得的不只是物体在一个角度上二维平面的投影,而
---- 新智元报道 来源:Google 编辑:小咸鱼 David 【新智元导读】谷歌发布年度旗舰手机Pixel 6和Pixel 6 Pro,谷歌自研的「Tensor」芯片成为最大亮点,三星5nm工艺打造,CPU性能比去年Pixel 5提升80%,GPU性能提升更是高达370%,大杯599美元,超大杯899美元。 那个深耕搜索引擎,智能手机操作系统,深度学习框架等等领域的硬核科技公司又鼓捣出新东西啦! 是的,10月20号,谷歌带来了最新的年度旗舰手机Pixel 6和Pixel 6 Pro。 不同
作者:Will Douglas Heaven翻译:顾伟嵩 校对:欧阳锦 本文约1200字,建议阅读5分钟教会神经网络多重技能的技术是通往多功能AI的一步。 如果你能通过视觉认出一只狗,那么当你用语言描述它时,你可能就能认出它。对于今天的人工智能来说,情况并非如此。深度神经网络已经非常擅长识别照片中的物体和用自然语言进行对话,但不是同时进行:有的AI模型擅长其中一种,但不是两者都擅长。部分问题在于,这些模型使用不同的技术学习不同的技能。这是开发可以执行多任务并适应环境的多功能AI机器的一个主要障碍。这也意味
[AI Milestone] AiPhone is coming | AI+手机时代已来
岁月流逝带走了时光却带不走回忆,从 1839 年法国画家达盖尔将 “摄影术” 带到世人面前,世界上就多了一种使用影像记录回忆的方式。那些我们想要留在心底或未曾经历过的从前,都可以通过翻看老照片找回来。
作者: CADE METZ 编译: AI100 原文地址: https://www.wired.com/2016/12/2016-year-deep-learning-took-internet ---- 在澳大利亚的西海岸, Amanda Hodgson正在向印度洋发射无人机。这些无人机是用来拍摄水面照片的。人们可以通过这些照片,定位在珀斯附近海湾栖息的儒艮,从而保护这些濒临灭绝的海洋哺乳动物。但主要的问题在于,Hodgson和她的团队没有时间来检查所有的航拍照片。这些照片数量庞大,大约有45000张
当首次介绍深度学习时,我们认为它是一个要比机器学习更好的分类器。或者,我们亦理解成大脑神经计算。 第一种理解大大低估了深度学习构建应用的种类,而后者又高估了它的能力,因而忽略了那些不是一般人工智能应用的更现实和务实的应用。 最好最自然的理解应该是从人机交互角度来看待深度学习应用。深度学习系统似乎具备近似于生物大脑的能力,因此,它们可以非常高效地应用于增强人类或者动物已经可以执行的任务上。此外,需要重视的一点是,深度学习系统与传统的符号计算平台非常不同,正如人类与计算机的计算方式不同一样,深度学习也是如此
苹果、谷歌还有Facebook都在投资人工智能,它们的计划是什么?还有哪些重量级玩家? 很难确切地说人工智能(AI)究竟会沿着哪条路继续往下走,但是随着像Google、Facebook以及谷歌大举进军
想象一下一个如此强大的工具,只需一张图像,它就可以精确定位您的确切位置,精确到纬度和经度。 GeoSpy.ai 免费提供这种令人惊叹的功能,利用先进的人工智能和地理空间智能从任何照片中提供精确定位。无论您是对去过的地方感到好奇,还是出于专业目的需要准确的地理数据,这项突破性的技术都为以惊人的准确性了解我们的世界开辟了新的可能性。
Pixie是一款完全可定制的高性能照片编辑器,可在任何地方使用,并且可以轻松集成到现有项目中或使用独立应用程序。
Quicker是一款非常实用的工具,它可以帮助你更快地完成电脑上的各种操作。为常用操作创建捷径,或创建组合动作来自动化完成操作。然后通过最方便的方式触发动作。
也许你曾从橱柜里翻出家人们压箱底的老照片,而它们已经泛黄发脆,甚至有些褪色;也许你在拍照时不慎手抖,只好把糊成一片的照片都丢进“最近删除”。而微软亚洲研究院在计算机视觉顶会 CVPR 2020 发表的两项黑科技——基于纹理 Transformer 模型的图像超分辨率技术,和以三元域图像翻译为思路的老照片修复技术,将能让这些照片奇迹般地恢复如初。同时,图像超分别率技术将于近期上线 PowerPoint,未来也将有更多图像修复技术集成进微软 Office 产品中。
初中开始接触摄影,从胶片相机玩到数码单反,今年28岁的的陈伟一直是身边朋友公认的摄影大师,“对于摄影最前沿的东西没有不知道的。”但在近日举行的生态文明贵阳国际论坛“云上贵州大数据年会高峰论坛”中,《大数据时代》的作者、英国籍著名教授维克托·舍恩伯格的一场主题演讲,让陈伟听傻眼了。 未来,按一次快门得到一张照片的传统将被颠覆,更“潮”的方式是使用一台大数据照相机,每一次拍摄都得到一张影像模糊的大数据照片,这张照片收集了镜头中所有景物的数据,后期在电脑中根据自己的需要把焦点放在不同的物体上,再任意调节每一个
理解条件随机场最好的办法就是用一个现实的例子来说明它。但是目前中文的条件随机场文章鲜有这样干的,可能写文章的人都是大牛,不屑于举例子吧。于是乎,我翻译了这篇文章。希望对其他伙伴有所帮助。 原文在这里[http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/] 想直接看英文的朋友可以直接点进去了。我在翻译时并没有拘泥于原文,许多地方都加入了自己的理解,用学术点的话说就是意译。(画外音:装什么装,快点开始吧。)好的,下面
李林 若朴 编译整理 量子位 出品 | 公众号 QbitAI 少年,你知道Jeff Dean么? 传奇一般的Jeff Dean现在领导着Google Brain团队,也是Google研发群组的高级研究
随着基于人工智能与机器学习的应用如雨后春笋般不断涌现,我们也看到有很多提供类似功能的 API 悄悄登上了舞台。 API 是用于构建软件应用的程序、协议以及工具的组合;本文是对2015 中这个列表的修正与完善,移除了部分被废弃的 API ;我们也添加了最近由 IBM、Google、Microsoft 这些大厂发布的 API 。所有的 API 可以根据应用场景进行分组: 人脸与图片识别。 文本分析,自然语言处理以及情感分析。 语言翻译。 预测以及其他的机器学习算法。 在具体的每个分组内,我们根据首字母顺序排序;
近日,在加利福尼亚州圣何塞举行的Galaxy Unpacked活动中,三星推出了最新的Galaxy S24系列手机。
【新智元导读】Science近日介绍了 CVPR上的最新计算机视觉研究成果。新的机器学习算法能学会如何将包含了3D物体的照片“翻译”成2D平面,最终又将这些2D平面组合成3D的形式。未来的应用可能包括为虚拟和增强现实设计对象,创建房间的3D地图用于机器人导航,以及设计通过手势控制的计算机接口。 看着一张照片,想象照片里面物体(人、汽车和狗等等)的 3D 形状,对人来说并不是难事。但是,缺乏现实世界经验的计算机却显然还没有那么聪明。 现在,科学家们创造了一个新的“转化”的方法,让计算机离具备这种能力又更进了
上周刚刚更新了Zoom Out和---weird的5.2版本,这又马不停蹄地更新了「Pan」功能。
这篇文章有4篇论文速递,都是CVPR 2018论文,包括zero-shot learning、图像合成和图像转换等方向。
你是否使用 Flickr,你是否想把你的图片整合到你的 blog 上,如果是的话,那么请你试试下面这个插件吧!翻译自:Weblog Tools Collection 的 APAD: Flickr Photo Album
Translatium Mac版是一款Mac平台上的强大的mac翻译软件,Translatium mac版可以即时翻译90多种语言。支持自动识别语言、文字转语音、照片识别翻译、同义词,例句等功能,简单易用,非常不错。
作者︰Nathan Horrocks 翻译︰Gabriel Ng校对:张睿毅 本文约3300字,建议阅读5分钟本文为大家介绍了如何利用AI进行高精度图像编辑。 处理猫咪、汽车、甚至是古董画的照片,对于这项工作的需求,在以前从未能像现在一样容易被满足,这归功于一个生成对抗网络 (GAN) 模型,叫做EditGAN。这项工作出自NVIDIA、多伦多大学和麻省理工学院的研究员们,部署自 DatasetGAN (一个人工智能视觉模型,训练只须用少如 16张人工注释的图像,性能虽然和其他方法一样高效,但其他方法需要
本文为雷锋字幕组编译的技术博客,原标题 AI is Taking Low-Light Photography to the Next Level,作者为 MICHAEL ZHANG。
AI日报|仅三个月就下架?微软GPT Builder出局AI竞争赛;马斯克将撤回对奥特曼的诉讼
肖像漫画是一种独特的艺术形式,艺术家以夸张的方式勾勒出一个人的脸,大多数时候都是为了体现幽默感。自动化这种技术带来了挑战,因为所涉及的复杂细节和形状的数量,以及转变为创造性夸大的人所需的专业技能水平。
距骁龙 8 Gen1 发布不到一年的时间,高通在 2022 年骁龙技术峰会上推出了全新一代移动端旗舰芯片——骁龙 8 Gen2。
来源 / Two Minute Papers 翻译 / 林立宏 校对 / J叔 整理 / 雷锋字幕组 本期论文 Visual Attribute Transfer through Deep Image
Windows File Recovery基于命令行程序设计,大小仅有8.26MB,所有Windows 10用户均可免费下载使用。
微软研究人员提出了通过使用人工智能让计算机讲述多张照片中发生的故事的新颖方法。2016年4月,微软发布了一份描述这项技术的学术论文,据论文表示,这项技术在将来可能能够发展出对视障人士尤为有用的服务。微软还发布了照片、图片说明以及研究中制作出的“故事”。这项新功能意义深远,因为它的作用绝不仅仅是通过识别图片或者甚至视频中的物体来生成图片说明。 微软研究员Margaret Mitchell表示:“目前要评估它的价值还很困难,但我们希望从一个维度中获取最重要的信息。通过看图讲故事,可以获得很多关于背景以及相关事件
近日,谷歌召开了一年一度的Google I/O大会。 谷歌CEO劈柴直接抛出了这次大会的主题——AI人工智能! 今年微软、亚马逊、谷歌的发布会主角通通是人工智能。不出意外的话,下月
生活中往往有太多的碎片化时间,比如等公交、上厕所、排队,我们可以利用这些碎片化的时间,阅读一些有价值的东西,里面的内容非常优质。
萧箫 发自 凹非寺 量子位 | 公众号 QbitAI GPT-4刚发布,就已经有手机应用接入了! 只需要上传图像,再用语音提出需求,GPT-4就能帮助视障人士“看清”眼前的世界。 随时随地,实时解读,就像聊天对话一样自然。 例如想要换装,却不知道手里的衣服是什么颜色: 只需要拍照上传给GPT-4,它很快就能将衣服纹理描述出来,材质、颜色和形状一清二楚: △翻译by有道 在此之前,视障人士除了用手触摸以外,辨别物体往往需要依靠身边的人或是志愿者的帮助。 有网友看到后赞叹:这是目前见过最令人惊叹的GPT-
有没有听说过“deepfakes”?用AI生成的视频会将一个人的脸部叠加到另一个人的身体上,这些视频已被用于无数电影剪辑中,以及更具恶意的目的,如假名人宣传。现在,无论好坏,卡内基梅隆大学的研究人员开发出了一种比以前的尝试更强大,更为通用的新AI系统。
GPT-3可以执行各种自然语言任务、Codex 可以将自然语言转换为代码的 ,DALL·E,用于创建和编辑原始图像。
暴力猴是油猴的替代品,界面更简洁,更轻量化,和油猴一样可以设置脚本自动同步到 OneDrive 网盘,也支持一键更新所有脚本。
领取专属 10元无门槛券
手把手带您无忧上云