NLP/CV模型跨界进行到底,视觉Transformer要赶超CNN?
在计算机视觉领域中,卷积神经网络(CNN)一直占据主流地位。不过,不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究,有的还实现了相当不错的结果。近日,一篇匿名的 ICLR 2021 投稿论文将标准 Transformer 直接应用于图像,提出了一个新的 Vision Transformer 模型,并在多个图像识别基准上实现了接近甚至优于当前 SOTA 方法的性能。
特斯拉 AI 负责人 Andrej Karpathy 转发了该论文,并表示「乐见计算机视觉和 NLP 领域日益融合」。
该研究表明,对 CNN 的依赖不是必需的,当直接应用于图像块序列时,transformer 也能很好地执行图像分类任务。该研究基于大量数据进行模型预训练,并迁移至多个图像识别基准数据集(ImageNet、CIFAR-100、VTAB 等),结果表明 Vision Transformer(ViT)模型可以获得与当前最优卷积网络相媲美的结果,而其训练所需的计算资源大大减少。
受到 NLP 领域中 Transformer 缩放成功的启发,这项研究尝试将标准 Transformer 直接应用于图像,并尽可能减少修改。为此,该研究将图像分割成多个图像块(patch),并将这些图像块的线性嵌入序列作为 Transformer 的输入。然后用 NLP 领域中处理 token 的方式处理图像块,并以监督的方式训练图像分类模型。
在中等规模的数据集(如 ImageNet)上训练时,这样的模型产生的结果并不理想,准确率比同等大小的 ResNet 低几个百分点。这个看似令人沮丧的结果是可以预料的:Transformer 缺少一些 CNN 固有的归纳偏置,例如平移同变性和局部性,因此在数据量不足的情况下进行训练后,Transformer 不能很好地泛化。
但是,如果在大型数据集(14M-300M 张图像)上训练模型,则情况大为不同。该研究发现大规模训练胜过归纳偏置。在足够大的数据规模上进行预训练并迁移到数据点较少的任务时,Transformer 可以获得出色的结果。
研究者尽可能地遵循原始 Transformer 的设计。这种故意为之的简单设置具有以下优势,即可扩展 NLP Transformer 架构和相应的高效实现几乎可以实现开箱即用。研究者想要证明,当进行适当地扩展时,该方法足以超越当前最优的卷积神经网络。
该研究提出的 Vision Transformer 在 JFT-300M 数据集上进行预训练,在多个图像识别基准上接近或超过了 SOTA 水平,在 ImageNet 上达到了 88.36% 的准确率,在 ImageNet ReaL 上达到了 90.77% 的准确率,在 CIFAR-100 上达到了 94.55% 的准确率,在 VTAB 基准 19 个任务中达到了 77.16% 的准确率。
信息来源:机器之心
02
中科大80后教授、潘建伟高徒陆朝阳获美国物理学会量子计算奖,曾获菲涅尔奖和阿道夫隆奖章
当地时间 10 月 7 日,美国物理学会(APS)宣布,授予中国科学技术大学陆朝阳教授 2021 年度罗夫 · 兰道尔和查尔斯 · 本内特量子计算奖(Rolf Landauer and Charles H. Bennett Award in Quantum Computing),以表彰他在光学量子信息科学,特别是在固态量子光源、量子隐形传态和光量子计算方面的重要贡献。
该奖项由美国物理学会于 2015 年设立,部分由国际商业机器公司(International Business Machines Corporation)资助,旨在表彰兰道尔以及本内特两位先驱科学家在信息与物理领域基础性发现方面的开创性工作。其中兰道尔提出了兰道尔原理——擦除一个比特所需最小能量,而本内特首次提出可逆计算思想、和科研伙伴一起提出量子密钥分发和量子隐形传态方案。
具体而言,该奖项旨在表彰那些在量子信息科学方面具有杰出贡献的人,特别是在利用量子效应实现经典方法无法完成的任务方面做出杰出贡献的科学家。奖项每年颁发一次,包括 5000 美元奖金和一份证明获奖者所作贡献的证书,并在获奖者出席 APS 会议领取奖项和应邀演讲时提供旅费津贴。
陆朝阳 1982 年出生于浙江东阳,现为中国科学技术大学教授和博士生导师。自学生时代起,陆朝阳便一直致力于量子方面的研究,并陆续取得了一系列重要进展,也为自己赢得了诸多荣誉。
陆朝阳于 2000 年考入中国科学技术大学,本科毕业后,他被保送至合肥微尺度物质科学国家实验室,师从潘建伟院士从事光量子信息方面的研究工作,自此开启了他的量子研究生涯。
2008 年,陆朝阳以全额奖学金进入剑桥大学卡文迪许实验室,转向固态量子光学的研究,开启了他的海外求学生涯。完成博士答辩后,陆朝阳选择了回国,以期为祖国的量子研究贡献自己的一份力量。28 岁时,陆朝阳成为了中国科学技术大学最年轻的教授。此外,他还与潘建伟院士团队保持密切科研合作,并带领几名年轻的学生组建了固态量子光源新实验室,并先后在量子计算、量子通信、多光子纠缠和光子操控等领域取得重要进展。
信息来源:机器之心
03
物流效率提速中,百度飞桨与京东物流激发出时代火花
数字经济的高速发展,给物流产业带来了翻天覆地的变化,以大数据、人工智能等新技术实现的科技赋能对行业的变革作用愈发凸显。9月29日,在AIIA2020人工智能开发者大会百度产业AI技术应用公开课上,京东物流智能供应链产业平台研发总监王梓晨受邀出席,与现场嘉宾分享京东物流与百度飞桨深度学习平台碰撞出来的“火花”,以及在飞桨助力下的智能园区综合解决方案。
(图示:京东物流智能供应链产业平台研发总监王梓晨发表演讲)
京东物流团队已经利用飞桨进行了许多实践,先是在京东快递的小程序上,通过智能文本识别,将照片或者粘贴的文字信息自动识别出姓名、地址、电话等详细内容。紧接着,针对整个物流园区,从库房下单、分拣中心到运输整个全流程,飞桨的图像分类套件PaddleClas、目标检测套件PaddleDetection、图像分割套件PaddleSeg等开发套件都给予了很大帮助。
随着计算机视觉的应用越来越多,京东物流逐渐将应用部署在边缘侧,给用户更直接、性能更好的体验。在部署时,采用飞桨PaddleSlim的模型压缩技术对需要大算力的模型进行压缩。经过团队实测,部署在边缘侧的服务器,甚至是仅有一点计算能力的小摄像头上面,整体效率提升可达65%以上。现在,京东物流逐渐从中心侧部署转移到每个库房的端侧,以及摄像头的端侧部署,同时也用到了百度零门槛AI定制开发平台EasyDL,和一套辅助团队进行可视化模型开发的工具VisualDL。
在做物流信息输入时,需要识别出来姓名、地址、电话。但拿名字来说,不是人们都输入真实姓名的,很多人只输入像橘子、漂流瓶等昵称,这样使得京东物流将百家姓全部拷贝下来都不行,这时候就可以用ERNIE来帮助京东物流进行识别。不仅姓名识别是这样,电话识别也不容易。
因为很多人都会在前面加上区号,比如:香港区号+852,是很难和座机号码识别区分。但这都不是最难的,最难的应该是地址,可能很多人都不知道自己所在的乡镇街道,而现在的物流行业又非常依赖乡镇街道这个四级地址,第一是因为便于计算运费,第二是根据它来计算时效,根据它来计算库存。如何让用户输入具体地址,让系统倒推,十分的困难。
但最终依靠京东几十亿地址库和ERNIE也成功实现了,当然也是不断做一些纠正。如果都能打很好的标的话,这个问题就不是很难的问题,之所以需要用数据解决这些问题,是由于不可能有那么多人打那么好的标。整个过程还是比较困难,京东物流对它前后的关系之间做了一个简单模型,类似“到了给我打电话”、“到了放到门卫”、“右转二百米”等信息都需要我们过滤,ERNIE会帮我们筛选这些词,大大提升了效率。最终识别了不同的标志,并用其来做分割,识别出来标准的行政区划以及送达关键的地址。到现在整个姓名和电话识别率已经非常高了,地址识别率也是在98%以上,目前数据已经可以达到98.9%以上。
(图示:物流行业的“追求”)
信息来源:飞桨PaddlePaddle
04
一切为了AI!黄仁勋GTC大会发布全新DPU处理器,计算吞吐量三年跨越1000倍
GTC大会上,教主黄仁勋再次下到厨房,为大家炒出多道新品!
这次GTC大会主题很鲜明,AI,一切为了AI!英伟达要把自己的AI算力发挥到极致,赋能千行百业。
过去,服务器领域一直是英特尔领衔的X86架构占据主导地位,各种GPU、NPU只是以加速卡形式出现,但今天英伟达公布了数据中心专用处理器DPU有可能改变这一局面,DPU结合Arm将在服务器市场撼动X86的地位。
以前我们有CPU、GPU,但显然英伟达认为这些都还不够,于是又推出了「BlueField-2 DPU」以及对应的软件生态架构DOCA(Data-Center-Infrastructure-On-A-Chip Architecture)。
英伟达企业计算负责人Manuvir Das将DOCA比作服务器领域的CUDA,此举显然是想在服务器领域复制CUDA的成功经验。
DPU是一种新型数据处理单元(Data Processing Unit)。BlueField 2 DPU是一个具有Arm核心和加速引擎的可编程处理器,用于网络、存储和安全的在线速度处理。
英伟达称,一颗BlueField-2 DPU可以替换125颗x86处理器,这样可以释放出宝贵的 CPU 核心来运行大范围的其他企业应用程序。
老黄还透露了DPU为期三年的发展计划,其中包括 NVIDIA BlueField-2系列DPU和 NVIDIA DOCA 软件开发工具包,用于构建DPU加速数据中心基础设施服务的应用程序。
除此之外,老黄还说BlueField-2正在进行采样测试,BlueField-3正在完成,BlueField-4正在加速研发设计,他还补充说「 BlueField-4将于2023年推出,为 CUDA 并行编程平台和 NVIDIA AI 增强网络计算视野提供帮助」。届时都会采用Arm的新型CPU架构,其中BlueField-4的整体效能将会是BlueField-2的600-1000倍左右。
除了 BlueField-2,黄仁勋还介绍了「BlueField-2X DPU」,包括了BlueField-2 DPU 的所有关键特性,同时增强了Ampere架构GPU的AI能力。它可以应用于数据中心的安全、网络和存储任务。
从NVIDIA的第三代Tensor Cores中,它可以使用人工智能进行实时安全分析,包括识别可能显示机密数据被盗的异常流量、以线速度进行加密流量分析、主机自省以识别恶意活动,以及动态安全编排和自动响应。
信息来源:新智元
05
可怕,GPT-3论坛跟帖灌水一周无人发现!专挑热搜,秒秒钟长文
“我被绿了怎么办”、“存款3000万的我仍然感到迷茫”、“人在美国,刚下飞机”……
当你想用这些帖子在论坛“水”经验的时候,有人比你不知道高到哪里去了:用AI来回帖。
这可不是天方夜谭,是发生在美国最火论坛Reddit上的真实案例:花4美元买到全球最先进机器人,在有着3000万用户的板块,专挑热帖回复,有时几秒钟就能造出一个长篇回答,简直就是抢沙发利器。
就这样,一个星期回复几百个帖子,还经常被顶上“高赞”,经验值涨了1000多。
事件起于OpenAI开发的最强语言模型GPT-3,这个AI最擅长的就是生成文字,写个网络小说啥的完全不在话下。由此衍生出了很多应用。“哲学家AI”(Philosopher AI)就是其中之一,只要给它输入一句话,就能输出一段看似颇具哲理的回答。所以有人动了歪脑筋。
9月26日,Reddit最无情的灌水机器人thegentlemetre正式注册上线。这个机器人,每几分钟就会在Reddit网站最受欢迎的版块上发表一条评论。比如,讨论Radiohead和甲壳虫乐队的各种优点,并推荐最喜欢的小说。
但“哲学家AI”毕竟只是哲学家,回答某些问题时会有些力不从心,thegentlemetre终于露出马脚。例如:
电梯维修工们,你们在电梯井里发现的最奇怪的东西是什么?
面对这个问题,thegentlemetre说:有人发现过一批住在电梯井里的人,对于社会学家和人类学家而言,这是一个不寻常的发现,它揭示了有关人类文化的更多信息。看来,这位thegentlemetre根本没搞清楚电梯的基本原理,分不清电梯箱和电梯井。
外媒Gizmodo联系到了“哲学家AI”的开发者Murat Ayfer,他在邮件中确认,自己的产品被人利用了。有人逆向工程了“哲学家AI”的iOS应用,从而绕过验证码,批量生成回帖。
现在Ayfer已经升级App修补了漏洞。而Reddit官方也开始封杀thegentlemetre的部分回帖。thegentlemetre近乎销声匿迹,已经好几天没有发帖了。
信息来源:量子位
END
本文分享自 PaddlePaddle 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!