【新智元导读】图像识别领域的权威标杆 MS COCO 2017 竞赛结果公布。COCO 竞赛代表了继 ImageNet 后图像识别的最高水平。今年,来自旷视、商汤、北大、北航、中科院自动化所的众多中国团队,几乎占据了各项任务的第一,超越了谷歌、Facebook。 MS COCO(Microsoft Common Objects in Context,常见物体图像识别)竞赛是继 ImageNet 竞赛(已停办)后,计算机视觉领域最受关注和最权威的比赛之一,是图像(物体)识别方向最重要的标杆(没有之一),也是目
本文为您提供了COCO数据集的全面指南,涉及其下载、安装及使用方法。文章内容覆盖Python编程语言和机器学习框架,适用于所有级别的读者。关键词包括COCO数据集、图像识别、机器学习应用、Python数据处理、深度学习教程。
多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。
如果你觉得好的话,不妨分享到朋友圈。 当地时间10月29日上午,在意大利威尼斯召开的计算机视觉国际顶级会议 International Conference on Computer Vision(ICCV 2017)的 “Joint COCO and Places Recognition Challenge” Workshop 中公布了 COCO 及 Places 竞赛排名情况。在共七项挑战项目中,旷视科技研究院团队(Megvii)参与了其中最重要的四项,并获得了三项第一、一项第二的优异成绩,一举击败了来自
【新智元导读】 现在的AI发展到什么水平了?我们总说“超越人类水平”,有没有一个量化的标准,来让我们理性的认识AI发展水平,刺破火热AI的迷雾?电子前沿基金会 EFF正在致力于这一方向研究。从近期微软宣布语音识别错误率降至5.1%,与人类水平相当谈起,这篇文章将介绍目前AI领域最为知名的发展水平衡量标准,涉及计算机视觉、文本理解、语音识别、翻译、游戏等多个方向。包括ImageNet、CIFAR-10、COCO等多个近年来受到广泛关注的数据集以及取得最好成绩的模型的介绍。 微软上周宣布,在语音转文字上,他们的
1 新智元推荐1 来源:微软研究院AI头条 【新智元导读】继 9月13日微软将对话语音识别错误率降至6.3%的记录后,前天再次宣布进一步将错误率降至 5.9%,首次达成与专业速记员持平且优于绝大多数人的表现。该成功归功于他们采用了一种神经语言模型,该模型在空间中被表现为连续的向量,计算机能通过该模型得知比如“fast”和“quick”是具有紧密联系的近义词。 一个月前,2016年9月14日,微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率(word error rate
自从深度学习兴起之后,以ImageNet数据集为代表的通用识别在精度上实现了跳跃式的显著提升,在通用识别性能逐渐“饱和”之后,研究者们将目光投向了难度更高的 细粒度图像识别 与 多标签图像识别 。其中细粒度识别主要针对类间相似度高、粒度细的问题,而多标签识别主要针对图像内多个共存标签有依赖性、输出标签范围广的问题,简单来说就是,细粒度识别是更精细的通用识别,而多标签识别是更广泛的通用识别。 从输出标签的数量来看,通用识别和细粒度识别都是单标签识别,然而在大多数场景下,图像中都不会只有一个孤零零的类别,只是我们在标注数据集时会故意忽略非图像主体的其他类别从而作为单标签识别问题来建模,但是随着对内容理解要求的不断提高,我们越来越需要尽可能精确的识别出图像视频中的所有类别,这时就需要用多标签识别出场了。 与通用识别和细粒度识别相比,多标签识别任务本身更关注当图像中存在多个物体、多个类别标签时,如何建模不同物体、不同标签的相关性与依赖关系,这个问题在论文中也经常被称为共现依赖(label co-occurrences),当然也有一些方法关注多标签识别任务的其他性质。
大数据文摘作品 10月31日,旷视科技Face++宣布正式完成C轮4.6亿美金融资,本轮由中国国有资本风险投资基金(简称“国风投”)领投,蚂蚁金服、富士康集团战略投资。 值得一提的是,本轮4.6 亿美元的融资金额刷新了国内人工智能领域融资纪录。旷视科技表示,完成本轮融资后,将进一步加大在金融安全、城市安防领域的投入,并将加快在城市综合大脑及手机智能领域的技术落地。旷视科技CEO印奇表示,在赋能机器之眼的技术愿景下,构建城市大脑是旷视人未来的重要社会使命。 本轮融资由 C1、C2两轮构成,同时引入包括中俄投资
选自Medium 机器之心编译 参与:李泽南 在谷歌 TensorFlow API 推出后,构建属于自己的图像识别系统似乎变成了一件轻松的任务。本文作者利用谷歌开源的 API 中 MobileNet 的组件很快开发出了识别图像和视频内物体的机器学习系统,让我们看看她是怎么做到的。 市面上已有很多种不同的方法来进行图像识别,谷歌最近开源的 TensorFlow Object Detection API 是其中非常引人注目的一个,任何来自谷歌的产品都是功能强大的。所以,让我们来看看它能够做到什么吧,先看结果:
对Facebook而言,想要提高用户体验,就得在图像识别上做足功夫。 AI 研习社此前报道《Facebook AML实验室负责人:将AI技术落地的N种方法》(上 ,下篇)就提到,做好图像识别,不仅能让Facebook的用户更精准搜索到想要的图片,为盲人读出图片中包含的信息,还能帮助用户在平台上销售物品、做社交推荐等等。 近日, FAIR部门的研究人员在这一领域又有了新的突破——他们提出一种目标实例分割(object instance segmentation)框架Mask R-CNN,该框架较传统方法操
ImageNet 图像预训练在各种视觉任务中一直都极为常见,我们会假定预训练模型的前面层级能抽取到足够的一般图像信息。因此保留预训练模型前面层级的权重就相当于迁移了一般的图像知识,并可以用于各种下游任务。但是在 ImageNet 上的预训练模型通过千类图像识别任务也只能学习到近似的一般图像知识。所以离千类图像识别任务越近,下游任务迁移的知识就越多。如果离千类图像识别任务非常远,说不定预训练也就起个初始化的作用。
谷歌最近推出的NasNet,是当前图像识别领域的最佳模型,近日对此模型进行复现了下,也大致了解了其原理。这个模型并非是人为设计出来的,而是通过谷歌很早之前推出的AutoML自动训练出来的。该项目目的是实现“自动化的机器学习”,即训练机器学习的软件来打造机器学习的软件,自行开发新系统的代码层,它也是一种神经架构搜索技术(Neural Architecture Search technology)。然而尽管AutoML 能够设计出性能可与人类专家设计的神经网络相媲美的小型神经网络,但仍被限制在 CIFAR-10 等小型学术数据集方面。
AI 科技评论:港中文最新论文研究表明目前的深度神经网络即使在人工标注的标准数据库中训练(例如 ImageNet),性能也会出现剧烈波动。这种情况在使用少批量数据更新神经网络的参数时更为严重。研究发现这是由于 BN(Batch Normalization)导致的。BN 是 Google 在 2015 年提出的归一化方法。至今已有 5000+次引用,在学术界和工业界均被广泛使用。港中文团队提出的 SN(Switchable Normalization)解决了 BN 的不足。SN 在 ImageNet 大规模图像识别数据集和 Microsoft COCO 大规模物体检测数据集的准确率,还超过了最近由 Facebook 何恺明等人提出的组归一化 GN(Group Normalization)。原论文请参考 arXiv:1806.10779 和代码 https://github.com/switchablenorms
在深度学习进行图像识别,物体检测,语义分割,实例分割时,需要使用已经标注好的数据集来训练模型。
RK3588 NPU性能可谓十分强大,6TOPS设计能够实现高效的神经网络推理计算。这使得RK3588在图像识别、语音识别、自然语言处理等人工智能领域有着极高的性能表现。
作者 | Priya Dwivedi 编译 | 聂震坤 用大数据干大事! 目前有很多种图像识别的方案,而 Google 近日最近发布了其最新的 Tensorflow 物理检测接口(Object D
一款好用的数据标注工具对于创建高质量的AI训练数据集至关重要,您可以通过高效的标注工具提高数据标注速度,让工作流变得更为有序。随着计算机视觉技术的发展,我们可以在开源社区看到越来越多的图像标注工具,任何人都可以免费使用并从强大的功能中获益,我们在下文中列举了10款我们认为优秀的开源标注工具!
源小象文水木华章 小象于日前转载发布的一篇文章《程序员要下架?专家预言2040 年机器将代替人类编写代码!》在众多码农中引发争议,有人对此表示担忧,也有人指出这种说法缺乏依据。实际上,AI比创造者强大并非科幻电影,而是已经实实在在发生的。 Google大脑团队于2017年5月发布了AutoML,这是一种控制器神经网络,可用于设计神经网络子模型,经过训练之后,便可用来执行特定任务进行质量评估。换句话说,这是一种能够创造子AI的AI!更可怕的是,AutoML在机器学习系统的编码上比创造它的研究人员还要厉害! 关
红外探测系统具有隐蔽性强、探测距离远以及抗干扰能力强等优点,广泛应用于舰船、航空器等目标的识别与跟踪。红外系统主要包含目标探测以及图像识别两部分:其中目标探测是红外系统的硬件基础;图像识别算法能够实现图像内容的判别和目标定位,是后续跟踪任务的前提,具体如图1所示:
说起人工智能,孕育了卷积神经网络和深度学习算法的 ImageNet 挑战赛恐怕是世界上最著名的 AI 数据集。8 年来,在 ImageNet 数据集的训练下,人工智能对于图像识别的准确度整整提高了 10 倍,甚至超越了人类视觉本身。
做图像识别有很多不同的途径。谷歌最近发布了一个使用Tensorflow的物体识别API,让计算机视觉在各方面都更进了一步。 API概述 这个API是用COCO(文本中的常见物体)数据集训练出来的。这是
机器暴力美学大佬Quoc V. Le 组的最新CVPR 2020 paper, "SpineNet: A Novel Architecture for Object Detection Discovered with Neural Architecture Search" 解读。核心思想是通过搜索特征图尺度重排,解决传统骨干网络尺度持续缩小导致的信息丢失问题。
图像识别作为深度学习算法的主流实践应用方向,早已在生活的各个领域发挥作用,如安全检查和身份核验时的人脸识别、无人货架和智能零售柜中的商品识别,这些任务背后的关键技术都在于此。
周末在家帮娃检查口算作业,发现一个非常有意思的应用:拿手机对着作业拍照,立马就能知道有没有做错的题目。如果做错了,还会标记出来,并给出正确答案。
---- 新智元报道 编辑:编辑部 【新智元导读】6月14日凌晨,旷视首席科学家、旷视研究院院长孙剑博士突发疾病去世,享年45岁。 6月14日凌晨,一位AI巨星陨落。 刚刚,旷视研究院发文,旷视首席科学家、旷视研究院院长孙剑博士去世。 我们万分难过,旷视首席科学家、旷视研究院院长孙剑博士因突发疾病抢救无效,于2022年6月14日凌晨,永远离开了我们。 孙剑博士一生专注于科研工作。他的不幸离世,让旷视失去了一位在人工智能技术领域探索和创新的领路人。每一位和他共事过的旷视同学,失去了一位智慧谦和
AiTechYun 编辑:nanan 在刚刚过去的一月份(2018年1月),Facebook的研究机构Facebook AI Research(FAIR)发布了开源的Detectron对象检测库。几个
加油站ai视觉分析预警算法通过yolov8图像识别和行为分析,加油站ai视觉分析预警算法识别出打电话抽烟、烟火行为、静电释放时间是否合规、灭火器摆放以及人员工服等不符合规定的行为,并发出预警信号以提醒相关人员。加油站ai视觉分析预警算法
近期开源的CV项目真不少,所以CVer的论文项目开源速递系列决定改成周更模式。不过当然前提是累计到3篇 Amusi觉得值得推荐的情况。
一行代码能干嘛?这种噱头式的开头现在估计已经不香了。。。我只能在别人挖好的土堆上再刨一铲子。
MS COCO 的全称是常见物体图像识别(Microsoft Common Objects in Context),起源于是微软于2014年出资标注的Microsoft COCO数据集,同名竞赛与此前著名的 ImageNet 竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。
JSON文件的基本格式,以实例分割为例,主要有五个部分:info、licenses、images、annotations、categories
Kaiming He的大作Mask R-CNN( https://arxiv.org/pdf/1703.06870.pdf)已经放出来一段时间了,最近才有空进行代码学习和编译。
大数据文摘作品,转载具体要求见文末 作者 | Priya Dwivedi 编译 | Lisa,Saint,Aileen 做图像识别有很多不同的途径。谷歌最近发布了一个使用Tensorflow的物体识别API,让计算机视觉在各方面都更进了一步。 这篇文章将带你测试这个新的API,并且把它应用在youtube上(可以在GitHub上获取用到的全部代码 https://github.com/priya-dwivedi/Deep-Learning/blob/master/Object_Detection_Ten
数据集在计算机科学和数据科学中发挥着至关重要的作用。它们用于训练和评估机器学习模型,研究和开发新算法,改进数据质量,解决实际问题,推动科学研究,支持数据可视化,以及决策制定。数据集提供了丰富的信息,用于理解和应用数据,从而支持各种应用领域,包括医疗、金融、交通、社交媒体等。正确选择和处理数据集是确保数据驱动应用成功的关键因素,对于创新和解决复杂问题至关重要。因此,数据集不仅是技术发展的基础,也是推动科学进步和社会决策制定的强大工具。
AI 科技评论按:近日,中山大学-商汤科技联合发表 AAAI2018 论文 「Recurrent Attentional Reinforcement Learning for Multi-label Image Recognition」提出了一个新的框架 RARL,即基于强化学习循环发现关注区域,用于解决多标签图像的识别任务。相比于目前存在的其他方法,该方法在识别精度和效率上都取得极大的提升。本文将详细介绍论文中提出的方法。 多标签图像识别 多标签图像识别是计算机视觉领域一个非常重要且比较难的任务。
AI 研习社按:近日,谷歌在其“谷歌开源”博客(Google Open Source )中发表一篇名为《Supercharge your Computer Vision models with the TensorFlow Object Detection API》的文章,文中指出虽然谷歌的物体检测,图像识别机器学习系统很先进,但仍面临着很多挑战,比如如何提高识别精度。为此,谷歌将其物体检测系统代码开源,希望更多爱好者参与进来,共同推动研究领域的发展。我们对原文做了不改动愿意的整理和编译: 在谷歌,有为计算
选自code.Facebook 作者:Dhruv Mahajana、Ross Girshick、Vignesh Ramanathan、Manohar Paluri、Laurens van der Maaten 机器之心编译 参与:路、张倩 人工标注数据需要耗费大量人力成本和时间,对模型训练数据集的规模扩大带来限制。Facebook 在图像识别方面的最新研究利用带有 hashtag 的大规模公共图像数据集解决了该问题,其最佳模型的性能超越了之前最优的模型。 图像识别是 AI 研究的重要分支之一,也是 F
作者:宋天龙 链接:https://www.zhihu.com/question/63383992/answer/222718972 来源:知乎
翻译 | Serene 编辑 | 阿司匹林 出品 | 人工智能头条(公众号ID:AI_Thinker) 2017 年 7 月,最后一届 ImageNet 挑战赛落幕。 为何对计算机视觉领域有着重要贡献的 ImageNet 挑战赛,会在 8 年后宣告终结? 毕竟计算机系统在图像识别等任务上的准确率已经超过人类水平,每年一次突破性进展的时代也已经过去。 近日,FAIR(Facebook AI Research) 的 Ross Girshick 、何恺明等大神联手,在 ImageNet-1k 图像分类数据集上取得
千平 发自 凹非寺 量子位 出品 | 公众号 QbitAI 自动驾驶公司Momenta完成B2轮融资,凯辉中法创新基金领投,GGV跟投。据介绍,本轮融资将用于AI人才招募、加速产品落地和研发高频刚需场
老铁们,今天我们将继续配置YOLO-v3目标检测与识别深度学习框架,基于COCO数据集进行训练,并测试模型的效果,最后,我们将通过YOLO-v3进行摄像头实时目标物体检测与识别应用。
AI科技评论按:6月15号,谷歌在其“谷歌开源”博客(Google Open Source )中发表一篇名为《Supercharge your Computer Vision models with the TensorFlow Object Detection API》的文章,文中指出虽然谷歌的物体检测,图像识别机器学习系统很先进,但仍面临着很多挑战,比如如何提高识别精度。为此,谷歌将其物体检测系统代码开源,希望更多爱好者参与进来,共同推动研究领域的发展。AI科技评论对原文做了不改动愿意的整理编译: 在谷
人工智能的一个重要领域是计算机视觉。计算机视觉是计算机和软件系统能够识别和理解图像和场景的科学。计算机视觉还包括图像识别、目标检测、图像生成、图像超分辨率等多个方面。由于大量的实际用例,对象检测可能是计算机视觉最深刻的方面。
计算机视觉是人工智能的一个重要领域,是关于计算机和软件系统的科学,可以对图像和场景进行识别、理解。计算机视觉还包括图像识别、目标检测、图像生成、图像超分辨率重建等多个领域。由于存在大量的实际需求,目标检测可能是计算机视觉中最有意义的领域。
在计算机视觉领域,图像识别这几年的发展突飞猛进,但在进一步广泛应用之前,仍然有很多挑战需要我们去解决。本文中,微软亚洲研究院视觉计算组的研究员们为我们梳理目前深度学习在图像识别方面所面临的挑战以及具有未来价值的研究方向。
本文为机器翻译,推荐直接看原文:COCO Dataset: All You Need to Know to Get Started
领取专属 10元无门槛券
手把手带您无忧上云