首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    微软亚洲研究院:计算机看懂视频的步骤及未来努力方向

    对于人类来说,看懂视频似乎是再简单不过的事情了。从出生就开始拥有视觉,人眼所看到的世界就是连贯动态的影像。视野中每一个动态的形象都被我们轻易的识别和捕捉。但这对于计算机来说就没那么容易了。对于计算机来说,画面内容的识别,动作的捕捉,都要经过复杂的计算才能得出。当计算机从视频中识别出一些关键词后,由于语义和句子结构的复杂性,还要涉及词汇的词性、时态、单复数等表达,要让计算机将单个的词汇组成通顺准确的句子也是难上加难。 那么让计算机看懂视频都要经过哪几步呢? 首先,识别视频里的内容。目前的图像识别研究大多基于C

    02

    NEC开发了深度学习自动优化技术、更易于提高识别精度

    近日,NEC宣布开发了更易于提高识别精度的深度学习自动优化技术。 以往进行深度学习时,很难基于神经网络构造(注1)进行调整,所以无法在整个网络进行最优化的学习,因而无法充分发挥其识别性。此次开发的技术, 可以基于其结构自动优化神经网络学习的进度,从而轻松实现比以往更加精准的识别。 此技术的出现,使得应用了图像识别及声音识别等深度学习技术的各个领域,均有望实现识别精度的进一步提高。例如,人脸识别和行为分析等视频监控识别精度的提高、基础设施等点检工作效率的提高,实现自动检测灾害、事故和灾难等。 一、背景 近年来

    06

    重磅丨直击“人机大战”第二轮:声纹识别百度小度1:1战平人类,比赛的背后究竟发生了什么?

    如果说在上一轮人机大战的人脸识别对决中,由于小度对阵了并不擅长人脸识别的王峰,令比赛意义打了折扣,那么昨天进行的第二轮声音识别的人机大战,虽然最终只是战平,但对于AI 界的意义却似乎更大。 原因有两点:一、公认实力顶尖的对手;二、业界公认困难的比赛内容。 在对手上,此次迎战百度小度的是名人堂公认最擅长声音辨别的选手孙亦廷,他辨别声音细节的能力在名人堂无出其右,能通过水球从0~70米高空坠地破碎的声音,来准确辨别水球下落时的高度。这相当于在一根70米长的琴弦上拉奏任意位置,他都通过音高准确辨别拉弦的位置,甚至

    05

    用于追踪认知任务期间的亚秒级脑动态的高密度脑电

    这项工作为社区提供了高密度脑电图(HD-EEG, 256个通道)数据集,这些数据集是在无任务和任务相关范式下收集的。它包括43名健康的参与者执行视觉命名和拼写任务,视觉和听觉命名任务和视觉工作记忆任务,以及静息状态。HD-EEG数据以脑成像数据结构(bid)格式提供。这些数据集可以用来(i)追踪大脑网络动力学和在不同条件下(命名/拼写/其他)的次秒级时间尺度,和模态(听觉、视觉)的快速重新配置和相互比较,(ii)验证几个方法中包含的参数,这些方法是用来通过头皮脑电图估计大脑皮层网络,例如最优通道数量和感兴趣区域数量的问题,以及(iii)允许到目前为止使用HD-EEG获得的结果的再现性。我们希望,这些数据集的发布将推动新方法的发展,可以用来评估大脑皮层网络,并更好地了解大脑在休息和工作时的一般功能。 数据可从https://openneuro.org免费获取。 1.1.背景和概要 新的证据表明,来自于空间上遥远的大脑区域之间的通信导致大脑功能(失能)。尽管在过去的几十年里,功能性磁共振成像已经给神经科学带来了革命性的变化,但其固有的时间分辨率较差,这是限制其用于跟踪快速大脑网络动态的主要缺陷,而这种网络动态是多个大脑(认知和感知运动)过程执行的基础。脑电图/脑磁图(EEG/MEG)是一种独特的非侵入性技术,能够在毫秒的时间尺度上跟踪大脑动态。 在无任务范式和任务相关范式下,已经有一些研究使用脑电图/脑磁图源连通性方法来跟踪大脑皮层网络。然而,尽管人类连接组项目(HCP)和几个脑电图数据集的MEG数据集模型得到了人们的称赞,但只有很少的数据可以同时用于休息和任务,并且在不同任务中开放获取的高密度脑电图(HD-EEG, 256个通道)数据仍然缺失。 HD-EEG与复杂的信号处理算法相结合,正日益将EEG转变为一种潜在的神经成像模式。最近的脑电图研究揭示了在休息和认知任务期间跟踪快速功能连接动态的可能性。此外,一些研究报告了HD-EEG数据(与低脑电通道密度相比)在某些病理条件下的潜在应用,如癫痫网络的定位和神经退行性疾病中认知功能下降的检测。此外,新出现的证据表明,在一定程度上,使用HD-EEG可以捕获皮层下的结构。在这种背景下,无任务和任务相关的可用性开放HD-EEG数据库正在快速成为强制性的(i)解读(次秒级)重组的脑功能网络在认知,(ii)开发新的信号处理方法,充分估计大脑皮层网络和(iii)允许使用HD-EEG到目前为止结果的再现性。 在此,我们提供了第一个开放获取的HD-EEG(256通道)数据集,在休息状态和4种不同的任务(视觉命名、听觉命名、视觉拼写和工作记忆)下记录。部分数据已经被用于开发和分析各种信号处理方法。 特别地,我们的努力集中在对休息和图片命名期间的脑功能网络的估计上。然而,这些研究都没有描述数据集的细节,而且到目前为止的工作只用了小部分数据。在这项工作中,我们提供了所有必要的细节和一个开放的数据库,以便国际科学界能够在无任务和与任务相关的范式中自由地产生对大脑功能的更好的理解。这也将有助于新方法的开发,以提高目前使用的HD-EEG评估皮质脑网络的技术的准确性,并通过比较结果和未来的meta分析来使得这些技术互相面对。我们希望这个数据集将有助于使脑电图源空间网络分析成为一种成熟的技术,以解决认知和临床神经科学中的一些问题。 1.2 方法 1.2.1 数据采集 数据是2012年至2017年在法国雷恩进行的两项不同实验中收集的。第一数据集包括视觉对象名字的命名和拼写(图1)。第二个数据集包括静息状态、视觉/听觉命名和视觉工作记忆任务(图2)。同样的设备中使用的数据集和录音都在同一个地方(雷恩大学医院中心)。采用HD-EEG系统(EGI,256个电极)以1 KHz采样率记录脑活动,电极阻抗保持在50 k ω以下。两项研究的参与者是不同的。他们提供了参与的书面知情同意,并完成了一些纳入/排除标准问卷(总结见表1)。参与者坐在法拉第结构房间的扶手椅上。房间由百叶窗减弱的自然光照亮。我们的参与者的头大约位于屏幕前1米。图像以白色背景上的黑色图画的形式集中呈现,没有任何尺寸修改(10厘米x 10厘米)。这种设置对应于从注视点的最大靠近度2.86度的视角,从而使整个图像处于参与者的中心凹视野内。声音通过50瓦的罗技扬声器显示,没有任何音频隔离的可能性。

    00

    快讯 | 腾讯推政务连接器“腾讯慧眼”,用于多场景“刷脸”办政务

    8月31日讯,“2017互联网+数字经济中国行·四川峰会”在四川省成都市举行。本次峰会上,腾讯正式发布了首款一体化“政务连接器”——腾讯慧眼。它是基于图像识别、声音识别、大数据分析能力,利用深度学习技术打造的人工智能实名核身解决方案,也就是“刷脸”技术。 这种方便快捷的“刷脸”技术解决了在线政务的“核验关”问题,实现了人脸识别、活体检测、证件OCR等技术的结合,能够在真实的政务办理场景中,快速实现身份证与持证人的匹配认证。同时,在复杂场景中,依托活体检测对抗能力,可防止人脸识别被恶意破解,确保在远程政务办理

    04
    领券