选自medium 作者:Moritz Mueller-Freitag 机器之心编译 参与:黄小天、Smith TwenBN 是一家人工智能公司,运用先进的机器学习技术,做到让机器像人一样理解视频。近日,他们发布了两个大型视频数据集(256,591 个标注视频)Something-something 和 Jester 的快照(snapshot)版本,希望机器通用视觉智能的发展。第一个数据集 Something-something 可以使机器细致地理解物理世界中的基本动作;第二个数据集 Jester 关于动态手
手势和语言一样,是人类交流的一种自然形式。事实上,它们可能是最自然的表达方式。进化研究表明,人类语言是从手势开始的,而不是声音。另一个证明就是婴儿在学会说话之前,使用手势来传达情感和欲望。 许多科技公
本文是对我们 CVPR 2021 接收的工作 "ACTION-Net: Multipath Excitation for Action Recognition" 的介绍。主要针对强时序依赖行为识别这个场景,设计了一组卷积模块。
开始之前,通知下我的读者,随着订阅读者越来越多,为了对读者们负责,有以下几件事情需要告知下:
AI 科技评论按:如果你向一个人仅仅展示一段视频中的几帧,他通常可以推测出视频里发生的是什么事件以及屏幕上会显示出什么。例如,如果我们在视频开始时的帧中看到了一堆堆叠起来的罐头,在视频中间的帧中看到了有人将手指放在了视频的底部,而在视频后面的帧中看到这堆罐头倒了,我们可以猜测出手指也许推了罐头一把。然而,计算机却很难思考出这一点。
http://www.datatang.com/about/about-us.html
今天给大家介绍一个github仓库,收集了非常多的推荐系统的数据集,非常的全面,非常的实用,做推荐系统相关的同学可以收藏一下。
本文将介绍一种用于行为识别的时间交错网络(TIN temporal interlacing network)。该网络想较当前SOTA的基础上,在实现6倍加速的同时,还多个评测数据集上获得了4%的提升。同时该方法作为主力方法,在2019年的ICCV Multi Moments In Time challenge中取得了冠军(Leaderboard)。我们还release了一个基于PyTorch的开源动作识别代码库X-Temporal,希望可以进一步推动动作识别社区的发展。
原作者 Kunal Jain 编译 Mika 本文为 CDA 数据分析师原创作品,转载需授权 前言 如果用一个句子总结学习数据科学的本质,那就是: 学习数据科学的最佳方法就是应用数据科学。 如果你是初学者,那么每完成一个项目你的能力就会大大提高。如果你是有经验的数据科学从业者,那么你应该懂这个道理。 但是,当我向人们给出这个建议时,他们通常会问:我可以在哪里获得练习的数据集呢? 他们没有意识到存在大量开放的数据集可使用。他们没有意识到通过这些项目,能够不断学习,从而促进自己的职业发展。 如果你认为这符合你
无论是数据挖掘还是目前大热的深度学习,都离不开“大数据”。大公司们一般会有自己的数据,但对于创业公司或是高校老师、学生来说,“Where can I get large datasets open to the public” 是一个不得不面对的问题。 本文将为您提供一个网站/资源列表,从中你可以使用数据来完成你自己的数据项目,甚至创造你自己的产品。
如果你是一个初学者,你每完成一个新项目后自身能力都会有极大的提高,如果你是一个有经验的数据科学专家,你已经知道这里所蕴含的价值。 本文将为您提供一个网站/资源列表,从中你可以使用数据来完成你自己的数据项目,甚至创造你自己的产品。
本文将为您提供一个网站/资源列表,从中你可以使用数据来完成你自己的数据项目,甚至创造你自己的产品。
本文将为您提供一个网站 资源列表,从中你可以使用数据来完成你自己的数据项目,甚至创造你自己的产品。
安全研究人员近期发现一个新出现的窃密恶意软件 Jester Stealer,窃取登录凭据、Cookie 和信用卡等信息,其销售广告如下所示:
2022 年 12 月 6 日,SIGGRAPH Asia 2022 大会官方公布了最佳论文等多个奖项。其中,最佳论文奖由北京大学刘利斌团队的论文“Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings”获得,论文第一作者为北京大学 2020 级研究生敖腾隆。
手势是人类表达信息的重要途径之一,通过手势识别,我们可以获得表达者所要表达信息(例如对方竖起大拇指,表达了对方的表扬之意)。本项目将基于PaddleVideo来训练一个手势识别模型,利用模型对七种手势进行识别,分别是点击、放大、向下滑动、向上滑动、缩小、旋转以及抓取。
手势交互方式符合人类思维逻辑,具有自然性和直观性等特点。使用者不需要有过高的门槛,便可以很好地体验到人机交互的乐趣。手势识别技术具有良好的应用前景——包括电子娱乐、智能家居、VR及自动驾驶等热点领域。这个项目设计的目的就是实现简单直观的人机交互方式,并促使该技术和产品在未来大规模民用成为可能。
【新智元导读】有了好的数据,机器学习项目也就成功了一半。希望这份资源清单有助于那些寻找机器学习项目实践的人。对于初学者来说,这绝对是一个金矿。确保你在业余时间选择一些项目,并在上面投入时间和精力,将对你的技术成长大有益处。 大规模通用数据库:从这里入手 data.gov - 这是美国政府开放数据集总部。这些数据集的主题包括气候、教育、能源、金融和更多领域的数据。 data.gov.in - 这是印度政府公开数据库,你可以在这里查找关于印度各行业、气候、医疗保健等数据。同样,稍微改变后缀,就能查看不同地区国家
历时一年多,快手研发人员在手部数据生成、数据真实化、网络定制化与轻量化、领域迁移等多个方面进行了大量探索,提出了领域特征自适应对齐和显式教师网络等方法,提高了跨域训练效果,降低了不合理手型概率,相关工作分别发表在 ACMMM 2020 和 BMVC 2020 上。
近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现机器之心将其整理如下: 最近新增数据集 开源生物识别数据:http://openbiometrics.org/ Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒声音片段。 地址:https://research.google.com/audioset/ Uber 2B trip data:首次展示 2
人在说话的时候,常常伴随着身体动作,不管是像睁大眼睛这样细微的动作,还是像手舞足蹈这样夸张的动作。
看过上一篇「一个很糙的字母手势识别方案」文章并尝试了的同学,就一定知道,「糙手势」的识别是有多糙,糙的只能识别字母「C」。 今天这篇就用 Android 自带的 gesture API 来实现更为精准的识别。 看到这里,有的同学可能就会说了,「标题党,哪有机器学习!」。别急,认真看,认真学。先上效果图,注意底部识别分数变化,至于为什么粉红色,这是「社会人」小猪佩奇的颜色好吧~ 编不下去了,这个画板源码部分借鉴了 github 下面链接的控件,TA用的就是粉色,我没改~ https://github.com/
选自Medium 作者:Bharath Raj 机器之心编译 参与:高璇、王淑婷 近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现机器之心将其整理如下:(内附链接哦~) 最近新增数据集 开源生物识别数据:http://openbiometrics.org/ Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒声音片段。 地址:https://resea
在计算机科学中,手势识别是通过数学算法来识别人类手势的一个议题。用户可以使用简单的手势来控制或与设备交互,让计算机理解人类的行为。 这篇文章将带领你实现在你自己的应用中使用深度学习来识别复杂的手势,比
本文将分享来自布法罗大学的黄麟以及快手西雅图实验室的谈建超等人在ECCV的工作。由于3D手势本身高度非线性的动态特性以及关节点之间复杂的结构关联和依赖,使得3D手势估计问题至今难以完美解决。该团队以经典的序列转换模型Transformer为基础并采用非自回归结构化解码机制来帮助从3D点云中重建合理的3D手势。
[深度数据]·深度学习数据集大全 数据来自 skymind.ai 整理 最近新增数据集 开源生物识别数据:http://openbiometrics.org/ Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒声音片段。 地址:https://research.google.com/audioset/ Uber 2B trip data:首次展示 2 百万公里的出行数据。 地址:https://moveme
现有的视频深度学习架构通常依赖于三维卷积、自相关、非局部模块等运算,这些运算难以捕捉视频中帧间的长程运动/相关性。
2020年,UTD Embedded Machine Learning Lab 发布了一个新的多模态(视频+惯性传感)连续运动检测数据集。基于这个数据集,作者也同时发布了基于pytorch的baseline代码。
“剪刀石头布”是我们小时候经常玩的游戏,日常生活中做一些纠结的决策,有时候也常常使用这种规则得出最后的选择,我们人眼能很轻松地认知这些手势,“石头”呈握拳状,“布”掌心摊开,“剪刀”食指和中指分叉,如何让机器识别这些手势呢?
原标题 | Ten Trending Academic Papers on the Future of Computer Vision
这篇论文应该是3DCNN的鼻祖,对于视频数据来说,作者认为3D ConvNet非常适合于时空特征学习,这里也就是视频分析任务上。 摘要: 我们提出了一种简单而有效的时空特征学习方法,该方法使用在大规模有监督视频数据集上训练的深层三维卷积网络(3D ConvNets)。我们的发现有三个方面:1)与2D ConvNet相比,3D ConvNet更适合时空特征学习;2)具有小的3×3×3卷积核的同质结构是3D ConvNet中性能最好的结构之一;3)我们学习的特征,即C3D(卷积3D),在4个不同的基准上优于最先进的方法,并在其他2个基准上与当前最好的方法相媲美。此外,特征紧凑:在只有10维的UCF101数据集上达到了52.8%的准确率,而且由于ConvNets的快速推理,计算效率也很高。最后,它们在概念上非常简单,易于培训和使用。
1.Weak Supervision for Label Efficient Visual Bug Detection(BMVC 2023)
选自Medium 作者:Piotr Tempczyk 机器之心编译 参与:陈韵竹、刘晓坤 在卷积神经网络领域中有许多可视化方面的研究,但是对于 LSTM 却没有足够的类似工具。LSTM 网络的可视化能带来很有意思的结果,由于其包含时间相关性,我们除了可以在可视化图像的空间维度上探索数据之间的关联,还可以在时间维度上探索关联的稳健性。 GitHub 地址:https://github.com/asap-report/lstm-visualisation 数据集地址https://archive.ics.uci
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
Tensorflow内置了许多数据集,但是实际自己应用的时候还是需要使用自己的数据集,这里TensorFlow 官网也给介绍文档,官方文档。这里对整个流程做一个总结(以手势识别的数据集为例)。
谷歌在开发可穿戴设备上从未停歇,比如和李维斯合作推出的智能夹克衫Commuter Trucker。
构建人数统计解决方案既可以是一个有趣的项目,又可以真正找到现实世界的应用程序。
在诸如虚拟代理、动画和人机交互等各种应用中,说话者的动作至关重要。这些动作主要可以分为两个部分:与口头内容紧密相连的共语手势,以及在演讲过程中展示的非自发动作。
在当今技术创新的背景下,各领域的进步已经改变了人类的存在方式,从教育(Abulibdeh等人,2024年)和医疗保健(Younis等人,2024年)到娱乐(Takale等人,2024年)和通信(Gholami和Al Abdwani,2024年)。尽管这些变革性的进步已经发生,但某些社区仍然面临阻碍他们获得基本特权的障碍。
数月前的某个夜晚,我躺在床上时,一个念头闪过我的脑海——「如果语音是计算接口的未来,那么那些听不见或看不见的人该怎么办?」我不知道究竟是什么触发了这个想法。我自己能听、能说,周围也没有聋哑人,而且我也没有语音助手。也许是因为无数语音助理方面的文章突然出现,也许是因为各大公司争相让你选择它们的语音助手产品,或许只是因为经常在朋友的桌上看到这些设备。由于这个问题无法从记忆中消失,我知道我需要仔细考虑它。
深度学习技术的不断普及,越来越多的语言可以用来进行深度学习项目的开发,即使是JavaScript这样曾经只是在浏览器中运行的用于处理轻型任务的脚本语言。
随着元宇宙的火爆以及数字人建模技术的商业化,AI 数字人驱动算法,作为数字人动画技术链的下一关键环节,获得了学界和工业界越来越广泛的兴趣和关注。其中谈话动作生成 (由声音等控制信号生成肢体和手部动作)由于可以降低 VR Chat, 虚拟直播,游戏 NPC 等场景下的驱动成本,在近两年成为研究热点。
机器之心专栏 机器之心编辑部 华为东京研究所 - Digital Human Lab 与东京大学等合作进行了研究,提出了目前为止最大规模的数字人多模态数据集:BEAT。 随着元宇宙的火爆以及数字人建模技术的商业化,AI 数字人驱动算法,作为数字人动画技术链的下一关键环节,获得了学界和工业界越来越广泛的兴趣和关注。其中谈话动作生成 (由声音等控制信号生成肢体和手部动作)由于可以降低 VR Chat, 虚拟直播,游戏 NPC 等场景下的驱动成本,在近两年成为研究热点。然而,由于缺乏开源数据,现有的模型往往在由姿
这项“脑补力”Max的新研究,来自UC伯克利大学等机构,被今年的学术顶级会议CVPR 2019收录。
NVIDIA的研究人员与学术界的合作者共同开发了一种新的基于深度学习的标识定位(landmark localization)架构,该架构用于寻找图像特定部分的精确位置。此外,他们还提出了一种基于半监督学习的新型训练程序,该程序允许探索没有实际标记的图像以提高模型的准确性。
来源:Paper Weekly本文约3000字,建议阅读5分钟本文提出的算法从投稿至今(2022.11~2023.04),是 AGORA 榜单 SMPL-X 赛道的第一名。 三维全身人体网格重建(3D Whole-Body Mesh Recovery)是三维人体重建领域的一个基础任务,是人类行为建模的一个重要环节,用于从单目图像中捕获出准确的全身人体姿态和形状,在人体重建、人机交互等许多下游任务中有着广泛的应用。 来自粤港澳大湾区研究院(IDEA)与清华大学深研院的研究者们提出了首个用于全身人体网格重建的一
基于OpenCV与tensorflow object detection API使用迁移学习,基于SSD模型训练实现手势识别完整流程,涉及到数据集收集与标注、VOC2012数据集制作,tfrecord数据生成、SSD迁移学习与模型导出,OpenCV摄像头实时视频流读取与检测处理,整个过程比较长,操作步骤比较多,这里说一下主要阶段与关键注意点。
直接根据音频生成全身人像,效果不仅逼真,还能模拟出原音频中包含的细节,比如手势、表情、情绪等等。
新智元编译 来源:futurism、acm 编译:克雷格 【新智元导读】过年你的手机有没有被熊孩子抢走玩游戏?这个问题将来可能被算法攻破。由南卡罗来纳大学和中国浙江大学的研究人员开发的新软件(iCare)使用了一种算法,用于测量用户与移动设备的互动,并可以可靠地分辨出用户是成人还是小孩。 闪亮的手机屏幕能够安抚哭闹的孩子,然而,21世纪的父母必须权衡儿童使用手机的利弊,防止他们沉迷王者荣耀、“吃鸡”游戏或者不知不觉地在淘宝、亚马逊上购买玩具。 幸运的是,由南卡罗来纳大学和中国浙江大学的研究人员开发的
在前面的章节,我们讨论了各种JavaScript概念和运行在浏览器上的各种深度学习框架。在本章中,我们将所有的知识付诸于实践,证明该技术的潜力。
领取专属 10元无门槛券
手把手带您无忧上云