分享一篇AAAI 2021录用论文:YOLObile: Real-Time Object Detection on Mobile Devices via Compression-Compilation Co-Design作者来自于美国东北大学、匹兹堡大学和William & Mary。
使用 RenderScript 编写 Android 平台 运行的 高性能计算 应用程序 ;
背景与工程定位 背景 项目组基于深度学习实现了视频风格化和人像抠图的功能,但这是在PC/服务端上跑的,现在需要移植到移动端,因此需要一个移动端的深度学习的计算框架。 同类型的库 caffe-Android-lib 目前应该是最便于集成使用的深度学习框架库。 tensorflow和mxnet据说也有对应的android库,因时间原因暂未测试。 CNNdroid,网址https://zhuanlan.zhihu.com/p/25259452,这个是用 renderscript 作优化的深度学习框架,不过就
随着近年来 CNN 在目标检测领域的发展和创新,目标检测有了更加广泛的应用。考虑到在实际场景中的落地需求,目标检测网络往往需要在保持高准确率的同时拥有较低的计算延迟。而现有的目标检测网络,在资源有限的平台上,尤其是手机和嵌入式设备上部署这类应用时,很难同时实现高准确率与实时检测。
机器之心专栏 机器之心编辑部 本文提出了一套模型压缩和编译结合的目标检测加速框架,根据编译器的硬件特性而设计的剪枝策略能够在维持高 mAP 的同时大大提高运行速度,压缩了 14 倍的 YOLOv4 能够在手机上达到 19FPS 的运行速度并且依旧维持 49mAP(COCO dataset)的高准确率。相比 YOLOv3 完整版,该框架快出 7 倍,并且没有牺牲准确率。该框架由美国东北大学王言治研究组和威廉玛丽学院任彬研究组共同提出。 随着近年来 CNN 在目标检测领域的发展和创新,目标检测有了更加广泛的应
在2014年, UE4一下子拿出了3个移动平台的TechDemo, 分别是 Soul: http://www.youtube.com/watch?v=jzGRbGb-fog Zen Garden: h
接上文 上一节内容里,我们大致介绍了我们对移动端可用的硬件条件的探索,接下来,我们更专注于介绍一些专注于移动端设备的机器学习框架,以及在Q音探歌,我们接入深度学习服务的一般流程。 4.移动端机器学习框架介绍 深度学习算法推断要在移动端落地,需要着重衡量尺寸和性能的限制,同时又要尽可能的提供给用户较好的体验(推断速度足够快)。Q音探歌倾向使用成熟的机器学习框架快速搭建深度学习服务,我们对比了一些专注于为边缘设备带来高效深度学习的框架,包括NCNN, TensorFlow Lite, Pytorch Mobi
2006年,图形处理器(GPU)总出货量约为1.35亿。同年,ARM 完成对挪威Falanx公司的收购,并获得其移动GPU技术,完成对原有IP技术的扩展。10年后的今天,GPU已经广泛用于智能手机、DTV和平板电脑等多种设备,短短10年时间ARM Mali技术也已成为全球出货量第一的GPU,仅2015年总计出货量就超过7.5亿。
机器之心原创 作者:Tony Peng、Michael Sarazen 参与:路雪、许迪 90% 的 AI 设备都是用 Arm 的架构设计的,现在 Arm 在人工智能领域厚积薄发,发布了 Trilli
Imagination刚刚发布了有史以来最高性能的GPU IP——PowerVR图形处理器架构IMG A系列(IMG A-Series)。
本文来自IDEA(Immersive Digital Experience Alliance,沉浸式数字体验联盟)官网视频的Session-2,演讲人为Bhaskar Banerjee,是GridRaster公司的联合创始人兼CTO。他主要对GridRaster提出的无线混合现实(Mixed Reality, MR)技术进行了阐述。
在前面的一篇文章《TensorFlow.js 微信小程序插件开始支持 WebAssembly》中,我们谈到了 Tensorflow.js(tfjs) 的新后端 WebAssembly(WASM)。这篇文章进一步挖掘 tfjs WASM 后端的更多信息,并探讨一下 tfjs 为何要引入 WASM 后端。
如今的手机都配备了可在设备上直接运行 AI 的硬件;Google 鼓励编码人员利用它。
题记:7月15 号,浦东嘉里城,跟大神面对面,如果你还未注册可以dian点击链接注册:【上海线下】报名中!2021 CadenceCONNECT:异构计算设计——GPGPU完整解决方案
选自Baidu Research 机器之心编译 今天,百度研究院开源了新一代 DeepBench,一款深度学习基准测试工具,这次升级加入了推理测量等功能。 1. 介绍 2016 年 9 月,百度推出了第一版 DeepBench,它是一个开源基准测试工具,用于测试训练深度学习神经网络的基本性能指标,可兼容不同硬件平台上的神经网络库。 DeepBench GitHub 地址:https://github.com/baidu-research/DeepBench DeepBench 的主要目的是测试深度学习系统在
作者:刘光聪 中兴通讯高级系统架构师,专注机器学习算法,分布式系统架构与优化。 原文:TensorFlow架构与设计 http://www.jianshu.com/p/a5574ebcdeab
https://github.com/CoCoPIE-Pruning/CoCoPIE-ModelZoo/tree/master/YOLObile
可以看到各大主流框架基本都支持Python,目前Python在科学计算和数据挖掘领域可以说是独领风骚。虽然有来自R、Julia等语言的竞争压力,但是Python的各种库实在是太完善了,Web开发、数据可视化、数据预处理、数据库连接,爬虫等无所不能,有一个完美的生态环境。仅在数据挖掘工具链上,Python就有Numpy、SciPy、Pandas、Scikit-learn、XGBoost等组件,做数据采集和预处理都非常方便,并且之后的模型训练阶段可以和TensorFlow等基于Python的深度学习框架完美衔接。
概述 在手机客户端尤其是Android应用的开发过程中,我们经常会接触到“硬件加速”这个词。由于操作系统对底层软硬件封装非常完善,上层软件开发者往往对硬件加速的底层原理了解很少,也不清楚了解底层原理的意义,因此常会有一些误解,如硬件加速是不是通过特殊算法实现页面渲染加速,或是通过硬件提高CPU/GPU运算速率实现渲染加速。 本文尝试从底层硬件原理,一直到上层代码实现,对硬件加速技术进行简单介绍,其中上层实现基于Android 6.0。 硬件加速对App开发的意义 对于App开发者,简单了解硬件加速原理及
英特尔公司近年推出的Xe架构代表了其在图形计算领域的一次重大创新。Xe架构不仅仅是一个图形处理单元(GPU),而是一个统一的计算架构(Unified Compute Architecture,简称UCA),旨在提供前所未有的性能和灵活性。接下来将详细介绍Xe架构的特点、技术创新以及其在现代计算中的应用场景。
概述 在手机客户端尤其是Android应用的开发过程中,我们经常会接触到“硬件加速”这个词。由于操作系统对底层软硬件封装非常完善,上层软件开发者往往对硬件加速的底层原理了解很少,也不清楚了解底层原理的意义,因此常会有一些误解,如硬件加速是不是通过特殊算法实现页面渲染加速,或是通过硬件提高CPU/GPU运算速率实现渲染加速。 本文尝试从底层硬件原理,一直到上层代码实现,对硬件加速技术进行简单介绍,其中上层实现基于Android 6.0。 硬件加速对App开发的意义 对于App开发者,简单了解硬件加速原理及上层
在手机客户端尤其是Android应用的开发过程中,我们经常会接触到“硬件加速”这个词。由于操作系统对底层软硬件封装非常完善,上层软件开发者往往对硬件加速的底层原理了解很少,也不清楚了解底层原理的意义,因此常会有一些误解,如硬件加速是不是通过特殊算法实现页面渲染加速,或是通过硬件提高CPU/GPU运算速率实现渲染加速。 本文尝试从底层硬件原理,一直到上层代码实现,对硬件加速技术进行简单介绍,其中上层实现基于Android 6.0。 了解硬件加速对App开发的意义 对于App开发者,简单了解硬件加速原理及上层A
今天,谷歌在 GitHub 与 TFHub 上同时发布了 EfficientNet-Lite,该模型运行在 TensorFlow Lite 上,且专门针对移动设备 CPU、GPU 以及 EdgeTPU 做了优化。EfficientNet-Lite 为边缘设备带来了 EfficientNet 上强大的性能,并且提供五个不同版本,让用户能够根据自己的应用场景灵活地在低延迟与高精度之间选择。
1.摘要 Q音探歌是QQ音乐孵化的一款全新APP,主打高效、准确的“听歌识曲”,“扫描识别MV”功能,这些服务的实现离不开深度学习能力。把深度学习推断带到边缘设备( inference on the edge ),可以减少计算时间,改善用户体验,但是也面临着种种挑战。我们希望本文提供的观察、见解和我们针对不同平台的设计原则能够帮助大家更好地设计和评估移动端的深度学习推断。 2.介绍 2.1深度学习的边缘化发展的机遇 越来越多的服务会使用到深度学习的能力,例如给用户聚类、识别动作与跟踪、语音识别等等。尽管所有
这次我们准备聊下决定系统计算性能的两大关键指标,1. 浮点运算能力(FLOPS), 2. 内存带宽(Memory Bandwidth)。
设备预测维护与工业大数据应用在设备接入(IOT HUB)和实现数据可视化之后,就要用到云计算的数据分析、机器学习和深度学习功能。目前机器学习与深度学习框架包括 TensorFlow、Caffe、Keras、CNTK、Torch7、MXNet、Leaf、Theano、DeepLearning4、Lasagne、Neon 等。
计算机组成原理里面提到计算机必须具备五大基本组成部件:运算器、控制器、存储器、输入设备和输出设备,其中运算器和控制器必定存在于 CPU 中。然而,如果 CPU 中运算器数量特别少,我们的程序却需要进行大量的巨型矩阵的运算,使用 CPU 运行时间会特别长。我们先来简单分析一下为什么 CPU 运行时间会特别长,因为运算量非常大,同时 CPU 只能一次运算一条数据,虽然现在 CPU 普遍是多核,但是处理大量的数据还是显得力不从心。这个时候我们就不能使用 CPU 了,而应该使用 GPU,我们首先来看一下 GPU 究竟是个什么东西。
选自Medium 作者:Eugenio Culurciello 机器之心编译 参与:Rick R、吴攀 在这篇文章中,作者Eugenio Culurciello简述了几类硬件设计,希望能为大家更快的运行神经网络提供洞见。 我喜欢深度学习... 深度学习最近取得的成功势不可挡:从图像分类和语音识别到图片标注、理解视觉场景、视频概述、语言翻译、绘画,甚至是生成图像、语音、声音和音乐! …而我想让它运行得飞快! 其成果令人震惊,因而需求就会增长。比如你是谷歌/ Facebook / Twitter 的工作人员
近日谷歌宣布,向非盈利性 LLVM 基金会提供今年 4 月开源的 Multi-Level Intermediate Representation(MLIR)架构,一个与 TensorFlow 紧密结合的表示格式和编译器实用工具库,该架构介于模型表示和低级编译器/执行器(二者皆可生成硬件特定代码)之间。谷歌希望通过向社会提供该架构来激励更多的创新,从而进一步加速 AI 领域发展。我们将 MLIR 的详细内容及谷歌相关报道整理编译如下。
CPU,全称是“Central Processing Unit”,中文名为“中央处理器”。它是计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。CPU 自产生以来,在逻辑结构、运行效率以及功能外延上取得了巨大发展。以下是关于 CPU 的详细介绍:
在AI深度学习模型的训练中,一般会用Python语言实现,原因是其灵活、可读性强。但在AI模型实际部署中,主要会用到C++,原因在于其语言自身的高效性。
2018年1月9日,全球规模最大的2018北美消费电子产品展在美国拉斯维加斯拉开帷幕。本次参展的科技企业超过4000家,包括高通、英伟达、英特尔、LG、IBM、百度在内的业界科技巨头纷纷发布了各自最新的人工智能芯片产品和战略,作为本届展会的最大看点,人工智能芯片产品无疑受到了最为广泛的关注。
机器之心原创 作者:李泽南、李亚洲 人工智能的最近一次浪潮起源于 2011 年前后深度学习(Deep Learning)引起的大发展。在其背后,快速发展的 GPU 功不可没。近年来,人们逐渐认识到计算芯片对于人工智能的重要性,围绕 AI 任务进行专有加速的芯片越来越多,但无论是 AlphaGo 背后的谷歌 TPU 还是加入了全新 Tensor Core 结构的英伟达 Tesla V100,这些芯片都是为服务器端进行设计的,在移动端对于机器学习任务加速的 SoC 还未出现。9 月 2 日,在德国柏林举行的 I
本文将探讨GPU开发实践,重点关注使用GPU的AI技术场景应用与开发实践。首先介绍了GPU云服务器在AIGC和工业元宇宙中的重要作用,然后深入讨论了GPU在AI绘画、语音合成等场景的应用以及如何有效地利用GPU进行加速。最后,总结了GPU并行执行能力的优势,如提高算力利用率和算法效率,卷积方式处理效率更高,现场分层分级匹配算法计算和交互,超配线程掩盖实验差距,以及tensor core增加算力峰值等。
本文是由来自上海交通大学 Apex 实验室的本科生 Lianmin Zheng 发表于 TVM 的一篇博客,文中阐述了如何使用 TVM 优化移动端上的 ARM GPU 的深度学习。 AI 研习社对原文
选自Medium 机器之心编译 参与:路雪、黄小天 如今,正在兴起一项有关手机应用和深度学习的新动向。 2017 年 4 月:谷歌发布 MobileNets,一个可在计算资源有限的环境中使用的轻量级
1、CPU(Central Processing Unit-中央处理器),是一块超大规模的集成电路,是一台计算机的运算核心(Core)和控制核心( Control Unit)。它的功能主要是解释计算机指令以及处理计算机软件中的数据。
width —— 视口宽高 height —— 视口宽高 device-width —— 设备的宽高 device- height —— 设备的宽高 orientation:检查设备处于横向(landscape)还是竖屏(portrait)
【新智元导读】Caffe作者,Facebook研究科学家贾扬清11月8日在Facebook官方网站上发文,介绍了他在Facebook 最新的机器学习研究成果——Caffe2go。这一款规模更小但训练速度更快、对计算性能要求较低的机器学习框架使得在手机上运行并训练神经网络模型成为可能。Caffe2go已经成为Facebook机器学习的核心技术。贾扬清在文章中写道:我们将会在接下来的几个月内,部分开源这一AI框架。 贾扬清:Caffe 作者,现任Facebook研究科学家,曾在Google Brain工作。在A
AI科技评论按:7月份,在经历了长达几个月外界对苹果AI技术落后的质疑后,苹果又有了一些新动作,首先是在7月20日上线了苹果机器学习官方博客(Apple Machine Learning Journal),并发表了第一篇博文;其次提交的论文被CVPR 2017收录,获最佳论文。 苹果CEO库克面对外界对苹果AI技术落后的质疑,曾向媒体回应说,苹果精神是“just work ”(实干精神),之所以外界看不到苹果AI技术的进展,是因为苹果只喜欢谈论即将上线的产品功能。这么来看,公众最多只能通过公开的博客和学术论
导读:深度学习(Deep Learning)是机器学习中一种基于对数据进行表征学习的方法,深度学习的好处是用非监督式或半监督式的特征学习、分层特征提取高效算法来替代手工获取特征(feature)。作为当下最热门的话题,Google、Facebook、Microsoft等巨头都围绕深度学习重点投资了一系列新兴项目,他们也一直在支持一些开源深度学习框架。 目前研究人员正在使用的深度学习框架不尽相同,有 TensorFlow、Torch 、Caffe、Theano、Deeplearning4j等,这些深度学习框架
本文实例总结了PHP判断访客是否手机端(移动端浏览器)访问的方法。分享给大家供大家参考,具体如下:
在最近的TensorFlow Dev Summit 2018大会上,Google宣布发布Tensorflow.js,这是用Javascript实现的开源深度学习框架Tensorflow。Tensorflow.js可以实现在浏览器中直接训练模型,通过使用WebGL JavaScript API获得更快的计算速度。 Tenforflow.js是由2017年8月Google发布的Javascript库deeplearn.js演化而来的。Deeplearn.js诞生于Tensorflow Playground这款由
NPU即神经网络处理器(Neural network Processing Unit)
分享 有问题请到留言区互动 人工智能无疑是计算机世界的前沿领域,而深度学习无疑又是人工智能的研究热点,那么现在都有哪些开源的深度学习工具,他们各自的优缺点又是什么呢?本文对Caffe、CNTK、TensorFlow、Theano和Torch等深度学习工具从网络、模型能力、接口、部署、性能、架构、生态系统、跨平台等方面做了比较。 1.网络和模型能力 Caffe Caffe可能是第一个主流的工业级深度学习工具,它开始于2013年底,具有出色的卷积神经网络实现。在计算机视觉领域Caffe依然是最流行的工具包,它有
中央处理器 (英语:Central Processing Unit,缩写:CPU),是计算机的主要设备之一,功能主要是解释计算机指令以及处理计算机软件中的数据。
4月6日消息,三星宣布与AMD延长IP授权方面的战略合作,未来多年,将会有更多代AMD高性能、低功耗的Radeon图形解决方案降临到三星自研的Exynos系列芯片上。
选自Google Blog 机器之心编译 参与:Jane W、吴攀 近日,谷歌开发者博客发布了一篇文章,介绍了用于 TensorFlow 的编译器 XLA(Accelerated Linear Algebra/加速线性代数)的原理和能力。 TensorFlow 的设计目标和核心优势之一是其灵活性。TensorFlow 被设计成一个灵活和可扩展的系统,可用于定义任意数据流图(data flow graph)并使用异构计算设备(如 CPU 和 GPU)以分布式方式有效地执行它们。 但是灵活性通常与性能不能兼得。
深度学习是机器学习中一种基于对数据进行表征学习的方法,作为当下最热门的话题,谷歌、Facebook、微软等巨头纷纷围绕深度学习做了一系列研究,一直在支持开源深度学习框架的建设。 深度学习是机器学习中一种基于对数据进行表征学习的方法,作为当下最热门的话题,谷歌、Facebook、微软等巨头纷纷围绕深度学习做了一系列研究,一直在支持开源深度学习框架的建设。 过去一年间,在这些巨头的加持下,深度学习框架格局发生了极大改变:新框架横空出世,旧的框架也逐渐退出历史舞台,而框架与框架之间的联系也更加紧密,生态更为开放。
TensorFlow是相对高阶的机器学习库,用户可以方便地用它设计神经网络结构,而不必为了追求高效率的实现亲自写C++或CUDA代码。它和Theano一样都支持自动求导,用户不需要再通过反向传播求解梯度。其核心代码和Caffe一样是用C++编写的,使用C++简化了线上部署的复杂度,并让手机这种内存和CPU资源都紧张的设备可以运行复杂模型(Python则会比较消耗资源,并且执行效率不高)。除了核心代码的C++接口,TensorFlow还有官方的Python、Go和Java接口,是通过SWIG(Simplified Wrapper and Interface Generator)实现的,这样用户就可以在一个硬件配置较好的机器中用Python进行实验,并在资源比较紧张的嵌入式环境或需要低延迟的环境中用C++部署模型。SWIG支持给C/C++代码提供各种语言的接口,因此其他脚本语言的接口未来也可以通过SWIG方便地添加。不过使用Python时有一个影响效率的问题是,每一个mini-batch要从Python中feed到网络中,这个过程在mini-batch的数据量很小或者运算时间很短时,可能会带来影响比较大的延迟。现在TensorFlow还有非官方的Julia、Node.js、R的接口支持。
领取专属 10元无门槛券
手把手带您无忧上云