在CPU上可以使用NCHW格式吗？ - 腾讯云开发者社区

李劲 2018-11-15 14:12 可以在手机或平板上使用EA吗？...潘加宇： EA目前没有Android或iOS版本，如果想要在手机或平板上使用的话，方法是：（1）在手机或平板上通过远程桌面软件连接PC，使用EA。如下图，效果还可以的。 ?...（2）Sparx Systems提供了WebEA，你可以自己去试试： https://sparxsystems.com/products/procloudserver/#webeabook

2.6K1 0

你可以在JSX中使用console.log吗？

原文作者: Llorenç Muntaner 译者: 进击的大葱推荐理由: 很多React初学者不知如何在React的JSX中使用console.log进行调试，本文将会介绍几个在JSX中使用console.log...先不急着解释这个为什么不行的原因，让我们先看几个在JSX中正确使用console.log的方法。...一个炫酷的解决方案构建一个自定义的组件 const ConsoleLog = ({ children }) => { console.log(children); return false; }; 然后在需要的地方使用这个组件...React.createElement( 'h1', {}, // 这里也没有参数 'List of todos', ), 'console.log(this.props.todos)' ] ); 由上可知...如果你希望你的代码被执行，你需要使用 {}告诉JSX你输入的字符串是可以被执行的代码，也就是: List of todos { console.log(this.props.todos

2.3K2 0

您找到你想要的搜索结果了吗？

是的

没有找到

使用Llama.cpp在CPU上快速的运行LLM

在这篇文章中，我们将介绍如何使用Python中的llama.cpp库在高性能的cpu上运行llm。大型语言模型(llm)正变得越来越流行，但是它们的运行在计算上是非常消耗资源的。...虽然可以在直接在cpu上运行这些llm，但CPU的性能还无法满足现有的需求。而Georgi Gerganov最近的工作使llm在高性能cpu上运行成为可能。...使用LLM和llama-cpp-python 只要语言模型转换为GGML格式，就可以被llama.cpp加载和使用。而大多数流行的LLM都有可用的GGML版本。...降低n_batch有助于加速多线程cpu上的文本生成。但是太少可能会导致文本生成明显恶化。使用LLM生成文本下面的代码编写了一个简单的包装器函数来使用LLM生成文本。...在Llama.cpp有一个“convert.py”可以帮你将自己的Pytorch模型转换为ggml格式。

1.9K3 0

FastFormers 论文解读：可以使Transformer 在CPU上的推理速度提高233倍

“将这些建议的方案应用于SuperGLUE基准，与现成的CPU模型相比，能够实现9.8倍至233.9倍的加速。在GPU上，通过所介绍的方法，我们还可以实现最高12.4倍的加速。”...在CPU上，采用8位整数量化方法，而在GPU上，所有模型参数都转换为16位浮点数据类型，以最大程度地利用有效的Tensor Core。...即使模型使用很少的知识能力，评估模型在计算上也可能同样昂贵。知识蒸馏将知识从大模型转移到小模型，而不会失去有效性。由于较小型号的评估成本较低，因此可以将其部署在功能较弱的硬件（如智能手机）上。...修剪头部和隐藏状态时，作者在不同图层上使用相同的修剪率。这使得进一步的优化可以与修剪的模型无缝地协同工作。在实验中，作者发现，经过修剪的模型经过另一轮知识蒸馏后，可以获得更高的准确性。...CPU上的8位量化矩阵乘法：与32位浮点算术相比，8位量化矩阵乘法带来了显着的加速，这归功于CPU指令数量的减少。

1.6K2 0

使用GGML和LangChain在CPU上运行量化的llama2

llm已经展示了出色的能力，但是它需要大量的CPU和内存，所以我们可以使用量化来压缩这些模型，以减少内存占用并加速计算推理，并且保持模型性能。...也就是说，llm的GGML版本(二进制格式的量化模型)可以在cpu上高性能地运行。...给定一组嵌入，我们可以使用FAISS对它们进行索引，然后利用其强大的语义搜索算法在索引中搜索最相似的向量。...从启动应用程序并生成响应的总时间为31秒，这是相当不错的，因为这只是在AMD Ryzen 5600X(中低档的消费级CPU)上本地运行它。...并且在gpu上运行LLM推理(例如，直接在HuggingFace上运行)也需要两位数的时间，所以在CPU上量化运行的结果是非常不错的。

1.5K2 0

【DB笔试面试572】在Oracle中，模糊查询可以使用索引吗?

♣ 题目部分在Oracle中，模糊查询可以使用索引吗?...♣ 答案部分分为以下几种情况：（1）若SELECT子句只检索索引字段，那么模糊查询可以使用索引，例如，“SELECT ID FROM TB WHERE ID LIKE '%123%';”可以使用索引...如果字符串ABC在原字符串中位置不固定，那么可以通过改写SQL进行优化。改写的方法主要是通过先使用子查询查询出需要的字段，然后在外层嵌套，这样就可以使用到索引了。...④　建全文索引后使用CONTAINS也可以用到域索引。...这种情况需要在LIKE的字段上存在普通索引的情况下，先使用子查询查询出需要的字段，然后在外层嵌套，这样就可以使用到索引了。

9.9K2 0

从GPU的内存访问视角对比NHWC和NCHW

NHWC和NCHW是卷积神经网络(cnn)中广泛使用的数据格式。它们决定了多维数据，如图像、点云或特征图如何存储在内存中。...NHWC(样本数，高度，宽度，通道):这种格式存储数据通道在最后，是TensorFlow的默认格式。 NCHW(样本数，通道，高度，宽度):通道位于高度和宽度尺寸之前，经常与PyTorch一起使用。...NHWC和NCHW之间的选择会影响内存访问、计算效率吗？本文将从模型性能和硬件利用率来尝试说明这个问题。...下图中所示的给定张量，我们可以用NCHW和NHWC的行主格式表示它们，行主存储通过顺序存储每一行来安排内存中的张量元素。 NCHW 这里W是最动态的维度。...在每个事务期间读取的其余数据也不被使用，也称为非合并内存事务。当使用NHWC格式表示张量时，访问位置是a[0]，a[1]…，a[127]，它们是连续的，并且肯定是缓存命中。

1.6K5 0

技术|在 Linux 上使用 groff-me 格式化你的学术论文

在Linux上，nroff和troff被合并为GNUtroff，通常被称为groff。我很高兴看到早期的Linux发行版中包含了某个版本的groff，因此我着手学习如何使用它来编写课程论文。...关于groff，首先要了解的是它根据一组宏来处理和格式化文本。宏通常是个两个字符的命令，它自己设置在一行上，并带有一个引导点。宏可能包含一个或多个选项。...当groff在处理文档时遇到这些宏中的一个时，它会自动对文本进行格式化。下面，我将分享使用groff-me编写课程论文等简单文档的基础知识。...段落可以格式化为首行缩进或不缩进（即，与左边齐平）。...在groff-me中，您可以使用两种段落类型：前导段落（.lp）和常规段落（.pp）。

1.6K3 0

Reddit热议：为什么PyTorch比TensorFlow更快？

我所知道的惟一优化是 PyTorch 使用 NCHW 格式 (针对 cuDNN 进行了更好的优化)，而 TensorFlow 默认使用 NHWC。...我可以想到的唯一猜测是数据格式，或者某些 ops 调用 CUDA/cuDNN 的方式。 entarko：正如你所说，这两个库都使用 cuDNN，所以在较低级别上使用的大多数算法是相似的。...突然之间，你可以在批处理维度上进行向量化的数量变得非常少了，并且你已经传播了其余的数据，但没有获得多少收益。实际上，以前有几个框架使用这种格式，比如来自 Nervana 的 Neon。...我想到的另一点是，PyTorch 教程在 CPU 上做数据增强，而 TF 教程在 GPU 上做数据增强 (至少 1-2 年前我看到的教程是这样)。...如果你像这样做项目，那么你将在 CPU 上执行一些计算，只要你没有耗尽 CPU, 就可以提高效率。各位 PyTorcher 和 TF boy，你们怎么看？

1.5K2 0

Reddit热议：为什么PyTorch比TensorFlow更快？

2.6K3 0

深度学习编译器之Layerout Transform优化

在2D卷积神经网络中，除了NCHW数据格式之外一般还存在NHWC的数据格式，对于卷积操作来说使用NHWC格式进行计算可能会获得更好的性能。...然后细心的读者可以发现，实际上这里存在很多冗余的Transpose，因为ReLU是支持以NHWC格式进行运算的，那么这个网络可以化简为x->transpose(0, 2, 3, 1)->conv->relu...NCHWCompatibleInterface定义了几个方法： IsNCHW: 返回一个 bool 值, 表示当前的 Operator 在什么条件下是处理输入为 NCHW 格式的数据。...NCHW 格式。...接下来，matchAndRewrite 方法首先会检查 Operation 是否满足转换条件,如是否 4 维、是否在 CPU 设备上等。如果不满足则返回 failure。

3634 0

【AI系统】昇腾数据布局转换

NHWC 的数据排布方式更适合多核 CPU 运算， NCHW 的数据排布方式更适合 GPU 并行运算。那么接下来让我们了解一下在华为昇腾的 NPU 中，这种特征图的存储方式。...这样子的数据排布我们从硬件的角度来进行分析，华为的达芬奇架构在 AI Core 中特意优化了矩阵乘法单元，矩阵计算单元可以快速完成两个 16x16 矩阵的相乘运算，等同于可以在极短时间内进行 16^3=...具体地来说，比如 NCHW 格式操作在 GPU 上通常运行得更快，所以在 GPU 上转换为 NCHW 格式是较为有效的操作。...首先我们来讲解一下训练场景下 AI 编译器的例子，例如 1×1 的卷积常常使用 NHWC 的数据格式，而如果到后面使用的是 3×3 的卷积常常使用 NCHW 的数据格式，AI 编译器此时能够感知上下文，...假设训练时使用的是 GPU 对神经网络进行训练，但是推理的时候会在更多的场景下进行使用，比如手机上进行推理，手机上较多使用的是 CPU，其进行推理时与在 GPU 上进行训练时的权重数据的布局可能会有所不同

1181 0

【SLAM】开源 | 使用ORBSLAM2组织面元，只需在CPU上就可以实时得到精确性较高的稠密环境地图

densesurfelmapping 来源：香港科技大学论文名称：Real-time Scalable Dense Surfel Mapping 原文作者：Kaixuan Wang 本文提出了一种新颖的稠密建图系统，在只使用...CPU的情况下，可以在应用与不同的环境中。...使用稀疏SLAM系统来估计相机姿势，本文所提出的建图系统可以将灰度图像和深度图像融合成全局一致的模型。...基于超像素的面元处理，使本文的方法可以兼顾运行效率和内存使用率，降低了算法对系统资源的使用。...提出的面元建图系统与合成数据集上的其他最先进的方法进行比较。使用KITTI数据集和自主攻击飞行分别演示了城市规模和房间重建的表现。下面是论文具体框架结构以及实验结果： ? ? ? ? ?

1.2K2 0

【AI系统】布局转换原理与算法

原子性CPU 可以在一个对齐的内存字上操作，意味着没有指令可以中断该操作。这对于许多无锁数据结构和其他并发范式的正确性至关重要。...NCHW 格式下面，我们来举个 NCHW 数据排布方式的例子，如下图所示，这个例子中的图片分为红绿蓝三个通道，假设我们使用的是"NCHW"的数据排布方式，这里我们先将各方向的定义在这个图中详细说明，1...通道三所有数据值乘以 0.114，最后将三个通道结果相加得到灰度值，三个操作是独立的，可以在 GPU 上并行完成。...AI 框架排布常用的 AI 框架中默认使用 NCHW 的有 caffe、NCNN、PyTorch、mxnet 等，默认使用 NHWC 的有 TensorFlow、OpenCV 等，设置非默认排布格式只需要修改一些参数即可...如下图所示，元素 123456 在存储逻辑上 12 相邻，23 相邻，34 相邻等等，其在存储的物理结构上也相邻，这就是连续张量。

1081 0

教程 | TensorFlow 官方解读：如何在多系统和网络拓扑中构建高性能模型

使用 NHWC 和 NCHW 建模 CNN 使用的绝大多数 Tensorflow 操作都支持 NHWC 和 NCHW 数据格式。...在 GPU 中，NCHW 更快；但是在 CPU 中，NHWC 只是偶尔更快。构建一个支持日期格式的模型可增加其灵活性，能够在任何平台上良好运行。基准脚本是为了支持 NCHW 和 NHWC 而编写的。...使用 GPU 训练模型时会经常用到 NCHW。NHWC 在 CPU 中有时速度更快。...在 GPU 中可以使用 NCHW 对一个灵活的模型进行训练，在 CPU 中使用 NHWC 进行推理，并从训练中获得合适的权重参数。...这个参数服务器方法同样可以应用在本地训练中，在这种情况下，它们不是在参数服务器之间传播变量的主副本，而是在 CPU 上或分布在可用的 GPU 上。

1.7K11 0

【AI系统】Kernel 层架构

其通常具有平台无关性，可以在不同的操作系统和硬件上运行，为上层应用提供 API 接口，使得用户能够轻松地集成和使用神经网络模型。...推理引擎可以利用 AVX 指令集来优化 Kernel 层，特别是在 Intel CPU 上;Metal：Metal 是苹果开发的低级图形和计算 API，用于优化在 Apple GPU 上的性能。...它支持 CPU、GPU、TPU 和其他类型的硬件。GPU 优化：CUDA：CUDA 是英伟达的并行计算平台和编程模型，用于在英伟达 GPU 上执行并行计算。...推理引擎可以利用 OpenCL 来优化 Kernel 层，特别是在 GPU 上；Vulkan：Vulkan 是新一代的图形和计算 API，用于在各种 GPU 上执行并行计算。...NCHW4 布局可以在支持 4 通道向量化指令的硬件上提供更好的性能，例如某些 ARM 处理器。这种布局可以减少数据填充（padding）的需要，并提高数据处理的并行度。

1231 0

【AI系统】推理内存布局

从前文的简单介绍中，我们提到了可以从内存布局上对推理引擎的 Kernel 进行优化，接下来，我们将先介绍 CPU 和 GPU 的基础内存知识，NCHWX 内存排布格式以及详细展开描述 MNN 这个针对移动应用量身定制的通用高效推理引擎中通过数据内存重新排布进行的内核优化...GPU 内存主要架构图如下图所示，在主缓存等主要架构上，与 CPU 没太多的区别，也是多级缓存架构，其调度执行模式主要是按照 SIMT 模式进行，由许多 SM 组成。...NCHWX在推理引擎中，或者底层 Kernel 层实际上为了更加适配到 DSA 或者 ASIC 专用芯片会使用 NCHWX 内存排布格式，那么下面我们来详细了解一下 NCHWX 数据排布格式。...MNN 在 WinoGrad 卷积计算优化中使用的数据排布格式为 NC4HW4。它将 4 个数据元素拆分为一个单元，为张量创建一个新维度。...总结一下，MNN 对数据格式进行 NC4HW4 重排后，可以充分利用 ARM CPU 指令集的特性，实现对卷积等操作进行加速；同时可以较少 cache miss，提高内存命中率。

901 0

TensorRT加速推理三维分割网络实战

这个结构中有很多层，在部署模型推理时，这每一层的运算操作都是由GPU完成的，但实际上是GPU通过启动不同的CUDA（Compute unified device architecture）核心来完成计算的...TensorRT可以针对不同的算法，不同的网络模型，不同的GPU平台，进行 CUDA核的调整，以保证当前模型在特定平台上以最优性能计算。...4、动态张量显存（Dynamic Tensor Memory）在每个tensor的使用期间，TensorRT会为其指定显存，避免显存重复申请，减少内存占用和提高重复使用效率。...安装PyCUDA安装包，在 https://www.lfd.uci.edu/~gohlke/pythonlibs/#pycuda上找到对应CUDA，python的版本。...return [out.host for out in outputs] 可以看到在resnet50分类网络模型上，TensorRT预测分类结果与Pytorch预测分类结果是一样的，但是运算时间却相差很大

6462 0

转载：【AI系统】Kernel 层架构

901 0

微信AI的语音合成技术，让“读”书更尽兴

用户平均上行的字数约为20左右，平均语速约为360字/分钟，考虑到最终系统在最大模型上的实时率依然有5倍，因此即使在线合成，也可以在1秒内完成合成。...热门书籍基本上每周都会有相应的更新，为了保证更新的内容也可以使用“微信语音合成”来进行朗读，我们同时增加了在线合成的模块，当用户打开白名单书籍的新更新章节时，请求将会被在线集群进行处理。...++实现；该框架原生支持tensorflow的checkpoint；该框架可以提供给使用者自由选择在cpu或是gpu上完成前向计算。...在cpu中我们可以通过perf工具来完成。类似地，在nvidia的cuda开发包中也提供了相应的工具，名为nvperf。...4）mkl-dnn的使用最早的版本我们仅使用了mkl，在使用了mkldnn之后，性能也有了一个大幅的提升。当前我们最新的cpu的实时率为1.2倍。

2.4K4 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

可以在手机或平板上使用EA吗

你可以在JSX中使用console.log吗？

使用Llama.cpp在CPU上快速的运行LLM

FastFormers 论文解读：可以使Transformer 在CPU上的推理速度提高233倍

使用GGML和LangChain在CPU上运行量化的llama2

【DB笔试面试572】在Oracle中，模糊查询可以使用索引吗?

从GPU的内存访问视角对比NHWC和NCHW

技术|在 Linux 上使用 groff-me 格式化你的学术论文

Reddit热议：为什么PyTorch比TensorFlow更快？

Reddit热议：为什么PyTorch比TensorFlow更快？

深度学习编译器之Layerout Transform优化

【AI系统】昇腾数据布局转换

【SLAM】开源 | 使用ORBSLAM2组织面元，只需在CPU上就可以实时得到精确性较高的稠密环境地图

【AI系统】布局转换原理与算法

教程 | TensorFlow 官方解读：如何在多系统和网络拓扑中构建高性能模型

【AI系统】Kernel 层架构

【AI系统】推理内存布局

TensorRT加速推理三维分割网络实战

转载：【AI系统】Kernel 层架构

微信AI的语音合成技术，让“读”书更尽兴

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐