独立GPU，可减少内存争用并提高CPU性能

文章/答案/技术大牛

发布

1回答

performance、gpu、cpu、integrated、dedicated

长期以来，我一直怀疑集成CPU的共享RAM会导致内存争用，并显著降低CPU的性能。尤其是在编译器和IDE性能方面。在添加或移除独立显卡时，您是否做过任何实验或注意到不同之处？

浏览 21提问于2019-05-11得票数 0

1回答

在CUDA、全局内存还是主机内存中哪个更快？

cuda

我从CUDA示例第9.4章中了解到，当在GPU全局内存上不正确地使用原子操作时，程序的性能可能比纯粹在CPU上执行时差，因为内存访问争用。在更糟糕的情况下，GPU上执行的程序是高度序列化的，没有线程并行执行，这就是单线程程序在CPU上运行的方式。所以关键的问题是程序访问内存的速度。考虑到我提到的书中的例子，CPU访问主机内存的速度似乎比GPU访问设备上的全局<em

浏览 1提问于2012-07-12得票数 3

回答已采纳

3回答

可编程CPU缓存？

caching、cpu

是否可以像使用主内存一样使用CPU的缓存？例如，在那里保存变量？我实验室的CPU有大量的L3缓存(至强E5)，nvidia的GPU有可管理的共享内存/缓存，并且有相当多的技巧可以通过这种可编程的缓存来提高性能，有没有办法对CPU的巨大缓存做同样的事情？

浏览 1提问于2012-11-05得票数 2

1回答

spring webflux应用程序的workerThread池大小应该是多少？

java、spring、spring-webflux、project-reactor、reactor-netty

默认情况下，spring webflux使用的工作线程数与CPU核心数一样多，这是否会导致其他Java应用程序出现CPU争用问题？我应该减少工作线程的数量以提高所有应用程序的性能吗？

浏览 6提问于2021-07-21得票数 0

1回答

内存分配中的锁争用-多线程与多进程

linux、multithreading、memory-management、multiprocessing、contention

我们开发了一个大型C++应用程序，该应用程序在大型Linux和Solaris盒(多达160个CPU核心甚至更多)上的几个站点上运行得令人满意。我们是LD_PRELOADing (或Solaris上的libumem/mtmalloc )，以避免内存分配性能瓶颈，通常效果很好。但是，我们开始看到内存分配/去分配期间锁争用对一些大型安装的不利影响，特别是在进程运行了一段时间之后(这暗示了分配器的老化/碎片效应)。因此，最后，我们的问题是:我们是否可以假设现代Lin

浏览 11提问于2016-09-15得票数 2

3回答

降低CPU到GPU数据传输延迟的技术

optimization、memory、cuda、data-transfer、latency

我一直在寻找减少从CPU和GPU来回传输数据所导致的延迟的方法。当我第一次开始使用CUDA时，我确实注意到CPU和GPU之间的数据传输确实需要几秒钟的时间，但我并不真正关心，因为这并不是我正在编写的小程序真正关心的问题。然而，我是一个HPC爱好者，当我看到天河一号理论峰值故障与实际LINPACK测量性能之间的巨大差异时，我开始关注我的研究方向。这引发了我对自己是否走对了职业道路的担忧。通过使用cudaHostAlloc()函数来使用固定内存(页面锁定)内存</e

浏览 10提问于2011-06-28得票数 15

回答已采纳

2回答

以原子方式对大量值进行多线程求和

java、multithreading

我正在使用AtomicLong，它工作得很好，但仍然需要改进性能。有比AtomicLong更好的性能吗？

浏览 2提问于2014-12-23得票数 4

回答已采纳

2回答

同时使用两个GPU调用cudaMalloc时性能不佳

cuda、parallel-processing、thrust、gpu、multi-gpu

我有一个应用程序，在这个应用程序中，我将处理负载分配给用户系统上的GPU。基本上，每个GPU都有CPU线程，当主应用程序线程周期性地触发GPU处理间隔时，会启动GPU处理间隔。现在，考虑应用程序将处理负载分散到两个GPU上的相同处理间隔：在一个完美的世界中，您会期望2 GPU处理间隔正好是单个GPU的一半(因为每个GPU都做了一半的工作)。正如您所看到的，这并不是部分原因，因为由于某种争用</em

浏览 11提问于2013-10-05得票数 6

回答已采纳

1回答

全局设置CPU亲和力

cpu、numa

除了我有意用taskset或numactl设置的进程之外，是否有一种方法可以使所有进程只使用特定的内核/内存(不需要遍历每个进程的每个线程并自行设置)？还有几个细节:我有2个物理CPU芯片，每个芯片都有4个内核/8个线程，总共有256 GB内存。内存在两个CPU内存总线之间的分布并不均匀。我希望内存显着减少的那个是通用的，大多数程序(例如后台任务)都运行在这个CPU上，并且有它的

浏览 0提问于2017-10-04得票数 6

回答已采纳

2回答

加强托管线程与操作系统线程之间的关系(CUDA应用程序)

.net、multithreading、cuda

，我需要帮助，我做了一些研究，并阅读了托管线程和OS线程之间的区别。一般来说，两者之间似乎有很多到许多关系。

浏览 3提问于2009-12-30得票数 2

回答已采纳

2回答

加速Keras模型的推理

machine-learning、tensorflow、raspberry-pi、computer-vision、keras

我有一个Keras模型，它在Raspberry Pi (用相机)上进行推理。覆盆子Pi有一个非常慢的CPU (1.2.GHz)和没有CUDA GPU，所以model.predict()阶段需要很长时间(~20秒)。我正在寻找办法尽可能地减少这一点。我试过：，我还能做些什么来提高推理的速度吗？有没有一种方

浏览 0提问于2017-10-16得票数 7

回答已采纳

1回答

直接访问内存的优点是什么？

embedded、dma

如果CPU在DMA传输期间无法访问总线，因此必须等待总线的释放，那么使用DMA如何提供任何性能优势？

浏览 3提问于2020-02-06得票数 1

回答已采纳

2回答

为什么要在CPU而不是GPU上进行预处理？

tensorflow

建议在CPU上进行预处理，而不是在GPU上进行。列出的理由如下这将使GPU从这些任务中解放出来，专注于培训。为什么预处理将结果发送回CPU，尤其是。如果所有节点都在GPU上？为什么预处理操作而不是图形上的任何其他操作，为什么它们/应该是特殊的？尽管我理解让CPU工作而不是让它空闲的理由，与训练步骤所要做的巨大的卷积和其他梯度反向传播相比

浏览 13提问于2017-06-05得票数 14

1回答

基于mipmapping的性能提升

opengl、mipmaps

为什么性能提高是由于mipmap？我在网上读到：“当我们有256 x 256纹理数据并想将它映射到4x4时，驱动程序只会将生成的4x4 mipmap级别复制到GPU内存中，而不是256 x 256数据。而采样将工作在GPU内存上复制的4x4数据，这将节省大量的计算”我只想知道它是否正确？另外，当glTeximage调用发生时，它会将纹理数据上传到gpu内存中，并在glteximage调用中传递。当我们调用glgeneratemipm

浏览 2提问于2013-12-25得票数 0

回答已采纳

1回答

ArrayFire与原始CUDA编程？

cuda、gpu、arrayfire

我对GPU编程非常陌生，但由于我有一项计算密集型任务，我已经转向GPU以获得可能的性能提升。我试着用版本重写我的程序。它确实比我启用多线程的CPU例程快，但没有达到我期望的程度(即< 100%的加速比)，并且返回的结果不太正确(假设CPU例程的结果是正确的，与CPU例程相比误差小于1% )。我猜测性能瓶颈可能是中央处理器和图形处理器内存之间的带宽，因为有大量的数据读取等。我读了一些NVIDIA优化指南；似乎有一些内存<

浏览 2提问于2012-09-30得票数 17

1回答

通过增加占用来提高内核性能？

cuda

下面是我的内核在GT 440上的的输出：共享内存比这些块不是完全<e

浏览 1提问于2011-10-12得票数 6

回答已采纳

1回答

如何在C++中紧急提交分配的内存？

c++、windows、multithreading、memory、directx-11

概况我必须假定，这是由于每秒钟都需要分配给进程的大量内存，而且每次DX11缓冲区被取消映射时，内存也将完全从进程中取消映射。减少内存带宽要求是不可能的。这是一个实时应用程序。实际上，硬限制目前是主GPU的PCIe 3.016x带宽。如果可以

浏览 3提问于2017-07-21得票数 22

回答已采纳

点击加载更多