腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(7712)
视频
沙龙
1
回答
独立
GPU
,
可
减少
内存
争
用
并
提高
CPU
性能
performance
、
gpu
、
cpu
、
integrated
、
dedicated
长期以来,我一直怀疑集成
CPU
的共享RAM会导致
内存
争
用
,
并
显著降低
CPU
的
性能
。尤其是在编译器和IDE
性能
方面。 在添加或移除
独立
显卡时,您是否做过任何实验或注意到不同之处?
浏览 21
提问于2019-05-11
得票数 0
1
回答
在CUDA、全局
内存
还是主机
内存
中哪个更快?
cuda
我从CUDA示例第9.4章中了解到,当在
GPU
全局
内存
上不正确地使用原子操作时,程序的
性能
可能比纯粹在
CPU
上执行时差,因为
内存
访问
争
用
。在更糟糕的情况下,
GPU
上执行的程序是高度序列化的,没有线程并行执行,这就是单线程程序在
CPU
上运行的方式。所以关键的问题是程序访问
内存
的速度。考虑到我提到的书中的例子,
CPU
访问主机
内存
的速度似乎比
GPU
访问设备上的全局<em
浏览 1
提问于2012-07-12
得票数 3
回答已采纳
3
回答
可编程
CPU
缓存?
caching
、
cpu
是否可以像使用主
内存
一样使用
CPU
的缓存?例如,在那里保存变量?我实验室的
CPU
有大量的L3缓存(至强E5),nvidia的
GPU
有
可
管理的共享
内存
/缓存,并且有相当多的技巧可以通过这种可编程的缓存来
提高
性能
,有没有办法对
CPU
的巨大缓存做同样的事情?
浏览 1
提问于2012-11-05
得票数 2
1
回答
spring webflux应用程序的workerThread池大小应该是多少?
java
、
spring
、
spring-webflux
、
project-reactor
、
reactor-netty
默认情况下,spring webflux使用的工作线程数与
CPU
核心数一样多,这是否会导致其他Java应用程序出现
CPU
争
用
问题?我应该
减少
工作线程的数量以
提高
所有应用程序的
性能
吗?
浏览 6
提问于2021-07-21
得票数 0
1
回答
内存
分配中的锁
争
用
-多线程与多进程
linux
、
multithreading
、
memory-management
、
multiprocessing
、
contention
我们开发了一个大型C++应用程序,该应用程序在大型Linux和Solaris盒(多达160个
CPU
核心甚至更多)上的几个站点上运行得令人满意。我们是LD_PRELOADing (或Solaris上的libumem/mtmalloc ),以避免
内存
分配
性能
瓶颈,通常效果很好。但是,我们开始看到
内存
分配/去分配期间锁
争
用
对一些大型安装的不利影响,特别是在进程运行了一段时间之后(这暗示了分配器的老化/碎片效应)。因此,最后,我们的问题是:我们是否可以假设现代Lin
浏览 11
提问于2016-09-15
得票数 2
3
回答
降低
CPU
到
GPU
数据传输延迟的技术
optimization
、
memory
、
cuda
、
data-transfer
、
latency
我一直在寻找
减少
从
CPU
和
GPU
来回传输数据所导致的延迟的方法。当我第一次开始使用CUDA时,我确实注意到
CPU
和
GPU
之间的数据传输确实需要几秒钟的时间,但我并不真正关心,因为这并不是我正在编写的小程序真正关心的问题。然而,我是一个HPC爱好者,当我看到天河一号理论峰值故障与实际LINPACK测量
性能
之间的巨大差异时,我开始关注我的研究方向。这引发了我对自己是否走对了职业道路的担忧。通过使用cudaHostAlloc()函数来使用固定
内存
(页面锁定)
内存</e
浏览 10
提问于2011-06-28
得票数 15
回答已采纳
2
回答
以原子方式对大量值进行多线程求和
java
、
multithreading
我正在使用AtomicLong,它工作得很好,但仍然需要改进
性能
。有比AtomicLong更好的
性能
吗?
浏览 2
提问于2014-12-23
得票数 4
回答已采纳
2
回答
同时使用两个
GPU
调用cudaMalloc时
性能
不佳
cuda
、
parallel-processing
、
thrust
、
gpu
、
multi-gpu
我有一个应用程序,在这个应用程序中,我将处理负载分配给用户系统上的
GPU
。基本上,每个
GPU
都有
CPU
线程,当主应用程序线程周期性地触发
GPU
处理间隔时,会启动
GPU
处理间隔。现在,考虑应用程序将处理负载分散到两个
GPU
上的相同处理间隔:在一个完美的世界中,您会期望2
GPU
处理间隔正好是单个
GPU
的一半(因为每个
GPU
都做了一半的工作)。正如您所看到的,这并不是部分原因,因为由于某种
争
用</em
浏览 11
提问于2013-10-05
得票数 6
回答已采纳
1
回答
全局设置
CPU
亲和力
cpu
、
numa
除了我有意
用
taskset或numactl设置的进程之外,是否有一种方法可以使所有进程只使用特定的内核/
内存
(不需要遍历每个进程的每个线程
并
自行设置)?还有几个细节:我有2个物理
CPU
芯片,每个芯片都有4个内核/8个线程,总共有256 GB
内存
。
内存
在两个
CPU
内存
总线之间的分布并不均匀。我希望
内存
显着
减少
的那个是通用的,大多数程序(例如后台任务)都运行在这个
CPU
上,并且有它的
浏览 0
提问于2017-10-04
得票数 6
回答已采纳
2
回答
加强托管线程与操作系统线程之间的关系(CUDA应用程序)
.net
、
multithreading
、
cuda
,我需要帮助, 我做了一些研究,
并
阅读了托管线程和OS线程之间的区别。一般来说,两者之间似乎有很多到许多关系。
浏览 3
提问于2009-12-30
得票数 2
回答已采纳
2
回答
加速Keras模型的推理
machine-learning
、
tensorflow
、
raspberry-pi
、
computer-vision
、
keras
我有一个Keras模型,它在Raspberry Pi (
用
相机)上进行推理。覆盆子Pi有一个非常慢的
CPU
(1.2.GHz)和没有CUDA
GPU
,所以model.predict()阶段需要很长时间(~20秒)。我正在寻找办法尽可能地
减少
这一点。我试过: ,我还能做些什么来
提高
推理的速度吗?有没有一种方
浏览 0
提问于2017-10-16
得票数 7
回答已采纳
1
回答
直接访问
内存
的优点是什么?
embedded
、
dma
如果
CPU
在DMA传输期间无法访问总线,因此必须等待总线的释放,那么使用DMA如何提供任何
性能
优势?
浏览 3
提问于2020-02-06
得票数 1
回答已采纳
2
回答
为什么要在
CPU
而不是
GPU
上进行预处理?
tensorflow
建议在
CPU
上进行预处理,而不是在
GPU
上进行。列出的理由如下 这将使
GPU
从这些任务中解放出来,专注于培训。为什么预处理将结果发送回
CPU
,尤其是。如果所有节点都在
GPU
上?为什么预处理操作而不是图形上的任何其他操作,为什么它们/应该是特殊的?尽管我理解让
CPU
工作而不是让它空闲的理由,与训练步骤所要做的巨大的卷积和其他梯度反向传播相比
浏览 13
提问于2017-06-05
得票数 14
1
回答
基于mipmapping的
性能
提升
opengl
、
mipmaps
为什么
性能
提高
是由于mipmap?我在网上读到:“当我们有256 x 256纹理数据
并
想将它映射到4x4时,驱动程序只会将生成的4x4 mipmap级别复制到
GPU
内存
中,而不是256 x 256数据。而采样将工作在
GPU
内存
上复制的4x4数据,这将节省大量的计算”我只想知道它是否正确? 另外,当glTeximage调用发生时,它会将纹理数据上传到
gpu
内存
中,并在glteximage调用中传递。当我们调用glgeneratemipm
浏览 2
提问于2013-12-25
得票数 0
回答已采纳
1
回答
ArrayFire与原始CUDA编程?
cuda
、
gpu
、
arrayfire
我对
GPU
编程非常陌生,但由于我有一项计算密集型任务,我已经转向
GPU
以获得可能的
性能
提升。 我试着
用
版本重写我的程序。它确实比我启用多线程的
CPU
例程快,但没有达到我期望的程度(即< 100%的加速比),并且返回的结果不太正确(假设
CPU
例程的结果是正确的,与
CPU
例程相比误差小于1% )。我猜测
性能
瓶颈可能是中央处理器和图形处理器
内存
之间的带宽,因为有大量的数据读取等。我读了一些NVIDIA优化指南;似乎有一些
内存<
浏览 2
提问于2012-09-30
得票数 17
1
回答
通过增加占用来
提高
内核
性能
?
cuda
下面是我的内核在GT 440上的的输出: 共享
内存
比这些块不是完全<e
浏览 1
提问于2011-10-12
得票数 6
回答已采纳
1
回答
如何在C++中紧急提交分配的
内存
?
c++
、
windows
、
multithreading
、
memory
、
directx-11
概况我必须假定,这是由于每秒钟都需要分配给进程的大量
内存
,而且每次DX11缓冲区被取消映射时,
内存
也将完全从进程中取消映射。
减少
内存
带宽要求是不可能的。这是一个实时应用程序。实际上,硬限制目前是主
GPU
的PCIe 3.016x带宽。如果可以
浏览 3
提问于2017-07-21
得票数 22
回答已采纳
点击加载更多
相关
资讯
苹果研究用AI 大模型让移动端CPU、GPU提高数倍至数十倍性能
如何启用存内计算之探讨
一文揭开 NVIDIA CUDA 神秘面纱
Arm 2023全面计算解决方案:再次突破移动计算边界
关于Oracle数据库性能优化,你可能已经走了弯路!
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券