GPU中的上下文切换机制是什么？

文章/答案/技术大牛

发布

1回答

、、、

据我所知，GPU会在不同的时间段之间切换，以隐藏内存延迟。但我想知道在哪种情况下，曲速会被切换出来？例如，如果warp执行加载，而数据已经在缓存中。那么翘曲是切换出来还是继续下一次计算呢？如果有两个连续的相加，会发生什么？谢谢

浏览 5提问于2011-07-07得票数 20

回答已采纳

1回答

测量GPU中上下文切换的开销

、、、

有很多方法来测量CPU上下文切换开销。它似乎没有多少资源来测量GPU上下文切换开销。CPU上下文切换和GPU的不同之处在于。我很困惑如何用上下文转换来测量翘曲的时间？有人

浏览 2提问于2014-06-17得票数 6

1回答

从操作系统内核访问GPU内存

、、

我们正在研究一个原型，在那里我们打算使用GPU内存作为"GPU RAM磁盘“。目前，我们有一个用户模式模块，它使用OpenCL将数据复制到GPU内存和从GPU内存复制数据。我们更喜欢直接从Windows访问GPU内存的方法(从而减少引入的f.e的开销。通过上下文切换)。实现这一目标的最佳途径是什么？

浏览 4提问于2012-02-10得票数 0

1回答

Kaveri是符合HSA标准的处理器吗？

、

我看了很多，发现符合HSA标准的GPU应该是可抢占的，并且支持上下文切换。谢谢!

浏览 2提问于2014-03-29得票数 0

回答已采纳

1回答

在GPU上运行多个进程时的内存问题

、、、、

经过一定数量的并发程序(在我的例子中是10个)后，我得到以下错误： ...it可能是因为VRAM内存限制被击中而发生的(从错误消息来看，这是非常不直观的)。对于我进行PyTorch模型培训的案例来说，减少批处理大小是有帮助的。您可以尝试这样做，或者减少模型大小以减少VRAM的消

浏览 12提问于2022-11-30得票数 0

回答已采纳

1回答

我有一个程序，它首先渲染纹理，然后将纹理传递给计算着色器进行处理，然后通过带纹理的全屏四边形将输出结果渲染到屏幕上。我在nVidia的计算着色器编程指南中读到，每次调度计算着色器时，它都会启动GPU设备上下文切换，这不应该经常进行。我现在很困惑。在我看来，在我的渲染管道中，GPU会切换两次上下文。对吗？如果这是正确的，那么我可以通过像这样重新组织我的代码来避免一次切换。首先，渲染到纹理。其次，在计算着色器上执行处理。然后，在下一帧<

浏览 0提问于2012-10-06得票数 1

回答已采纳

4回答

java并发包是使用锁实现的吗？

、、、

从概念上讲，被用作四种主要的同步机制，它们纯粹是基于锁的。不同的编程语言对这4种机制有不同的术语/行话。POSIX pthread包就是这种实现的一个这样的例子。最后两个是使用睡眠锁实现的。基于锁

浏览 5提问于2014-10-24得票数 0

3回答

在多核处理器上线程的上下文切换是如何完成的？

、、

在单核处理器上执行上下文切换时，负责的代码在负责切换线程的唯一CPU上执行。但是当我们有多个CPU时，如何做到这一点呢？是否有一个主CPU来完成所有从CPU的上下文切换？每个CPU是否负责自己的上下文切换？如果是这样，如何同步切换，使两个CPU不执行相同的线程？还是有其他的机制呢？

浏览 12提问于2010-10-12得票数 9

回答已采纳

2回答

进程之间的上下文切换是否会使MMU(内存控制单元)失效？

、、、

这是我的系统讲座的PowerPoint中的一个句子，但我不明白为什么上下文切换会使MMU无效。我知道它将使缓存失效，因为缓存包含另一个进程的信息。然而，对于MMU，它只是将虚拟内存映射到物理内存。如果上下文切换使其无效，这是否意味着MMU在不同进程中使用不同的映射机制？

浏览 4提问于2017-01-03得票数 3

回答已采纳

2回答

如何测量GPU上下文从计算到渲染着色器的切换

、、、、

在OpenGL中，我根据运动方程调度计算着色器来计算给定对象模型中的新顶点位置。然后我通过顶点/片段渲染着色器程序渲染这些新的顶点位置。我的理解是，每次我调度一个计算着色器，它都会启动一个GPU设备上下文切换，这需要有限的时间。谁能分享一下如何在OpenGL中测量计算着色器和渲染着色器之间的上下文切换。我假设这是非常少的时间，但我需要测量它。谢谢你的见

浏览 2提问于2017-06-28得票数 0

3回答

是否有可能同时保存OpenGL中的所有州？

、

如果我们有几个OpenGL上下文，每个上下文都在自己的进程中，驱动程序以某种方式虚拟化了设备，因此每个程序都认为它只运行GPU。否则，可以使用大量的glGet调用来保存状态，然后通过相应的调用来恢复状态。显然，司机做得更有效率。但是，在用户空间中，我们需要跟踪我们对状态所做的更改，并有选择地处理它们。也许只是我遗漏了什么，但我认为，首先，调整一下Framebuffer的Viewport，然后将这些更改撤消到以前的任何状态都会更好。也许有一种方法可以在

浏览 5提问于2016-04-24得票数 3

回答已采纳

1回答

多gpu机上的pytorch并行超参数优化

、、、

我可以访问一个多gpu机器，我正在运行一个网格搜索循环的参数优化。我想知道我是否可以同时在多个gpu上分发多个循环的迭代，如果可以的话，我如何做到(我的机制是什么？穿线？

浏览 5提问于2020-06-23得票数 1

2回答

限制GPU使用的代码

、

是否有可以在CUDA代码中设置的命令/函数/变量来限制GPU使用百分比？我想修改一个名为Flam4CUDA的开源项目，以便该选项存在。他们现在的做法是，它使用了尽可能多的GPU，其效果是温度飙升(显然)。为了在长时间的计算中保持低温度，我希望能够告诉程序使用，比如说，每个GPU的50% (或者甚至对不同的GPU有不同的百分比，或者也可以选择使用

浏览 2提问于2011-06-10得票数 4

1回答

NVVP和计数器报告的时间差

我一直在运行CUDA程序的内核。我观察到GPU计数器和NVVP报告的内核执行时间有相当大的差异。为什么通常会观察到这样的差异？

浏览 0提问于2012-09-19得票数 0

回答已采纳

1回答

执行阻塞系统调用的线程是否被中断唤醒？

、、

我读过一些关于线程和中断的文章。还有一些章节说使用线程的并行编程更简单，因为我们不需要担心中断。我在线程中读取我的文件，该线程使用阻塞系统调用从磁盘读取文件。在某个时候，文件已经准备好从硬盘中读取。它是否通过硬件中断通知处理器，以便在请求文件的线程之间进行上下文切换？

浏览 0提问于2013-03-27得票数 4

回答已采纳

1回答

Node.JS和IIS的请求机制(事件循环和线程)

、

我想弄清楚与Node.JS处理请求的方式相比，IIS loop机制(发布和订阅C++ ThreadPool)有什么优势。我在这里读到了：和下面这行：“没有上下文切换，因为事件循环只是发布和订阅线程池。”对我来说不是很清楚。有人能解释一下与IIS使用的请求线程相比，事件循环机制的

浏览 0提问于2013-05-22得票数 4

1回答

RNN的最佳设备放置策略？

考虑一个简单的n层堆叠RNN (LSTM、GRU等)对于顺序预测，最有效的设备放置策略是什么(如果有多个GPU可用)？我认为最好是为RNN的每一层提供一个GPU，但是softmax和损失计算呢？它们应该也放在GPU上还是放在CPU上？此外，如果我们再增加一个注意力机制，是否应该把注意力放在中央处理器上呢？

浏览 7提问于2017-02-24得票数 0

1回答

多个独立的OpenGL上下文是否影响性能？

、

我和我的同事正在开发一个视频渲染引擎。结果很令人困惑。在我的计算机上，呈现速度比我们的单线程实现更快，而在我的合作伙伴的计算机上，整个速度下降了。我在这里想知道，OpenGL上下文的数量如何影响整体性能。

浏览 7提问于2014-10-22得票数 1

回答已采纳

1回答

用C#绘制地理地图平面图

、、、、

我正在创建一个私人消费的自定义地图覆盖。我不能使用像MapServer这样的开放源码服务器，因为它的数据量和格式非常庞大。最初，它将是一种客户端解决方案，将ArrayBuffer推送到客户端，并使用WebGL在地图上呈现数据，但后来我们发现，用户的PC将是负GPU，因此他们无法顺利地运行WebGL呈现。为了原型的缘故，它可以工作-不过我觉得这不是最好的解决方案。我想要预渲染的瓷砖，但有太多的<

浏览 2提问于2014-06-25得票数 1

回答已采纳

2回答

CUDA是否允许同一gpu上同时运行多个应用程序？

、

我有英伟达的Tesla K20m GPU卡。在CUDA 5.0中，允许在同一图形处理器上来自同一应用程序的多个进程。CUDA是否允许在同一GPU上同时执行不同的应用程序？

浏览 1提问于2014-09-22得票数 3

点击加载更多