两个GPU上不同的浮点矩阵乘法结果

、、

我在两个独立的GPU上运行来自Metal Performance Shader的MPSMatrixMultiplication，一个是内部GPU，一个是AMD GPU。矩阵是完全相同的。但问题是，结果并不完全相同。我知道GPU有一些精度损失，但为什么相同的IEEE754-2008标准的结果不一样？我想验证一下GPU计算

浏览 13提问于2019-04-25得票数 2

1回答

在矩阵加法中丢失负号的特征

、、

我正在尝试使用本征库添加一个矩阵，我的结果在数值上是正确的，但它缺少负号。加法后的结果是正确的，最后的加法失去了负号。所有矩阵都声明为双精度。matb.transpose(); mata += aux*aux2; cout<<mata<<endl;Matlab结果-0.960928

浏览 1提问于2017-06-15得票数 0

3回答

我的glOrtho怎么了？负零而非零

、、、、

我正在为一个OpenGL应用程序实现我自己的矩阵数学。到目前为止，事情基本上很好，尽管很困难。我最近遇到的一个问题是与我的glOrtho()实现有关的，这个问题在得到解释或向我指出具体问题时运气不是很好。我自己的glOrtho函数： vec_t* Ut

浏览 2提问于2012-03-29得票数 0

回答已采纳

1回答

为什么GPU在处理深度学习时比CPUS更能发挥作用？

、、、、

在大多数情况下，我在处理深度学习中的任何执行部分时都会碰到GPU。

浏览 6提问于2017-03-04得票数 1

回答已采纳

3回答

为什么基于GPU的算法执行得更快

、、

我刚刚在GPU上实现了一个算法，可以计算数组的连续索引的差值。我将其与基于CPU的实现进行了比较，并注意到对于大型阵列，基于GPU的实现执行得更快。我很好奇为什么基于GPU的实现执行得更快。请注意，我知道表面上的推理，即GPU有多个内核，因此可以执行并行操作，即，我们可以分配一个线程来计算每个索引的差异，而不是顺序地访问每个索引。但是谁能告诉我为什么GPU<em

浏览 5提问于2012-02-11得票数 4

回答已采纳

1回答

是否可以在Android环境下使用GPU进行数值计算(复数矩阵乘法)？

、、、、

代码有一些复杂的矩阵乘法运算。矩阵元素的类型为浮点型。我的问题是2) GPU可以用于复杂矩阵(浮点型元素)计算或任何类型的数值计算吗？非常感谢

浏览 1提问于2013-02-08得票数 2

3回答

如何在cupy中使用多个gpus？

、

我正在尝试在CUPY中使用多个GPU并行化多个矩阵乘法。 Cupy加速矩阵乘法(例如$A\times B$)。我想知道我是否有四个方阵A，B，C，D。我想在两个不同的本地GPU上计算AB和CD。例如，在tensorflow中， for i in xrange(FLAGS.num_gpus): with tf.device('/gpu:%d' % i): 在CUPY中也有类似的方法吗？

浏览 379提问于2019-09-19得票数 1

1回答

OpenGL阴影-相机转换应该发生在GPU还是CPU上？

、、、

所以目前我要做的是，在将我的元素加载到VBO之前，创建一个新的矩阵，并将它们添加到其中。我这么做是为了让我可以随心所欲地处理矩阵。我所做的就是把摄像机的位置加到矩阵中的坐标上。注:对象的实际位置保存在其他地方，矩阵是一个转换阶段。相机

浏览 0提问于2013-07-29得票数 3

回答已采纳

1回答

基于多GPU的并行矩阵乘法

、、、、

我已经在我的系统中在不同的pci插槽中安装了两个GPU(2xNvidia Quadro 410)。为了解决这两个GPU上的Martix乘法问题，我如何分割输入矩阵，使每个GPU处理/计算输出矩阵的一部分，然后返回它。就像。对于两个矩阵A，B各为10x10阶，然后计算输出矩阵C= an

浏览 8提问于2016-05-05得票数 0

回答已采纳

2回答

简单的CUBLAS矩阵乘法示例？

、、、

我正在寻找一个非常简单的CUBLAS矩阵乘法示例，它可以使用高性能GPU操作将M乘以N并将结果放在P中，用于以下代码： M[i][j] = 500; P[i][j] = 0;} 到目前为止，我发现使用CUBLAS进行任何类型的矩阵乘法的大多数代码都是我正在尝

浏览 0提问于2011-10-03得票数 14

回答已采纳

1回答

根据值的大小，使用三种不同方法的矩阵乘法会产生不同的结果

、、

我想将两个矩阵A和B相乘，并比较三种不同的方法。其中之一是简单地迭代B的列并将它们与矩阵A相乘，第二个是使用armadillo中的函数each_col()，并应用一个λ，第三个是简单的乘法A * B。结果代码如下所示：#include <iostream> #include <armadillo&

浏览 5提问于2020-05-04得票数 0

4回答

在GPU或CPU上实现稀疏矩阵乘法？

、

在GPU或CPU (多线程)上执行稀疏矩阵(CSR)乘法(使用向量)哪个更快，快多少？

浏览 1提问于2010-08-09得票数 4

回答已采纳

3回答

当一个矩阵非常宽时实现矩阵乘法的有效方法？

、

我需要把3个矩阵相乘，A: 3000x100, B: 100x100, C: 100x3.6MM。我目前只在PyTorch中使用标准矩阵乘法B_gpu = torch.from_numpy(B)D_gpu = (A_gpu @ B_gpu @ C_gpu.t()).t() C非常广泛，所以gpu

浏览 1提问于2019-03-01得票数 1

1回答

用CUDA计算大型矩阵产品

、、

我刚刚开始学习一些cuda编程，我感兴趣的是如何处理超过块/线程大小的大型矩阵的计算。例如，我有一个，它展示了如何执行平铺矩阵乘法，但是由于块大小和网格大小太小，它失败了。在上述代码中，如果块大小和网格大小分别设置为1，则只计算最终矩阵的第一个元素。答案很简单:用更大的块和网格大小调用内核，但是当我想要执行一个包含800万行和600万列的矩阵乘法时会发生什么--对于任何

浏览 2提问于2015-02-11得票数 0

1回答

为什么我的GPU在矩阵运算中比CPU慢？

、、、、

CPU: i7-9750 @2.6GHz (带有16G DDR4 Ram)；GPU: Nvidia Geforce GTX 1600 TI (6G)；OS: Windows 10-64位e = time.time()具有讽刺意味的是，它显示了CPU时间: 11.74

浏览 1提问于2020-10-18得票数 2

回答已采纳

1回答

在简单矩阵乘法方面，OpenCL CPU比OpenCL GPU更快。

、

我创建了一个简单的OpenCL程序，它使用朴素矩阵乘法(具有O(n^3)复杂性的)乘法两个NxN矩阵。每个矩阵的每个值都是一个精确的32位浮点。对于N=2048和使用英特尔OpenCL平台，所需时间如下：编辑:为了澄清，上面的CP

浏览 0提问于2015-09-12得票数 1

回答已采纳

2回答

我有一个函数，它获取一张彩色图片，并返回它的灰色版本。如果我在主机上运行顺序代码，一切都会正常工作。如果我在设备上运行它，结果略有不同(与正确值相比，1000个像素中的一个要么是+1，要么是-1 )。 __global__ void rgb2gray_d (unsigned char *deviceImage, unsigned char *deviceResult, constgrayImageSeq[i]) <<

浏览 0提问于2013-01-19得票数 4

回答已采纳

1回答

神经网络中的单元是什么(反向传播算法)？

、、、、

请帮我理解神经元网络中的单位。从这本书中我了解到输入层中的一个单元代表了一个训练元组的属性。然而，目前还不清楚它究竟是如何做到的。关于输入单元有两条“思考路径”。如何决定它应该在隐藏层中有多少个单元，以及它们在模型中所代表的是什么？

浏览 5提问于2015-05-22得票数 1

回答已采纳

1回答

矩阵乘法哪个比较好？GLM过载操作符或直接使用着色器*

、、、

在GLM中，我们有一个过载的'*'算子来乘法矩阵。我们可以在GLM中使用这个运算符来做这样的矩阵乘法：//after that pass MVP to uniform'MVP' 但另一方面，我们可以将投影、视图和模型传递给三种不同的制服，并在着色程序中进行乘法。GLM运行在CPU上

浏览 3提问于2016-08-15得票数 1

回答已采纳

4回答

cuda和张量内核的区别是什么？

、、

我对与高性能计算相关的术语完全陌生，但我刚刚看到EC2在亚马逊网络服务上发布了由新的Nvidia Tesla V100驱动的新型实例，它有两种“核心”：Cuda核心(5,120)和张量核心(640)。两者之间的区别是什么？

浏览 106提问于2017-11-17得票数 54

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在矩阵加法中丢失负号的特征

我的glOrtho怎么了？负零而非零

为什么GPU在处理深度学习时比CPUS更能发挥作用？

为什么基于GPU的算法执行得更快

是否可以在Android环境下使用GPU进行数值计算(复数矩阵乘法)？

如何在cupy中使用多个gpus？

OpenGL阴影-相机转换应该发生在GPU还是CPU上？

基于多GPU的并行矩阵乘法

简单的CUBLAS矩阵乘法示例？

根据值的大小，使用三种不同方法的矩阵乘法会产生不同的结果

在GPU或CPU上实现稀疏矩阵乘法？

当一个矩阵非常宽时实现矩阵乘法的有效方法？

用CUDA计算大型矩阵产品

为什么我的GPU在矩阵运算中比CPU慢？

在简单矩阵乘法方面，OpenCL CPU比OpenCL GPU更快。

主机和GPU上CUDA添加的结果不同

神经网络中的单元是什么(反向传播算法)？

矩阵乘法哪个比较好？GLM过载操作符或直接使用着色器*

cuda和张量内核的区别是什么？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐