腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
两个
GPU
上
不同
的
浮点
矩阵
乘法
结果
、
、
我在
两个
独立
的
GPU
上
运行来自Metal Performance Shader
的
MPSMatrixMultiplication,一个是内部
GPU
,一个是AMD
GPU
。
矩阵
是完全相同
的
。但问题是,
结果
并不完全相同。我知道
GPU
有一些精度损失,但为什么相同
的
IEEE754-2008标准
的
结果
不一样? 我想验证一下
GPU
计算
浏览 13
提问于2019-04-25
得票数 2
1
回答
在
矩阵
加法中丢失负号
的
特征
、
、
我正在尝试使用本征库添加一个
矩阵
,我
的
结果
在数值
上
是正确
的
,但它缺少负号。加法后
的
结果
是正确
的
,最后
的
加法失去了负号。所有
矩阵
都声明为双精度。matb.transpose(); mata += aux*aux2; cout<<mata<<endl;Matlab
结果
-0.960928
浏览 1
提问于2017-06-15
得票数 0
3
回答
我
的
glOrtho怎么了?负零而非零
、
、
、
、
我正在为一个OpenGL应用程序实现我自己
的
矩阵
数学。到目前为止,事情基本
上
很好,尽管很困难。我最近遇到
的
一个问题是与我
的
glOrtho()实现有关
的
,这个问题在得到解释或向我指出具体问题时运气不是很好。我自己
的
glOrtho函数: vec_t* Ut
浏览 2
提问于2012-03-29
得票数 0
回答已采纳
1
回答
为什么
GPU
在处理深度学习时比CPUS更能发挥作用?
、
、
、
、
在大多数情况下,我在处理深度学习中
的
任何执行部分时都会碰到
GPU
。
浏览 6
提问于2017-03-04
得票数 1
回答已采纳
3
回答
为什么基于
GPU
的
算法执行得更快
、
、
我刚刚在
GPU
上
实现了一个算法,可以计算数组
的
连续索引
的
差值。我将其与基于CPU
的
实现进行了比较,并注意到对于大型阵列,基于
GPU
的
实现执行得更快。 我很好奇为什么基于
GPU
的
实现执行得更快。请注意,我知道表面上
的
推理,即
GPU
有多个内核,因此可以执行并行操作,即,我们可以分配一个线程来计算每个索引
的
差异,而不是顺序地访问每个索引。但是谁能告诉我为什么
GPU
<em
浏览 5
提问于2012-02-11
得票数 4
回答已采纳
1
回答
是否可以在Android环境下使用
GPU
进行数值计算(复数
矩阵
乘法
)?
、
、
、
、
代码有一些复杂
的
矩阵
乘法
运算。
矩阵
元素
的
类型为
浮点
型。我
的
问题是2)
GPU
可以用于复杂
矩阵
(
浮点
型元素)计算或任何类型
的
数值计算吗? 非常感谢
浏览 1
提问于2013-02-08
得票数 2
3
回答
如何在cupy中使用多个gpus?
、
我正在尝试在CUPY中使用多个
GPU
并行化多个
矩阵
乘法
。 Cupy加速
矩阵
乘法
(例如$A\times B$)。我想知道我是否有四个方阵A,B,C,D。我想在
两个
不同
的
本地
GPU
上计算AB和CD。例如,在tensorflow中, for i in xrange(FLAGS.num_gpus): with tf.device('/
gpu
:%d' % i): 在CUPY中也有类似的方法吗?
浏览 379
提问于2019-09-19
得票数 1
1
回答
OpenGL阴影-相机转换应该发生在
GPU
还是CPU
上
?
、
、
、
所以目前我要做
的
是,在将我
的
元素加载到VBO之前,创建一个新
的
矩阵
,并将它们添加到其中。我这么做是为了让我可以随心所欲地处理
矩阵
。我所做
的
就是把摄像机
的
位置加到
矩阵
中
的
坐标上。注:对象
的
实际位置保存在其他地方,
矩阵
是一个转换阶段。相机
浏览 0
提问于2013-07-29
得票数 3
回答已采纳
1
回答
基于多
GPU
的
并行
矩阵
乘法
、
、
、
、
我已经在我
的
系统中在
不同
的
pci插槽中安装了
两个
GPU
(2xNvidia Quadro 410)。为了解决这
两个
GPU
上
的
Martix
乘法
问题,我如何分割输入
矩阵
,使每个
GPU
处理/计算输出
矩阵
的
一部分,然后返回它。就像。对于
两个
矩阵
A,B各为10x10阶,然后计算输出
矩阵
C= an
浏览 8
提问于2016-05-05
得票数 0
回答已采纳
2
回答
简单
的
CUBLAS
矩阵
乘法
示例?
、
、
、
我正在寻找一个非常简单
的
CUBLAS
矩阵
乘法
示例,它可以使用高性能
GPU
操作将M乘以N并将
结果
放在P中,用于以下代码: M[i][j] = 500; P[i][j] = 0;} 到目前为止,我发现使用CUBLAS进行任何类型
的
矩阵
乘法
的
大多数代码都是我正在尝
浏览 0
提问于2011-10-03
得票数 14
回答已采纳
1
回答
根据值
的
大小,使用三种
不同
方法
的
矩阵
乘法
会产生
不同
的
结果
、
、
我想将
两个
矩阵
A和B相乘,并比较三种
不同
的
方法。其中之一是简单地迭代B
的
列并将它们与
矩阵
A相乘,第二个是使用armadillo中
的
函数each_col(),并应用一个λ,第三个是简单
的
乘法
A * B。
结果
代码如下所示:#include <iostream> #include <armadillo&
浏览 5
提问于2020-05-04
得票数 0
4
回答
在
GPU
或CPU
上
实现稀疏
矩阵
乘法
?
、
在
GPU
或CPU (多线程)
上
执行稀疏
矩阵
(CSR)
乘法
(使用向量)哪个更快,快多少?
浏览 1
提问于2010-08-09
得票数 4
回答已采纳
3
回答
当一个
矩阵
非常宽时实现
矩阵
乘法
的
有效方法?
、
我需要把3个
矩阵
相乘,A: 3000x100, B: 100x100, C: 100x3.6MM。我目前只在PyTorch中使用标准
矩阵
乘法
B_
gpu
= torch.from_numpy(B)D_
gpu
= (A_
gpu
@ B_
gpu
@ C_
gpu
.t()).t() C非常广泛,所以
gpu
浏览 1
提问于2019-03-01
得票数 1
1
回答
用CUDA计算大型
矩阵
产品
、
、
我刚刚开始学习一些cuda编程,我感兴趣
的
是如何处理超过块/线程大小
的
大型
矩阵
的
计算。 例如,我有一个,它展示了如何执行平铺
矩阵
乘法
,但是由于块大小和网格大小太小,它失败了。在上述代码中,如果块大小和网格大小分别设置为1,则只计算最终
矩阵
的
第一个元素。答案很简单:用更大
的
块和网格大小调用内核,但是当我想要执行一个包含800万行和600万列
的
矩阵
乘法
时会发生什么--对于任何
浏览 2
提问于2015-02-11
得票数 0
1
回答
为什么我
的
GPU
在
矩阵
运算中比CPU慢?
、
、
、
、
CPU: i7-9750 @2.6GHz (带有16G DDR4 Ram);
GPU
: Nvidia Geforce GTX 1600 TI (6G);OS: Windows 10-64位e = time.time()具有讽刺意味
的
是,它显示了CPU时间: 11.74
浏览 1
提问于2020-10-18
得票数 2
回答已采纳
1
回答
在简单
矩阵
乘法
方面,OpenCL CPU比OpenCL
GPU
更快。
、
我创建了一个简单
的
OpenCL程序,它使用朴素
矩阵
乘法
(具有O(n^3)复杂性
的
)
乘法
两个
NxN
矩阵
。每个
矩阵
的
每个值都是一个精确
的
32位
浮点
。对于N=2048和使用英特尔OpenCL平台,所需时间如下: 编辑:为了澄清,上面的CP
浏览 0
提问于2015-09-12
得票数 1
回答已采纳
2
回答
主机和
GPU
上
CUDA添加
的
结果
不同
我有一个函数,它获取一张彩色图片,并返回它
的
灰色版本。如果我在主机上运行顺序代码,一切都会正常工作。如果我在设备
上
运行它,
结果
略有
不同
(与正确值相比,1000个像素中
的
一个要么是+1,要么是-1 )。 __global__ void rgb2gray_d (unsigned char *deviceImage, unsigned char *deviceResult, constgrayImageSeq[i]) <<
浏览 0
提问于2013-01-19
得票数 4
回答已采纳
1
回答
神经网络中
的
单元是什么(反向传播算法)?
、
、
、
、
请帮我理解神经元网络中
的
单位。从这本书中我了解到输入层中
的
一个单元代表了一个训练元组
的
属性。然而,目前还不清楚它究竟是如何做到
的
。关于输入单元有两条“思考路径”。如何决定它应该在隐藏层中有多少个单元,以及它们在模型中所代表
的
是什么?
浏览 5
提问于2015-05-22
得票数 1
回答已采纳
1
回答
矩阵
乘法
哪个比较好?GLM过载*操作符或直接使用着色器
、
、
、
在GLM中,我们有一个过载
的
'*'算子来
乘法
矩阵
。我们可以在GLM中使用这个运算符来做这样
的
矩阵
乘法
://after that pass MVP to uniform'MVP' 但另一方面,我们可以将投影、视图和模型传递给三种
不同
的
制服,并在着色程序中进行
乘法
。GLM运行在CPU
上
浏览 3
提问于2016-08-15
得票数 1
回答已采纳
4
回答
cuda和张量内核
的
区别是什么?
、
、
我对与高性能计算相关
的
术语完全陌生,但我刚刚看到EC2在亚马逊网络服务
上
发布了由新
的
Nvidia Tesla V100驱动
的
新型实例,它有两种“核心”:Cuda核心(5,120)和张量核心(640)。两者之间
的
区别是什么?
浏览 106
提问于2017-11-17
得票数 54
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
揭秘Tensor Core黑科技:如何让AI计算速度飞跃
英伟达系列芯片如何赋能智能汽车开发?
NVIDIA深度学习Tensor Core全面解析
仅需1/5成本:TPU是如何超越GPU,成为深度学习首选处理器的
NVIDIA Tensor Core深度学习核心解析:全是干货
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券