腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
C++
中
使用
Openacc
(
并行
化
)
时
,
我
应该
如何
设置
copy
()?
、
我
用的是gcc编译器。(g++ -o测试testfile.cpp)下面是
我
使用
并行
化
的部分。即使
在
使用
Openacc
之后,代码也不会比以前更快。所以我想我需要在这里
使用
#杂注acc
浏览 13
提问于2021-03-05
得票数 0
1
回答
我
可以
使用
OpenACC
来系统调用Python函数吗?
、
我
想在GPU上
并行
化
Python循环,但我不想
使用
pyCUDA,因为
我
需要自己做很多事情。
我
正在寻找像
C++
中
的Python那样的
OpenACC
来实现简单的
并行
化
,但它似乎没有这样的东西。因此,
我
认为只需
在
C++
中
使用
OpenACC
,然后系统调用Python脚本,如下面的代码所示。这样行得通吗?或者,有没有不<
浏览 0
提问于2017-08-10
得票数 0
1
回答
开始
使用
OpenACC
+程序
、
、
、
、
我
有一个工作串行代码和一个工作
并行
单GPU代码
并行
通过
OpenACC
。现在,
我
试图通过
使用
mpi+
openacc
范式
在
多个GPU上运行来增加
并行
性。
我
用Fortran-90编写了
我
的代码,并
使用
Nvidia的HPC的nvfortran编译器编译它。
如何
设置
编译器环境以开始编写mpi+
opena
浏览 1
提问于2021-12-02
得票数 0
回答已采纳
2
回答
OpenACC
中
的嵌套指令
、
、
、
、
我
正在尝试
使用
OpenACC
的嵌套特性来激活gpu卡的动态
并行
性。
我
有Tesla40c,
我
的
OpenACC
编译器是PGI15.7版。PGCC-S-0155-Illegal context for pragma: acc parallel loop (test.cpp: 158) PGCC(seq、worker、gang),而不
使用
内部
并行</
浏览 7
提问于2015-08-12
得票数 1
回答已采纳
1
回答
OpenAcc
:
如何
并行
化
函数调用
、
我
正在做一个项目,
我
试图
并行
化
应用程序。有一些函数,
我
正在尝试
并行
化
,但问题是这些函数调用其他函数,非常frequently.loops,只是为了计算,并且
在
一个函数体中有许多循环。
我
知道
OpenACC
在
它的指令
中
不支持函数调用(只支持内联调用),所以我想出了两种方法: a)要么把acc指令放在循环周围并获得所需的
并行
性,然后忽略函数调用(不是忽略它,而是保持它的
浏览 0
提问于2013-02-27
得票数 0
1
回答
OpenACC
-
如何
找出设备是否忙着做一些CUDA操作?
、
、
我
有一个基于数据自动
化
系统的代码,
我
想将
OpenACC
合并到代码的某些部分
中
。但是,
我
试图用
OpenACC
代码
并行
化
的函数有时是由CUDA调用控制的,有时则不是。
我
的问题是
如何
查询
OpenACC
库以查看设备是否繁忙。对此有API调用吗? 注:
我
对数据自动
化
系统不太熟悉,所以我只
使用
伪代码.有时,当设备忙于计算
时
浏览 1
提问于2016-07-15
得票数 1
回答已采纳
1
回答
未向量化/
并行
化
的
OpenACC
循环:包含调用
、
、
我
正在尝试
并行
化
一个用
OpenACC
构建Voronoi图的程序。目前,
我
正努力将一个嵌套的for-循环进行平分,该循环调用一个
在
不同文件
中
定义的函数。
我
知道你
应该
在函数上
使用
#语用acc例程装饰器,但我不能让它在
我
的程序
中
工作。
我
正在
使用
PGI编译器,并得到以下输出 Gene
浏览 3
提问于2020-06-12
得票数 0
2
回答
OpenAcc
标准
中
内核和
并行
指令的区别
、
、
、
我
已经
使用
支持
OpenAcc
的PGI编译器
在
GPU上启动了大约3年的代码,但是到目前为止,
我
无法理解“内核”和“
并行
”这两个术语之间的区别。
我
在
“
OpenAcc
入门指南”
中
读到: 定义
应该
编译以便在加速器设备上
并行
执行的程序区域。定义程序的区域,该区域
应该
被编译成一系列内核,以便在加速器设备上执行。如果加速器设备是GPU,那
浏览 1
提问于2019-12-17
得票数 1
回答已采纳
3
回答
内核构造与
并行
构造的区别
、
、
、
我
研究了很多关于
OpenACC
的文章和手册,但是
我
仍然不明白这两个结构的主要区别。
浏览 3
提问于2012-11-20
得票数 15
回答已采纳
1
回答
java代码能否
在
GPU上
使用
开放访问进行
并行
化
、
、
可以
使用
OpenACC
在
图形处理器上运行java代码的"for循环“吗?
我
的数据挖掘算法是用java编写的,
我
想在GPU上
并行
我
的顺序代码。
如何
在GPU上实现java代码的
并行
化
?
浏览 1
提问于2015-04-14
得票数 4
1
回答
将PGI
OpenACC
运行时库与gcc直接连接
、
、
我
是直接从GCC编译的代码中
使用
PGI
OpenACC
运行时API的。#include <
o
浏览 2
提问于2017-08-30
得票数 0
回答已采纳
1
回答
带有动态数组的
openacc
嵌套循环
、
、
我
正在尝试应用
openacc
开发多核和gpu加速二进制文件。
我
已经阅读了法伯的书,并成功地运行了测试程序从那里和通过一些在线课程提供的NVIDIA。然后,
我
尝试
在
遗留代码上
并行
化
。
openacc
代码将被编译为源代码对象库。
C++
扩展调用
openacc
代码。这是一个需要这种安排的遗留代码。
在
Python
中
定义系统、调用
C++
扩展和访问
openacc
浏览 2
提问于2017-02-13
得票数 0
回答已采纳
1
回答
OpenACC
:设备类型
、
我
看到许多函数,如acc_get_num_devices(),需要输入设备类型。
我
使用
了返回devtype=2的int devtype=2。(
在
文档
化
中
: acc_get_num_devices( devicetype )返回指定类型的设备数量) 这2意味着什么?有哪些设备类型?设备类型是整数吗?(在我看来很荒谬,
我
在
文档
中
找不到这些信息)
浏览 3
提问于2020-10-07
得票数 0
回答已采纳
1
回答
迭代Karatsuba算法
在
C++
中
的
OpenACC
并行
化
和矢量化
、
、
、
、
我
正在尝试
使用
C++
中
的
OpenACC
来
并行
化
迭代版本的Karatsuba算法。
我
想问一下
如何
向量化内部的for loop。
我
的编译器显示了关于该循环的this消息:下面是两个嵌套循环的代码
浏览 3
提问于2018-04-13
得票数 1
2
回答
谁能解释一下GCC
如何
使用
OpenACC
?
、
、
我
正在
使用
WSL Ubuntu。用GCC来编译
我
的
C++
代码。$ g++ -fopenacc -o t testfile.cpp 据我所知,
浏览 13
提问于2021-03-05
得票数 0
1
回答
用
OpenACC
实现可移植的随机数生成
、
、
、
、
有没有一种可移植的方法来用
OpenACC
生成随机数?
我
知道可以直接
使用
cuRand,但我只能
使用
Nvidia GPU。另一种选择似乎是
在
主机上生成数字,然后将它们移动到设备上,但这似乎不是性能方面的最佳解决方案。 有没有更好的方法?
浏览 18
提问于2019-03-10
得票数 2
2
回答
在
OpenACC
的PGI编译器中
使用
-fast
时
如何
解决防止循环矢量化的循环进位依赖
、
、
、
我
想用C语言中的
OpenACC
并行
化
一个基于粒子方法的流体流动代码。
我
是
OpenACC
的新手,正在尝试理解它的基础知识,同时目前正在将它应用于多核计算机上的代码。稍后,
我
将尝试将其卸载到GPU。
我
在
代码
中
的for循环中添加了一些#杂注。
在
代码的一部分
中
,当我编译没有-fast的代码
时
,它编译没有任何问题,但只
并行
外部循环,但是,当我在编译代码的过
浏览 13
提问于2019-12-03
得票数 0
回答已采纳
4
回答
openacc
与openmp和mpi的差异?
、
、
、
、
我
想知道
openacc
和openmp之间的主要区别是什么。MPI,cuda和opencl呢?
我
理解openmp和mpi之间的区别,特别是关于共享和分布式内存的部分,它们
中
的任何一个都允许混合gpu-cpu处理
设置
吗?
浏览 6
提问于2013-10-21
得票数 27
回答已采纳
0
回答
OpenACC
中
的固定内存(
使用
PGI编译器)
、
、
、
、
我
有一个简单的CUDA代码,
我
将其转换为
OpenACC
。
我
的所有内核都像预期的那样被
并行
化了,它们的性能与我的CUDA内核相似。然而,设备到主机的内存传输会扼杀我的性能。
在
我
的CUDA代码
中
,
我
使用
固定内存,性能要好得多。不幸的是,
在
OpenACC
中
,
我
不知道
如何
利用固定内存。
我
在
文档
浏览 20
提问于2016-12-28
得票数 1
回答已采纳
1
回答
OpenACC
代码
在
Nvidia V100 GPU上的运行速度是AMD MI250 GPU上的17036.0939901倍。
、
、
、
、
我
试图理解为什么
我
的
OpenACC
代码
在
Nvidia V100 GPU上的运行速度是AMDMI-250 GPU的17036.0939901倍。mean= 221.67053561071717!
在
源代码
中
,
我
将!$acc loop independent vector(16)更改为!$acc loop independent vect
浏览 13
提问于2022-12-01
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
英伟达是如何做 GPU 编程的(二)
智能合约漏洞攻击及注意事项
Visual Studio:优化了复制/移动省略
Tensorflow入门教程(九)——Tensorflow数据并行多GPU处理
动态语言的灵活性是把双刃剑:以 Python 语言为例
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券