在C++中使用Openacc(并行化)时，我应该如何设置copy()？

、

我用的是gcc编译器。(g++ -o测试testfile.cpp)下面是我使用并行化的部分。即使在使用Openacc之后，代码也不会比以前更快。所以我想我需要在这里使用#杂注acc

浏览 13提问于2021-03-05得票数 0

1回答

我可以使用OpenACC来系统调用Python函数吗？

、

我想在GPU上并行化Python循环，但我不想使用pyCUDA，因为我需要自己做很多事情。我正在寻找像C++中的Python那样的OpenACC来实现简单的并行化，但它似乎没有这样的东西。因此，我认为只需在C++中使用OpenACC，然后系统调用Python脚本，如下面的代码所示。这样行得通吗？或者，有没有不<

浏览 0提问于2017-08-10得票数 0

1回答

开始使用OpenACC +程序

、、、、

我有一个工作串行代码和一个工作并行单GPU代码并行通过OpenACC。现在，我试图通过使用mpi+openacc范式在多个GPU上运行来增加并行性。我用Fortran-90编写了我的代码，并使用Nvidia的HPC的nvfortran编译器编译它。如何设置编译器环境以开始编写mpi+opena

浏览 1提问于2021-12-02得票数 0

回答已采纳

2回答

OpenACC中的嵌套指令

、、、、

我正在尝试使用OpenACC的嵌套特性来激活gpu卡的动态并行性。我有Tesla40c，我的OpenACC编译器是PGI15.7版。PGCC-S-0155-Illegal context for pragma: acc parallel loop (test.cpp: 158) PGCC(seq、worker、gang)，而不使用内部并行</

浏览 7提问于2015-08-12得票数 1

回答已采纳

1回答

OpenAcc :如何并行化函数调用

、

我正在做一个项目，我试图并行化应用程序。有一些函数，我正在尝试并行化，但问题是这些函数调用其他函数，非常frequently.loops，只是为了计算，并且在一个函数体中有许多循环。我知道OpenACC在它的指令中不支持函数调用(只支持内联调用)，所以我想出了两种方法: a)要么把acc指令放在循环周围并获得所需的并行性，然后忽略函数调用(不是忽略它，而是保持它的

浏览 0提问于2013-02-27得票数 0

1回答

OpenACC -如何找出设备是否忙着做一些CUDA操作？

、、

我有一个基于数据自动化系统的代码，我想将OpenACC合并到代码的某些部分中。但是，我试图用OpenACC代码并行化的函数有时是由CUDA调用控制的，有时则不是。我的问题是如何查询OpenACC库以查看设备是否繁忙。对此有API调用吗？注:我对数据自动化系统不太熟悉，所以我只使用伪代码.有时，当设备忙于计算时

浏览 1提问于2016-07-15得票数 1

回答已采纳

1回答

未向量化/并行化的OpenACC循环:包含调用

、、

我正在尝试并行化一个用OpenACC构建Voronoi图的程序。目前，我正努力将一个嵌套的for-循环进行平分，该循环调用一个在不同文件中定义的函数。我知道你应该在函数上使用#语用acc例程装饰器，但我不能让它在我的程序中工作。我正在使用PGI编译器，并得到以下输出 Gene

浏览 3提问于2020-06-12得票数 0

2回答

OpenAcc标准中内核和并行指令的区别

、、、

我已经使用支持OpenAcc的PGI编译器在GPU上启动了大约3年的代码，但是到目前为止，我无法理解“内核”和“并行”这两个术语之间的区别。我在“OpenAcc入门指南”中读到：定义应该编译以便在加速器设备上并行执行的程序区域。定义程序的区域，该区域应该被编译成一系列内核，以便在加速器设备上执行。如果加速器设备是GPU，那

浏览 1提问于2019-12-17得票数 1

回答已采纳

3回答

内核构造与并行构造的区别

、、、

我研究了很多关于OpenACC的文章和手册，但是我仍然不明白这两个结构的主要区别。

浏览 3提问于2012-11-20得票数 15

回答已采纳

1回答

java代码能否在GPU上使用开放访问进行并行化

、、

可以使用OpenACC在图形处理器上运行java代码的"for循环“吗？我的数据挖掘算法是用java编写的，我想在GPU上并行我的顺序代码。如何在GPU上实现java代码的并行化？

浏览 1提问于2015-04-14得票数 4

1回答

将PGI OpenACC运行时库与gcc直接连接

、、

我是直接从GCC编译的代码中使用PGI OpenACC运行时API的。#include <o

浏览 2提问于2017-08-30得票数 0

回答已采纳

1回答

带有动态数组的openacc嵌套循环

、、

我正在尝试应用openacc开发多核和gpu加速二进制文件。我已经阅读了法伯的书，并成功地运行了测试程序从那里和通过一些在线课程提供的NVIDIA。然后，我尝试在遗留代码上并行化。openacc代码将被编译为源代码对象库。C++扩展调用openacc代码。这是一个需要这种安排的遗留代码。在Python中定义系统、调用C++扩展和访问openacc

浏览 2提问于2017-02-13得票数 0

回答已采纳

1回答

OpenACC:设备类型

、

我看到许多函数，如acc_get_num_devices()，需要输入设备类型。我使用了返回devtype=2的int devtype=2。(在文档化中: acc_get_num_devices( devicetype )返回指定类型的设备数量) 这2意味着什么？有哪些设备类型？设备类型是整数吗？(在我看来很荒谬，我在文档中找不到这些信息)

浏览 3提问于2020-10-07得票数 0

回答已采纳

1回答

迭代Karatsuba算法在C++中的OpenACC并行化和矢量化

、、、、

我正在尝试使用C++中的OpenACC来并行化迭代版本的Karatsuba算法。我想问一下如何向量化内部的for loop。我的编译器显示了关于该循环的this消息：下面是两个嵌套循环的代码

浏览 3提问于2018-04-13得票数 1

2回答

谁能解释一下GCC如何使用OpenACC？

、、

我正在使用WSL Ubuntu。用GCC来编译我的C++代码。$ g++ -fopenacc -o t testfile.cpp 据我所知，

浏览 13提问于2021-03-05得票数 0

1回答

用OpenACC实现可移植的随机数生成

、、、、

有没有一种可移植的方法来用OpenACC生成随机数？我知道可以直接使用cuRand，但我只能使用Nvidia GPU。另一种选择似乎是在主机上生成数字，然后将它们移动到设备上，但这似乎不是性能方面的最佳解决方案。有没有更好的方法？

浏览 18提问于2019-03-10得票数 2

2回答

在OpenACC的PGI编译器中使用-fast时如何解决防止循环矢量化的循环进位依赖

、、、

我想用C语言中的OpenACC并行化一个基于粒子方法的流体流动代码。我是OpenACC的新手，正在尝试理解它的基础知识，同时目前正在将它应用于多核计算机上的代码。稍后，我将尝试将其卸载到GPU。我在代码中的for循环中添加了一些#杂注。在代码的一部分中，当我编译没有-fast的代码时，它编译没有任何问题，但只并行外部循环，但是，当我在编译代码的过

浏览 13提问于2019-12-03得票数 0

回答已采纳

4回答

openacc与openmp和mpi的差异？

、、、、

我想知道openacc和openmp之间的主要区别是什么。MPI，cuda和opencl呢？我理解openmp和mpi之间的区别，特别是关于共享和分布式内存的部分，它们中的任何一个都允许混合gpu-cpu处理设置吗？

浏览 6提问于2013-10-21得票数 27

回答已采纳

0回答

OpenACC中的固定内存(使用PGI编译器)

、、、、

我有一个简单的CUDA代码，我将其转换为OpenACC。我的所有内核都像预期的那样被并行化了，它们的性能与我的CUDA内核相似。然而，设备到主机的内存传输会扼杀我的性能。在我的CUDA代码中，我使用固定内存，性能要好得多。不幸的是，在OpenACC中，我不知道如何利用固定内存。我在文档

浏览 20提问于2016-12-28得票数 1

回答已采纳

1回答

OpenACC代码在Nvidia V100 GPU上的运行速度是AMD MI250 GPU上的17036.0939901倍。

、、、、

我试图理解为什么我的OpenACC代码在Nvidia V100 GPU上的运行速度是AMDMI-250 GPU的17036.0939901倍。mean= 221.67053561071717!在源代码中，我将!$acc loop independent vector(16)更改为!$acc loop independent vect

浏览 13提问于2022-12-01得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

我可以使用OpenACC来系统调用Python函数吗？

开始使用OpenACC +程序

OpenACC中的嵌套指令

OpenAcc :如何并行化函数调用

OpenACC -如何找出设备是否忙着做一些CUDA操作？

未向量化/并行化的OpenACC循环:包含调用

OpenAcc标准中内核和并行指令的区别

内核构造与并行构造的区别

java代码能否在GPU上使用开放访问进行并行化

将PGI OpenACC运行时库与gcc直接连接

带有动态数组的openacc嵌套循环

OpenACC:设备类型

迭代Karatsuba算法在C++中的OpenACC并行化和矢量化

谁能解释一下GCC如何使用OpenACC？

用OpenACC实现可移植的随机数生成

在OpenACC的PGI编译器中使用-fast时如何解决防止循环矢量化的循环进位依赖

openacc与openmp和mpi的差异？

OpenACC中的固定内存(使用PGI编译器)

OpenACC代码在Nvidia V100 GPU上的运行速度是AMD MI250 GPU上的17036.0939901倍。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐