使用批处理实现im2col的OpenCL内核

、、、

我正在尝试将一个为CPU编写的安全函数改编为一个用于GPU的OpenCL内核。该函数是许多深度学习应用程序中使用的众所周知的im2col。我在OpenCV存储库中发现了一些用OpenCL编写的实现此im2col函数的代码，但我必须适应的代码使用了一个让我困惑的批处理，而且看起来有点不同。我应该

浏览 14提问于2019-11-20得票数 0

1回答

Opencl是否有可能在内核之间运行时缓存一些数据？

我目前有一个问题场景，我正在执行图形计算任务，我总是需要更新主机端的顶点数据，迭代计算以获得结果。但是在这个过程中，关于边缘的数据没有变化。我想知道是否有一种方法可以使用OpenCL反复写入数据、运行内核和读取数据，一些未修改的数据可以保存在设备端，以降低通信成本。顺便说一下，我目前只能在1.2版下运行OpenCL。

浏览 7提问于2022-03-24得票数 1

回答已采纳

2回答

是否有在OpenCL C++中可用但在OpenCL C中不可用的OpenCL 2.2功能？

、、

OpenCL 2.1和2.2除了传统的OpenCL C内核语言外，还引入了OpenCL C++内核语言。我必须在一个支持C但不支持C++的环境中使用OpenCL。除了C++语法之外，是否还有在OpenCL C++中可用但在OpenCL C中不可用的OpenCL 2.2功能？我必须使用C++编译器(编写C++主程序)才能使用<e

浏览 6提问于2017-04-21得票数 2

1回答

OpenCL Copy-一次共享大量内容

我正在使用OpenCL实现一个解决方案，我想做以下事情，例如，你有一个大的数据数组，你想在图形处理器中复制一次，并让许多内核处理这些数据的批处理，并将结果存储在它们特定的输出缓冲区中。真正的问题是哪种方式更快？将每个内核与它需要的数组的一部分排入队列，或者提前传递整个数组，并让每个内核(在相同的上下文中)处理所需的批处理

浏览 1提问于2013-05-05得票数 3

回答已采纳

1回答

启动内核后，主机上的执行流

当我们使用clEnqueueNDRangeKernel启动内核时，主机代码实际上发生了什么，它是等待内核完成还是..？我当时正在读OpenCL clCreateBuffer规范()。检查标志CL_MEM_USE_HOST_PTR的描述。为了您的方便，我在这里发布了它：“它表示应用程序

浏览 2提问于2012-07-12得票数 0

2回答

OpenCL单工作项VS NDRange内核

、、、

我是新手，在OpenCL上使用OpenCL进行块密码加密。我读了一些论文，知道Opencl中有两种内核(单一工作项和NDRange)。NDRange内核的函数不会被编译器自动流水线处理，而单个工作项内核的函数会被自动流水线处理。是否建议在FPGA上实现单个工作项内核而不是NDRange内核？为什么？如果我想让内核循环运行直到读取所有数据，那么内核</em

浏览 1提问于2017-08-10得票数 1

1回答

用每个像素的openGL修改openCL纹理的最快方法

、、、

使用OpenGL 4.4和OpenCL 2.0，假设我只想修改每个帧的纹理的特定像素。实现这一目标的最佳途径是哪一种？我应该分享哪个对象？我只能修改有限数量的像素吗？我只想要GPU的行动。

浏览 1提问于2013-12-29得票数 0

回答已采纳

1回答

如何在卷积网中使用im2col运算更有效？

、、、、

我正在尝试实现一个卷积神经网络，我不明白为什么使用im2col操作更有效。它基本上是将输入乘以过滤器存储在单独的列中。但是为什么不应该直接使用循环来计算卷积而不是第一次执行im2col呢？

浏览 4提问于2017-09-14得票数 13

回答已采纳

2回答

CPU设备上的OpenCL* -引擎盖下发生了什么？*

、、、、

所以，如果我在CPU设备上运行openCL内核函数，而不是GPU设备，那么内核会自动使用CPU上的所有内核吗？例如，我的系统说我在CPU上有4个核心，内核会自动使用所有4个内核吗？如果上述情况属实，那么是否意味着在单个CPU设备上运行openCL内核就等于使用标准的std：：线程(假设我们使用C++)来执行相同的</em

浏览 6提问于2014-09-30得票数 4

回答已采纳

1回答

为什么在相同的工作负载下，单个CPU核心在pthread和OpenCL上的性能会有所不同？

、、

我有一个非常简单的任务:多次扫描char数组(16*1024)。我用pthread在一个CPU核心上实现了一个线程。时间是23秒。然后我使用设备分裂来创建一个只包含一个CPU计算单元(即一个CPU核)的设备，时间只有17秒。在我看来，OpenCL的实现应该比pthread慢(因为C更接近于硬件)。我怎么会得到这样的结果呢？

浏览 0提问于2014-08-21得票数 1

2回答

英特尔OpenCL北网发行

、、、、

我试图使用英特尔硬件在Linux上使用OpenCL： 使用</em

浏览 8提问于2017-01-19得票数 4

回答已采纳

2回答

在OpenCL中将函数作为参数传递

、、

在OpenCL 1.2中，是否可以将函数指针传递给内核？我知道它可以用C实现，但我不知道如何用OpenCL的C来实现。编辑:我想做与这篇文章中描述的相同的事情：，但是是内核。以前，我使用内联函数从内核调用它们，但我希望该函数是一个参数，而不是硬编码在中。

浏览 1提问于2018-07-10得票数 2

1回答

我想获得有关已编译的OpenCL内核的以下信息-类型列表、params顺序(如果可能的话)，以及内存和访问分类器。内核是在应用程序运行时从源代码构建的。实际上，在OpenCL 1.2中，已经存在适合这种查询的函数-- clGetKernelArgInfo，但是由于项目限制，我必须找到方法来使用纯OpenCL 1.0来实现这种功能，而不需要任何扩展。目前，我正考虑三种方法：编写简单的</

浏览 1提问于2013-11-13得票数 4

1回答

OpenCL:是否可以通过Boost::compute将模板化的对象用作内核参数？

、、

我的内核的函数签名如下：void kernel(const Type1methods我知道可以使用c++的一个子集来使用编写<e

浏览 2提问于2018-02-09得票数 7

回答已采纳

2回答

opencl中的位数实现

、

我对内核的opencl实现很感兴趣，它计算无符号整数中的set(1)位。我知道opencl有这样的扩展，我不想使用它，而是自己实现。

浏览 1提问于2013-11-09得票数 1

1回答

OpenCL中变长数组的计算

、、、、

我正在使用OpenCL (Xcode，Intel )，并试图实现一个计算移动平均值和偏差的内核。我想将几个不同长度的双数组传递给内核。这是可以实现的，还是我需要用零填充较小的数组，这样所有的数组都是相同大小的？我是OpenCL和GPGPU的新手，所以请原谅我对任何术语的无知。

浏览 1提问于2016-12-15得票数 0

回答已采纳

1回答

OpenCL全局大小或每个工作项的for循环？

、、、、

我学习OpenCL是为了实现一个相对复杂的图像处理算法，它包括几个应该作为内核实现的子例程。该实现计划在Mali 6xx GPU上实现。我阅读了"OpenCL Programming by Example“一书和”在Mali T600 GPU上优化OpenCL内核“文档。在书中的示例中，他们使用了一些全局大小的工作项，并且每个工作项在

浏览 5提问于2016-05-09得票数 1

2回答

OpenCL与OpenMP性能

、

有没有研究比较OpenCL和OpenMP的性能？具体地说，我感兴趣的是使用OpenCL启动线程的开销成本，例如，如果将域分解为非常大量的单独工作项(每个工作项由一个执行小任务的线程运行)，而在OpenMP中，较重的线程是将域分解为数量等于核心数量的子域似乎OpenCL编程模型更多地针对大规模并行芯片(例如GPU)，而不是具有更少但更强大内核的CPU。 Op

浏览 0提问于2011-09-01得票数 32

回答已采纳

1回答

linux中的OpenCl* watchdog*

、、

以前我在Windows系统上开发OpenCl内核，现在我使用Linux内核。在Windows上有一个很棒的功能叫做watchdog，如果超过5秒(默认情况下)，它会自动停止OpenCl计算，在代码中出现导致非常长或无限运行的错误的情况下，它非常有用。有没有办法在Linux中实现这样的功能呢？我有一个AMD移动显卡，并为它最新的AMD驱动程序。如果不可能有一个看门狗，有没有办法手动终止Ope

浏览 0提问于2013-02-17得票数 1

1回答

我是否正确地重用OpenCL/Cloo(C#)对象？

、、

我正在试验OpenCL (通过Cloo的C#接口)。为了做到这一点，我正在用传统的矩阵乘法GPU进行实验。问题是，在我的速度测试中，应用程序崩溃了。我正在努力提高对各种OpenCL对象的重新分配的效率，我想知道这样做是否有什么问题。use the gpu new ComputeContextPropertyList(_integratedIntelGPUPlatform), // use the intel openC

浏览 8提问于2017-02-16得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Opencl是否有可能在内核之间运行时缓存一些数据？

是否有在OpenCL C++中可用但在OpenCL C中不可用的OpenCL 2.2功能？

OpenCL Copy-一次共享大量内容

启动内核后，主机上的执行流

OpenCL单工作项VS NDRange内核

用每个像素的openGL修改openCL纹理的最快方法

如何在卷积网中使用im2col运算更有效？

CPU设备上的OpenCL* -引擎盖下发生了什么？*

为什么在相同的工作负载下，单个CPU核心在pthread和OpenCL上的性能会有所不同？

英特尔OpenCL北网发行

在OpenCL中将函数作为参数传递

如何获取内核信息

OpenCL:是否可以通过Boost::compute将模板化的对象用作内核参数？

opencl中的位数实现

OpenCL中变长数组的计算

OpenCL全局大小或每个工作项的for循环？

OpenCL与OpenMP性能

linux中的OpenCl* watchdog*

我是否正确地重用OpenCL/Cloo(C#)对象？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐