有没有研究比较OpenCL和OpenMP的性能?具体地说,我感兴趣的是使用OpenCL启动线程的开销成本,例如,如果将域分解为非常大量的单独工作项(每个工作项由一个执行小任务的线程运行),而在OpenMP中,较重的线程是将域分解为数量等于核心数量的子域似乎OpenCL编程模型更多地针对大规模并行芯片(例如GPU),而不是具有更少但更强大内核的CPU。
Op
我正在试验OpenCL (通过Cloo的C#接口)。为了做到这一点,我正在用传统的矩阵乘法GPU进行实验。问题是,在我的速度测试中,应用程序崩溃了。我正在努力提高对各种OpenCL对象的重新分配的效率,我想知道这样做是否有什么问题。use the gpu
new ComputeContextPropertyList(_integratedIntelGPUPlatform), // use the intel openC