MKL:观察线程化效果失败

文章/答案/技术大牛

发布

1回答

multithreading、openmp、intel-mkl

然后我搞混了，这个调用的执行时间在单线程模式和24线程模式下基本上是相同的。在函数调用之前，我通过mkl_set_num_threads()设置线程数。有谁知道会发生什么吗？

浏览 3提问于2017-07-08得票数 0

回答已采纳

1回答

用GCC编译的多线程MKL + OpenMP

c++、gcc、openmp、tbb、intel-mkl

例如，我想用MKL解决一个大型线性系统，但我也想利用并行化来在同一个二进制可执行文件中构建系统矩阵(我自己的代码独立于MKL)。Intel在MKL文档中指出，第三方编译器“可能不得不禁用MKL函数的多线程”。因此，备选方案是：只对MKL函数进行多线程调用，其他地方都是单线程代码

浏览 2提问于2019-02-14得票数 2

1回答

CPU上最快的多线程迭代稀疏求解器？

multithreading、multiprocessing、sparse-matrix、iteration、intel-mkl

英特尔MKL库提供优化的线程化函数集，但对于迭代稀疏求解器(ISS)，预处理共轭梯度法似乎不能直接线程化。更准确地说，使用预处理技术，如不完全乔列斯基分解或ILU，在某些点上需要稀疏三角形求解器，但执行三角形求解mkl_cspblas_?csrtrsv的相应MKL函数不是线程的。我的问题是，在多核处理器上，是否有任何稀疏求解器库可以击败当前版本的MKL (它不是完全线程的)？

浏览 5提问于2013-08-01得票数 2

3回答

为什么Numpy和Ryzen Threadripper的速度比Xeon慢得多？

python、performance、numpy、intel、amd-processor

(更新3也述及) 更新4:只是为了澄清。不，我不认为(a) 或(b)

浏览 5提问于2020-07-07得票数 55

2回答

在使用英特尔MKL时，如何使线程仅绑定一个核心？

intel-mkl

我想用线程化的mkl来做矩阵乘法。我正在尝试使用8个threads.My中央处理器有8个核心，每个核心有两个后勤核心。我不知道英特尔mkl是否会将每个线程只绑定到一个内核？

浏览 1提问于2014-03-18得票数 0

1回答

Anaconda MKL无法设置线程数

python、numpy、anaconda、intel-mkl

因此，我搜索了一下，找到了两种方法来设置MKL使用的线程数。from ctypes import CDLLprint(mkl.MKL_Set_Num_Threads(4)) print(mkl.MKL</

浏览 0提问于2018-11-02得票数 2

1回答

我使用ctypes模块将Intel加载到python中，然后调用一个需要openmp并行化的例程(在我的例子中是pardiso)。我在Intel站点上找到了详细说明过程的有用的链接，并且我可以运行它们的示例代码，但是当我运行自己的使用openmp线程函数的示例时，程序会与消息一起崩溃。我强烈怀疑加载libmkl_rt.so不能正确地触发libiomp5.so负载我尝试将Intel库路径(以及“正常”英特尔库路径)添加到LD_RUN_PATH和LD_LIBRARY_PATH中，但都没有效果，尽管在这些路径中包含了MKL库和

浏览 4提问于2012-01-24得票数 3

1回答

Ubuntu中需要提升权限的MKL多线程

python、linux、multithreading、ubuntu、intel-mkl

('libmkl_rt.so')A = numpy.random.rand(10000,将返回1，并且矩阵乘法仅使用一个CPU线程。作为一种解决方法，我尝试了以下操作：mkl_rt.mkl_set_num_threads(ctypes.byref(ctypes.c_in

浏览 2提问于2018-03-08得票数 0

1回答

用于单个核心使用的Intel编译器标志

fortran、intel、compiler-optimization、intel-fortran

我注意到，在我看来，fortran代码似乎是一种令人惊讶的行为，它主要包含矩阵/矩阵和矩阵/向量乘法。gfortran -c -g -O3 ...然后，我使用英特尔编译器编译了我的代码：使用单个内核，代码运行速度要快得多。然后，我决定对矩阵/矩阵和矩阵/向量乘法分别使用著名的dgemm函数和dgemv函数来优化代码。ifort -c -g -O3 ... 生成的代码工作

浏览 4提问于2019-09-26得票数 0

回答已采纳

1回答

使用mpirun执行我的程序会大大降低性能。

mpi、intel、distributed-computing、openmpi

. + X_nX_n^T.#include "MemoryUtils.h"#include "omp.h"#include <mkl.h> #includesnpsPerBLockCrop = std::min(M, m0 + snpsPerBlock

浏览 8提问于2020-03-13得票数 3

回答已采纳

2回答

Python中的非预期多线程(scikit-学习)

python、multithreading、scikit-learn

我在高斯混合模型中使用sklearn模块的混合子模块。当我在多核系统上运行我的代码时，它使用多核，即使我在代码中没有要求它。这是默认行为吗？更重要的是，我怎样才能禁用它呢？

浏览 0提问于2013-10-08得票数 7

回答已采纳

2回答

如何利用特征和OpenMP最大限度地利用cpu

c++、optimization、openmp、cpu-usage、eigen

它使用Eigen矩阵库和OpenMP以及MKL。我使用以下参数使用ICC编译代码：(这是我的.pro文件的摘录，因为我使用了Qt)LIBS += -L/opt/intel/mkl/lib/intel64 \ -L/opt/intel/

浏览 3提问于2015-07-31得票数 1

回答已采纳

3回答

Threaded中的线程化快速傅立叶变换

python、multithreading、fft、enthought、intel-mkl

Numpy/SciPy中的快速傅立叶变换(FFT)不是线程的。英特尔MKL数值库附带了threaded，该库能够进行线程化FFT。如何访问这些例程？

浏览 0提问于2012-08-01得票数 5

回答已采纳

1回答

OpenMP:使用Anaconda Python / Cython，但不使用System (Arch) Python / Cython

openmp、cython

我有一个Python/Cython应用程序，它是使用OpenMP并行化的，它对英特尔MKL进行了多次调用。通常，我通过OMP_NUM_THREADS=xx确定线程的数量。但是，当使用系统Python分发版( Arch Linux下的Python 3.6 )时，对于cython模块和英特尔MKL，只启动一个线程。至少对于我的cython模块，我可以判断出请求的线程数是正确的(通过prange() )，但只获得了一个线程。没有出现编译错误，当然也使用了'

浏览 1提问于2018-04-05得票数 0

1回答

mkl_free()的问题

c++、intel-mkl

我正在编写一个图像注册程序，我发现在使用mkl_free()时出现了一个奇怪的错误。我使用MKL函数从MATLAB编写了矩阵指数函数expm()的实现。我的程序当前在我调用第一个mkl_free()之前崩溃，所以我怀疑这是某种形式的内存泄漏。但是函数中使用的矩阵不应该是自包含的吗？我不认为释放它们会导致我的整个程序崩溃。据我观察，调用mkl_free_buffers()；和mkl_thread_free_buffers()；不会产生任何效果。我曾尝试使用mkl<

浏览 1提问于2013-06-27得票数 0

回答已采纳

1回答

设置NumPy使用的线程数的更好方法

python、multithreading、numpy

背景你在分享资源在这些情况下，合理的做法是将MKL/OpenBLAS使用的线程数限制为1，并手动并行化您的程序。‘OPENBLAS = 'openblas’ 类 BLAS，它使用获取和设置线程数的方法抽象BLAS库:类BLAS: def __init__(se

浏览 0提问于2018-11-01得票数 5

1回答

推广到多个BLAS/LAPACK库

c++、c、lapack、blas、intel-mkl

我使用Intel MKL开发了它，用于峰值性能，但我不想只发布Intel MKL版本，因为我假设它不会适用于没有Intel或不想安装MKL的人。特定于Intel MKL的函数和类型。例如，我使用的是MKL_INT类型，还有类型。这个建议使用宏重新定义类型，这也是我的第一个想法。我想我也会为头设置宏。

浏览 2提问于2016-05-31得票数 2

回答已采纳

1回答

是否存在一种配置，在该配置下，numpy操作将在多个内核/线程上工作？

python、numpy、lapack、blas

我真的对OPENBLAS / BLAS / LAPACK / ATLAS /英特尔MKL提供的功能感到困惑。我试着阅读这篇文章并安装包，但是弄得一团糟，所以我决定回到基础知识。

浏览 1提问于2014-11-26得票数 0

1回答

当使用MKL* BLAS时，scipy是否支持稀疏矩阵乘法的多线程？*

multithreading、scipy、sparse-matrix、matrix-multiplication、blas

根据MKL文档，“所有矩阵-矩阵操作(第3级)都是针对密集和稀疏BLAS的线程化的。” 我已经用MKL BLAS构建了Scipy。使用下面的测试代码，我看到了密集但不是稀疏矩阵乘法的预期多线程加速比。Scipy是否有任何更改以启用多线程稀疏操作？

浏览 0提问于2013-06-18得票数 6

1回答

如何使用MKL执行线程化稀疏矩阵向量乘法？

c++、multithreading、sparse-matrix、blas、intel-mkl

到目前为止，我使用稀疏的BLAS例程mkl_zdiasymv来执行乘法，它在一个内核上工作得很好。我想尝试一下是否可以通过使用多线程(例如openMP)来获得性能提升。据我所知，有些(很多？)的MKL例程都是线程化的。但是，如果我使用mkl_set_num_threads(4)，我的程序仍然在一个线程上运行。为了给出一个具体的例子，这里是我用以下命令编译(使用icc 14.01)的一个小测试程序： icc mkl_test_mp.cpp -mk

浏览 2提问于2013-12-16得票数 3

点击加载更多