使用SSE2内部函数存储或提取标量整数结果的更好方法

、、、

我想知道在使用SSE2时，加载和存储的效率是如何变化的。在本例中，我希望将pclmulqdq指令(进位较少的乘法，对于多项式算术很有用)与普通的C函数进行比较，因此我需要与标准函数相同的“调用约定”。A和b是16个有效位，结果将具有32个有效位 #include <wmmintrin.h> __m128i xa =

浏览 150提问于2021-01-14得票数 1

回答已采纳

1回答

将m256d转换为m256i

、、

既然是这样的演员：在Visual下编译时，我认为可以使用一些内部函数在将__m256d值传递给_mm256_store_si256之前将其转换为__m256i，从而避免导致错误的强制转换但是，在查看之后，我找不到一个函数

浏览 0提问于2018-06-24得票数 1

回答已采纳

1回答

在AVX内部函数中使用xmm参数

、

可以将xmm寄存器参数与AVX内部函数(_mm256_**_**)一起使用吗？我的代码需要使用向量整数运算(用于加载和存储数据)以及向量浮点运算。整数代码是用SSE2内部函数编写的，以便与旧的CPU兼容，而浮点数是用AVX编写的，以提高速度(也有SSE代码分支，所以不建议这样做)。目前，除了使用编译器标志自动将所有SSE指令转

浏览 1提问于2013-12-08得票数 2

1回答

找到最小/最大。优化

、

xmm5 orps xmm3, xmm5 add ecx, 4这是一个在ints中查找最大值/分钟的基本循环我的处理器是AMD K8。我不能计数cylces，但我可以比较，我的代码比我的朋友谁没有使用SIMD慢。我不明白为什么。这个循环不是最优的吗？你看到什么原因了吗？

浏览 0提问于2016-06-05得票数 0

回答已采纳

1回答

64位整数的SSE优化仿真

、、、、

对于我正在从事的一个业余项目，我需要在x86 CPU上模拟某些64位整数操作，而且它需要快速。因此，我想知道这里的SSE /优化大师是否能够使用SSE找到一个更好的实现。uint64_t X, Y; X = 1;X != Y;X & 0x1 // get lsb X | 0x1 // set

浏览 1提问于2012-04-19得票数 10

回答已采纳

1回答

CMOVcc被认为是分支指令吗？

、、、、

如果是这样的话，我如何重新排列我的代码，使它不分支？

浏览 4提问于2019-08-16得票数 1

回答已采纳

2回答

代码性能问题

、、、

假设我有一个相对较大的对象列表( MyObjectModel )，名为MyBigList。MyObjectModel的一个属性是一个名为ObjectID的int。理论上，我认为MyBigList的大小可以达到15-20MB。我的数据库中还有一个表，它存储关于这个列表的一些标量，以便以后可以重新组合它。怎样才能更有效率？，该函数从列表中提取标量，将它们存储在DB中，并返回生成这些条

浏览 1提问于2011-06-02得票数 0

回答已采纳

1回答

xmm指令"divsd“将剩余的内容存储在哪里？

、、

在声明中：其余的储存在哪里？xmm寄存器是否有剩余部分的寄存器，如整数寄存器？我应该在x87指令中使用FPREM吗？据我所知，英特尔的手册在这个问题上是沉默的，许多研究并没有给出一个有用的答案。

浏览 0提问于2018-01-19得票数 1

回答已采纳

1回答

当我在C++中将浮点变量赋值给int变量时，会发生什么？

、、、

首先，我要说，我对Assembly不太了解，但这是我想知道的事情。假设我在C++中有一个代码，如下所示：int i; 显然，当执行这段代码时，f (34.2)的值将转换为整数值(34)，并分配给i。我的问题是这种转换是如何发生的，我的意思是在运行时是否发生这种转换，所以在运行时，有一个嵌入到可执行文件中的代码是这样的：f被分配给i，现在我知道f是一个浮点数，i是一个整数，所以我应该做<

浏览 0提问于2014-12-13得票数 1

回答已采纳

1回答

我正在开发一个生物信息学工具，我试图使用SIMD来提高它的速度。给定两个长度为16的字符数组，我需要快速地计数字符串匹配的索引数。如下面的foo函数所示，我将seq1和seq2中的每个字符打包到__m128i变量s1和s2中，并使用_mm_cmpeq_epi8同时比较每个位置。比__m128i中的每一点加起来都快得多，但是__popcnt128()是函数中最慢的瓶颈，占了计算速度的80%左右。因此

浏览 7提问于2021-04-26得票数 2

回答已采纳

2回答

上证码浮点算术可重复性好吗？

、、、、

x87 FPU以使用内部80位精度模式而闻名，这通常会在编译器和机器之间带来意想不到的、不可复制的结果。因此，SSE似乎不受x87与精度相关的问题的影响，唯一的变量是可以控制的变性行为。撇开先验函数(与x87不同的不是由SSE提供的本机函数)，使用SSE是否可以保证跨机器和编译器的可复制结果？例如，编译器优化

浏览 5提问于2013-02-28得票数 14

回答已采纳

2回答

如何使用_mm_extract_epi8函数？

、、、、

我使用的是_mm_extract_epi8 (__m128i a, const int imm8)函数，它有const int参数。__m128i a; {} 如何在循环中使用此函数

浏览 0提问于2019-02-02得票数 0

1回答

如何处理可以在graphql中返回几种标量类型之一的字段

、

在graphql中(使用优秀的graphql)，我试图返回一个对象，该字段可以等于布尔值、整数或字符串。我最初的想法是返回布尔、整数或字符串的联合，但是graphql告诉我，联合不能包含标量类型(我认为这是规范而不是graphql强加的约束)。我能想到的解决方案(不是很好)是将值作为json字符串返回并在客户端解析它。是否有更好的方法来处理可能是

浏览 0提问于2018-04-03得票数 3

回答已采纳

2回答

标量在perl中是什么意思？

、

在Perl语言中，您有三个主要的，“标量、标量数组和关联标量数组”。perl用“标量”这个名字到底想表达什么？这是什么比喻，应该形成的心理形象？但这并不能帮助我理解为什么使用“标量”这个词。Perl的标量肯定不会。

浏览 10提问于2021-04-28得票数 4

1回答

SQL存储过程的select语句中标量函数的替代选项

、、、

我有一个存储过程来从我的数据库中获取客户列表。在SP内部，我在select查询中调用了两个标量函数，这会严重影响性能。标量函数有多个if操作，用于检查多个案例并获取客户许可证信息，因此在内联中使用此查询更为复杂。

浏览 1提问于2019-04-02得票数 2

3回答

将位向量转换为一位

、、、、

对于一个非零的无符号整数值，是否有一种有效的方法来获得0x00000001或0xFFFFFFFF，而对于没有分支的零值则是0？} 我知道一些优化编译器可以处理这个问题，但是即使是这样，他们又是如何做到的呢？我查看了位旋转哈克斯页面，但只发现了使用布尔条件设置/清除掩码的条件描述，因此从int到bool的转换应该在方法之外进行。

浏览 0提问于2013-11-24得票数 4

1回答

_m128向量的四个32位元素的总和

、、、

我正在使用内部函数来优化我的一个程序。但现在我想将__m128向量中的四个元素相加，以便将结果与浮点值进行比较。例如，假设我有这个128位的向量：{a，b，c，d}。SSE2或SSE3是否提供了一种简单的方法，或者您是否有任何代码片段可以帮助我？谢谢！

浏览 6提问于2012-04-16得票数 2

回答已采纳

1回答

为什么AVX2和SSE2按位或运算符的速度不快于一个简单的Why运算符？

、、、、

我试图用32位整数加速长二进制向量的按位或运算。在这个例子中，我们可以假设名词是单词的数量，它是4和8的倍数。因此，没有循环提醒。这个二进制向量可以包含数千位。此外，所有三位向量都使用_align_malloc()分配，分别以16位和18位对齐，分别用于SSE2和AVX2。令我惊讶的是，以下三个标量、SSE2和AVX2代码是在我的i7 CPU上使用完全相同的时间

浏览 3提问于2019-11-13得票数 0

1回答