如果我运行以下程序,然后在sum+=arri中交换i和j后再次运行它,则执行时间与交换前的2.7秒相比有很大的不同,即9.8秒。我只是不明白为什么会这样。有人能告诉我为什么会这样吗?
#include<iostream>
#include<time.h>
using namespace std;
int main()
{
int long sum=0;
int size = 1024;
clock_t start, end;
double msecs;
start = clock();
int **arr = new int*[size];
for (int i = 0; i < size; i++)
{
arr[i] = new int[size];
}
for(int kk=0; kk<1000; kk++)
{
sum = 0;
for (int i = 0; i < size; i++)
{
for (int j = 0; j < size ; j++)
{
sum += arr[i][j];
}
}
}
end = clock();
msecs = ((double) (end - start)) * 1000 / CLOCKS_PER_SEC;
cout<<msecs<<endl<<endl;
return 0;
}
发布于 2014-04-02 22:49:36
这是由于空间局部性造成的。当程序需要内存中的一些数据时,处理器不仅读取特定的数据,而且读取相邻的数据。因此,在下一次迭代中,当您需要下一组数据时,它已经在缓存中了。
在另一种情况下,您的程序无法利用空间局部性,因为您没有在连续迭代中读取相邻数据。
假设您的数据位于内存中,如下所示:
0 1 2 3 4 5 6 7 8 9
10 11 12 13 14 15 16 17 18 19
20 21 22 23 24 25 26 27 28 29
当您的程序需要读取标记为0
的例如数据时,它会读取整行:
0 1 2 3 4 5 6 7 8 9
因此,当您需要标记为1
的数据时,它已经在缓存中,您的程序运行得更快。
相反,如果您按列读取数据,这无助于您,每次您得到一个缓存丢失,处理器必须再次进行内存读取。
简而言之,内存读取是昂贵的,这是处理器优化读取以节省时间的方法。
https://stackoverflow.com/questions/22824553
复制相似问题