什么是基线,什么是基准?这些数字的最佳定义是什么?如何对一组数字进行基线测试,并对另一组数据进行基准测试?
发布于 2008-12-07 00:23:30
嗨,Gagneet,我是Windows性能团队的成员:这里是我们如何使用这些术语的。
baseline是已知配置的测量,用作后续测量的参考。对于基线,我们描述了被测量的东西:让我们以冷启动时间为例。这里我们有一组具有良好特征的机器-这意味着我们知道它们是如何工作的,我们为它们提供了良好的驱动程序,并且硬件没有损坏或缺陷。
在这个硬件上,我们有几个“基线”测量,如XP-RTM、XP-SP2、Vista-RTM、Vista-SP1、Vista-SP2等。
对于这些基线中的每一行,我们都有一组特征明确且易于理解的度量,包括启动的所有阶段、CPU的数量、磁盘和内存利用率、DLL加载的数量等。
在建立基线之后,我们可以进行其他测量,并将它们与基线进行比较。例如,我们目前正在开发Window-7。对于每个构建(每天),我们运行一组引导时间测试。我们将每个Win-7构建的所有特征与基线测量进行比较。这包括所有以前的Win-7构建。这让我们看到了不同之处,并帮助我们深入问题领域。Here are some more details。
发布于 2008-12-06 21:45:21
来自SPR (软件生产力研究)的有趣定义
基线和基准是相似但不同的活动。
形象地说,a baseline是组织的一条“沙线”,通过它可以测量重要的性能特征,以供将来参考。
这不一定是一个“好”的状态,只是一个参考。
基准测试最好通过单词本身的原始派生来理解:
从事重复性工作的工匠,如将木材锯切成一致的长度,通常会在工作台上开槽,以指示切割前的板材位置。从字面上看,基准成为了比较的标准和过去成功的指示器。
基本上:
的相对性能
发布于 2008-12-08 22:04:25
在科学研究中,基准是一种测试,基线是一种结果。
让我们看一个基准测试的例子:我们可以收集5,000个英语句子,并使用实验室的四核戴尔机器通过各种算法将它们翻译成西班牙语。因为我们保持了数据和机器的恒定,所以我们可以有意义地比较不同算法完成任务所需的时间,以及它们的相对准确性(对照黄金标准的人工翻译进行衡量)。
为了找到这个基准测试的基准,我们可能会编写一个非常天真的翻译算法,它只为每个单词找到最常见的翻译,而不考虑上下文。根据我们的人工翻译来衡量这个算法的准确性,可以让我们了解其他算法必须超越的最低分数-基线,并让我们感觉到什么程度的准确性才算“好”。
在基线的另一端,上限也是一个有用的标尺。在翻译示例中,我们可以通过测量我们的一个人工翻译相对于其他翻译的准确性来找到上限。这给了我们一个想法,在你触及人类分歧的天花板之前,我们的“准确性”度量可能达到多高。我们期望我们的机器翻译算法在基线和上限之间的水平上执行。
https://stackoverflow.com/questions/346788
复制相似问题