字符串统计的算法_字符串统计杭电算法_统计算法 - 腾讯云开发者社区

、、

尝试使用word_tokenize和sent_tokenize标记带有新行的段落，但它无法识别新行。尝试通过将其拆分到新行中来将其分成段落，但仍然不起作用。 from nltk import sent_tokenize, word_tokenize, pos_tag para="the new line \n new char" sent=sent_tokenize(para) print(sent) 输出： ['the new line \n new char'] 如果在python中以字符串格式指定数据，但在从docx文件中提取数据时失败，则它可以工作对

浏览 12提问于2018-02-05得票数 1

回答已采纳

1回答

具有无界属性的C4.5算法

、

VFDT ()中C4.5的当前实现，或者任何其他实现都使用C4.5格式的文件来提供用于构造决策树的输入。根据这一点，属性可以有以下格式：如果属性具有连续值，则为连续。 --单词‘离散’，后面跟着一个整数，它指示属性可以接受多少值。标识符列表----这是一个具有枚举值的离散属性(这是用于离散属性的首选方法)。标识符应该用逗号分隔。忽略意味着属性应该被忽略-它不会被使用。有谁知道如何指定离散值属性，这些属性的全部可能值集太大，无法列出？例如，“IP地址”属性可以具有Math.Pow(255,4)可能的离散值；"QueryString“属性可以有无穷多的可能值.等。 C4.5算法能

浏览 1提问于2013-04-24得票数 0

回答已采纳

1回答

如何定义两种概率算法之间的统计距离？

让 \begin{aligned} F_{i} \colon \{\, 0,1 \,\}^* \times \{\, 0,1 \,\}^* &\to \{\, 0,1 \,\}^* \\ (k, x) &\mapsto y \\ \end{aligned} 为了i \in \{\, 1,2 \,\}。如我们所知，对于每个oracle算法\mathcal{D}，F_{1}和F_{2}之间相对于\mathcal{A}的距离被定义为 \mathrm{Dist}_{\mathcal{D}}^{F_{1}, F_{2}}(l) = \left\vert \Pr \left[ k

浏览 0提问于2019-04-25得票数 1

3回答

计算字符串出现次数的最快方法

、、

我想知道统计一个字符串(针)在另一个字符串(干草堆)中出现的次数最快的方法是什么。我这样做的方式是： int findWord(char * file, char * word){ char *fptr; char * current = strtok_r(file, " ,.\n", &fptr); int sum = 0; while (current != NULL){ //printf("%s\n", current); if(strcmp(current, word) == 0) sum+=1;

浏览 2提问于2012-05-12得票数 3

2回答

字符串的最短摘要

描述给定一个字符类型的字符串，找到一个最短摘要，它被定义为:一个包含原始字符串中所有字符的最短子字符串。示例 A= "aaabedacd“ B= "bedac“是答案。我的解决方案 sub-string.Scan 定义了一个包含256个元素的整数表，用于记录当前字符串中各种字符的发生次数，使用上面的表统计给定字符串中的字符总数，使用两个指针开始指向给定字符串的开始和(开始+ 1)。当前的字符类型是1.在末尾展开子字符串[开始，结束]，直到它包含所有类型的字符。更新最短的摘要如果possible.Contract子字符串开始，每次以一个字符结束，如果有必要，请按步骤4.恢复其

浏览 4提问于2010-03-03得票数 3

2回答

哪个统计测试显示哪个分类器的性能优于其他分类器？

、、、、

我有三个分类器: A，B和C，根据准确性、特异性、敏感性、f评分和g均值，例如分类器B表现最好.现在我想从统计学上证实这个说法。我怎么发动汽车呢？McNemar的测试是否足以验证它？哪个统计测试会告诉我哪个分类器比其他分类器更好？又是如何做到的？

浏览 0提问于2019-12-20得票数 7

4回答

所有机器学习算法的共同特性是什么？

我找到的机器学习的定义是非常模糊的。所有机器学习算法的共同特性是什么？例如，关键字提取算法(只使用统计公式)是ML吗？语言检测算法(对每种语言和统计都使用字典)是ML吗？

浏览 0提问于2019-01-31得票数 3

回答已采纳

4回答

随机文本生成器

什么是生成随机字符串的最好方法，它由字母组成，最多800万个字符，将使用字符串搜索算法进行测试？基于统计的字符传播的随机性或可靠性，Math.random还可以吗？任何意见都很感谢，如果我的想法错了，请纠正我。

浏览 0提问于2010-03-08得票数 5

3回答

文本中的异常

、、

让我举个例子来解释一下。我们有以下文本： Comme Il Faut成立于1927年。该烟草公司以为其全球合作伙伴生产定制的自有品牌而闻名。这是普通文本。而是下面的文本： “1927年的CommeIlFautwasfounded。这家烟草公司以为其全球合作伙伴生产定制的私人标签而闻名。” 这是文本异常:打字错误，没有空格的单词，可能还有其他东西。如何搜索这样的异常？有什么算法可以解决这个问题(统计)？希望结果是一个百分比:例如，80%的异常。谢谢。

浏览 0提问于2011-04-15得票数 4

回答已采纳

1回答

如何找到集合的第一大数，并对i最大数进行排序

、、、

从"Cormen Leiserson Ri背心Stein，第3版，问题9-1，C点，第224页“，我有以下任务：给定n个数的集合(数组)A，使用顺序统计算法找出I-最大数，围绕该数进行分区，并对i最大数进行排序。我使用了随机选择算法(来自同一本书，pag )。216 -它使用随机-分区算法()来查找i-th 最小数，而我希望找到第I-最大数(让我们称之为"k-th“以避免混淆)。基本上，我可以得到k-最大的数字如下： +1 然后，我调用RandomizedSelect()来查找k-最大的数字，这一切都很好！这里有一个例子(在C中)，我是如何找到第四大数字的

浏览 3提问于2013-02-04得票数 2

回答已采纳

1回答

Server中统计信息的默认样本大小是多少？

、

来自MSDN：当没有指定任何示例选项(SAMPLE, FULLSCAN, RESAMPLE)时，查询优化器将对数据进行采样，并在默认情况下计算样本大小。如何识别统计数据的默认样本大小？我浏览了MSDN，但是没有找到任何公式或方法来识别默认的样本大小。任何地方都只存在触发自动统计更新的公式。任何指示都会有帮助。

浏览 0提问于2016-08-03得票数 13

回答已采纳

1回答

组合多臂盗贼(CMAB)和“尝试和统计”有什么不同？

、

组合多臂盗贼(CMAB)和“尝试和统计”有什么不同？根据我的理解，我认为CMAB策略是一样的，留出一部分网络流量来利用不同的选择，然后统计和固定原始分布。有人能告诉我有什么区别吗？

浏览 0提问于2018-12-11得票数 0

2回答

各种统计技术(回归、主成分分析等)是如何与样本大小和尺寸相结合的？

、、、

是否有一个已知的通用统计技术表来解释它们如何与样本大小和尺寸进行缩放？例如，前几天，我的一位朋友告诉我，简单地快速排序大小为n的一维数据的计算时间为n*log(n)。例如，如果我们将y与X的回归，其中X是一个d维变量，它是O(n^2*d)吗？如果我想要通过精确的Gauss解与牛顿法的数值最小二乘法求出解，它是如何缩放的？还是简单地获得解决方案和使用重要性测试？我想我更想要一个好的答案来源(比如一篇总结各种统计技术的论文)，而不是一个好的答案。比如，一个列表，包括多元回归，logistic回归，PCA，cox比例风险回归，K-均值聚类等等。

浏览 0提问于2014-08-05得票数 10

1回答

Server :每周更新统计作业

在SQL服务器上，当我们拥有所有数据库的AUTO_UPDATE_STATISTICS=ON时，为什么我们需要每周更新一次统计数据作业(并进行全面扫描)？这个选项不是一直在更新统计信息吗？问候

浏览 0提问于2010-05-12得票数 0

回答已采纳

2回答

目标-C二次/多项式回归(excel中的线性函数)

、、、

目标-c数学库看起来很基本。我正在寻找一些统计分析函数，比如Excel函数"linest“来检索具有给定顺序的数据集的二次或多项式回归。对于目标-c，有类似于“最线”函数的函数吗？还是已知的统计库/框架？我很难相信我是第一个在iOS中遇到这个问题的人。

浏览 4提问于2015-03-15得票数 1

回答已采纳

1回答

平面相交

、、、

我试图找出二次选择算法比线性选择算法更快的时间。运行一些实验，我生成了两个3D图，显示算法的运行时间作为输入数组大小和期望的顺序统计量的函数。使用gnuplot绘制图，我证实了在二次算法更快的情况下。然后，我使用gnuplot的拟合算法来寻找两个函数来建模我观察到的运行时(a，b，c，d，e，f是我已经找到的常量，但忽略了)： lin_alg_runtime(x，y) = a_x + b_y +c quad_alg_runtime(x，y) = (d*x * e*y) +f 其中x是输入数组的大小，y是顺序统计量。现在我有点搞不懂如何使用这些模型来计算何时在二次实现和线性实现之间切换。我怀疑

浏览 5提问于2009-12-02得票数 1

回答已采纳

4回答

产生随机函数(相对于随机数)

、、、

我想要创建一个函数，它接受一个字符串，并返回一个介于0到1之间的数字。在给定相同的字符串时，函数应该始终返回相同的数字，但除此之外，结果不应该有明显的模式。任何一组大的输入字符串的输出数字都应该遵循统一的分布。此外，我需要生成多个这样的函数，即当给定字符串"abc“时，函数A可能始终返回0.593927，而函数B始终返回0.0162524。我需要它是快速(这是一个数值模拟)，并有相当好的统计数字。我正在使用Python，并将满足于表单的答案：“这里是使用Python库实现它的简单方法”或“这里是您可以实现的算法”。如果在Python中没有快速实现的方法，我将直接切换到C。我意识到

浏览 6提问于2013-02-05得票数 3

1回答

使我的逻辑回归测试精度更接近使用Python的训练精度

、、

我有一个包含656个因子的篮球统计数据集。我正在使用逻辑回归分类器通过从团队2的统计数据中减去团队1的统计数据来预测胜利者和输家(团队1的胜利或团队2的胜利)。除了标准化之外，我如何提高我的测试集的准确性，使其更接近训练集的准确性，或者只是提高总体的准确性？我认为归一化是一种可能的解决方案，但由于我在做统计数据的差异，所以大多数值都在相同的范围内代码： X = final_data_array[:,:656] Y = final_data_array[:,656] X_train, X_test, Y_train, Y_test = train_test_split(X, Y) l

浏览 16提问于2019-04-03得票数 0

回答已采纳

2回答

在R中过滤聚类分析中的变量

、、、

我正在尝试对一个噪声很大的金融数据集运行聚类分析(PAM)。有超过100个变量，其中许多是高度共线的。考虑到噪声和共线性的数量，在整个列数组上运行聚类算法几乎是无意义的，我不希望使用PCA，因为我最终将得到每个集群的组件，而不是现有变量的范围，我计划进一步分析。在评估由10个变量组成的已定义组的聚类趋势(hopkin统计)时，我可以确定聚类是否可行。我的问题是，是否有一种方法可以在每个可能的组中循环霍普金的统计量，比如10个变量，这样我就可以对具有最佳霍普金统计量的组运行聚类算法，等等。我可能对此大错特错，但任何建议都是值得感谢的。

浏览 7提问于2018-08-16得票数 1

2回答

AUTO_UPDATE_STATISTICS无法更新某些索引的统计数据。为什么？

在我正在开发的系统中，我们看到一个特定的SELECT使用聚集索引扫描，而不是使用为这个SELECT创建的索引。我看了一下指数的统计数据，发现它们已经26天了。我用FULLSCAN更新了统计数据。现在，SELECT正在使用索引。 AUTO_UPDATE_STATISTICS一直在此数据库中启用。为什么没有更新统计数据？查看STATS_DATE()输出(下面的查询)： SELECT object_name = Object_Name(ind.object_id), IndexName = ind.name, StatisticsDate = STATS_DATE(ind

浏览 1提问于2010-11-25得票数 1

回答已采纳

2回答

预测自动补全背后的算法/理论？

、、、、

简单单词自动完成功能仅显示与已经键入的字符匹配的单词列表。但我想根据单词出现的概率对自动完成列表中的单词进行排序，这取决于之前键入的单词，依赖于文本语料库的统计模型。为此，我需要哪些算法和数据结构？你能给我一些好的教程的链接吗？

浏览 0提问于2012-07-12得票数 13

回答已采纳

2回答

给我指出NLP数据结构和搜索算法的正确方向

、、、、

我接到一个学校的作业，要做一个能够猜测输入语言的语言分析器。作业指出，这必须通过预先解析语言定义的文本并统计使用的字母，字母组合等，然后根据这些数据进行猜测来完成。我们应该使用的数据结构是简单的多维哈希表，但我想利用这个机会学习更多关于实现结构等的知识。我想知道的是要阅读的内容。我的算法知识非常有限，但我热衷于学习，如果有人能给我指明正确的方向。在没有任何实际知识的情况下，只是阅读不同的帖子，我目前正计划研究无向图作为字母组合的数据结构(并以某种方式将统计数据存储在图中)和boyer-moore的逐字搜索算法。我是不是完全走错了路，这些在这种情况下是不可能实现的，还是有其他更好的方法来解

浏览 2提问于2011-02-24得票数 1

3回答

如何检查用户选择算法

、、

我有一个算法，选择一个应该符合用户喜好的项目列表。我会跳过算法的细节因为保密问题..。现在，我试着想出一种方法，对一群人进行统计检验。我现在检查的方式是：算法每个用户都能得到最佳的结果。洗牌前5名，最低5名。按顺序列出他喜欢的结果(0 =最喜欢，9=不喜欢) 将用户结果与算法结果进行比较。我这么做是因为我认为，为了表明算法选择了好的结果，我需要输入一些不好的结果，并表明算法也知道它是一个不好的结果。所以我想问的是：把成绩低的结果混在一起是个好主意吗？如果没有，您是否知道如何获得关于算法与用户首选项匹配程度的良好统计数据(我们有用户可以选择内容)？

浏览 2提问于2011-06-25得票数 3

回答已采纳

1回答

Math.random() VS crypto.randomInt() - Node.js

、、、、

Math.random()和crypto.randomInt()在node.js中的工作方式有什么不同？如果我在循环中运行很长一段时间，是否有可能得到相同的结果，超过统计数据的次数？

浏览 45提问于2021-09-21得票数 0

1回答

根据现有真实数据生成合成数据(用Python)

、、、、

我正在寻找一种方法来生成用于异常检测的合成数据。我们有真实的数据，但是想要注入异常来检验模型(实际数据对于将来可能出现的异常来说太有限了)。我想模拟真实数据的统计特性，如均值、模式、标准差等，以创建合成数据，然后根据合理的极值注入异常(如果我们知道实际数据中每一列的统计特性，那么我们就可以推断出该列的极值可能是什么样子)。是否有任何Python包根据真实数据中已知的统计属性生成合成数据。我认为这类似于差别隐私，但我们这样做并不是为了保护隐私，也不需要一种过份的方法。科学知识-学习可以生成合成数据，但它似乎没有一种基于现有真实数据统计属性的方法。我可以做这样简单的事情： res = {}

浏览 0提问于2020-10-07得票数 1

1回答

MD5在SQL数据库和PHP脚本中的作用不同

、、、

最近，我创建了一个脚本来处理登录和注册我的游戏，它使用http_get方法更新统计数据。我成功地创造了一切，但是有一个问题。当用户注册时，它会插入PHP脚本生成的不同的md5字符串，因此，我无法比较密码。这就是我将md5字符串插入数据库的方式： $pw = md5($password); $insert = mysqli_query($connect, "INSERT INTO Accounts (username, password, email,reg_ip, wins, looses, experience) VALUES ('$username', &

浏览 1提问于2016-04-23得票数 0

1回答

我该如何在我的灰度视频序列上运行k均值呢？

、、、

我有一系列二维灰度图像，我想对其运行k均值聚类算法。我的数据以My的形式表示，其中p是帧数。统计工具箱中可用的matlab代码期望数据X以n-by p数据矩阵的形式出现，其中“X行对应点，列对应变量”。我能用这段代码吗？如何将我的数据调整成预期的格式？提前谢谢， N 附注：此外，如果可能的话，如果有人可以推荐其他的东西(比如mex函数)，我希望不使用统计工具箱中的函数。我会很感激的。

浏览 3提问于2013-11-19得票数 0

回答已采纳

1回答

有大量数据输入的多元回归和预测的最佳统计软件是什么？

、

我们需要一个健壮的统计软件，它可以处理1,000万到1,300万条记录数据集，作为支持业务决策的输入，主要是预测和多个回归分析。我们已经尝试过R，但是它不能处理这样的数据集。我们正在寻找可靠的客户支持，无论价格。你有什么意见建议？

浏览 0提问于2019-08-15得票数 0

1回答

多个数据集上多个算法的统计检验

、、

我是这方面的新手。在使用统计测试对算法进行比较时，我面临一些问题。本文给出了几种分类算法的Gmean结果。鲍鱼、平衡秤、Car、国际象棋是这里的数据集，ROS、RUS、RFS、NoS是算法. 如果我想用一些统计检验(如t检验、Friedmen检验、Wilcoxon检验等)来比较哪个数据集比其他数据集更好，那么我能用下表比较算法吗？ ROS RUS RFS NoS Abalone 0.003 0.0036 0.0039 0 Balance-scale 0.8858 0.8065 0.8

浏览 0提问于2020-01-10得票数 2

1回答

统计术语：“算法”是“模型”的同义词吗？

、、、

我有个术语问题。在统计学中，“算法”是“模型”的同义词吗？例如，当我拟合一个带有变量的广义线性模型，并为特定目的调整模型参数时，我是否可以报告我“开发了一个算法”，或者这是一个错误的陈述？如果是的话，我所做的最好的描述是什么？开发了模型/安装了模型/建立了模型.？

浏览 7提问于2022-08-24得票数 1

3回答

统计、机器学习和数据挖掘

、、

我目前正在学习数据挖掘，我有以下问题。机器学习和数据挖掘之间的关系是什么？我发现许多数据挖掘技术都与统计相关，而“听说”数据挖掘与机器学习有很多关系。所以我的问题是:机器学习与统计学密切相关吗？如果它们不是密切相关的，那么是否有这样的分工，将侧重于统计技术的数据挖掘与以机器学习技能为重点的数据挖掘分开？因为我发现一些研究生院的统计学系开设了数据挖掘课程。

浏览 8提问于2011-09-21得票数 1

回答已采纳

3回答

多维空间的归一化，这是什么算法？

、、、

我不是一个训练有素的统计学家，所以我为一些词的错误用法道歉。我只是想从Weka近邻算法中获得一些好的结果。我将在我的解释中使用一些冗余作为一种尝试让概念理解的方法：有没有一种方法可以使多维空间标准化，使任何两个实例之间的距离始终与对因变量的影响成正比？换句话说，我有一个统计数据集，我想使用“最近邻”算法来查找与指定测试实例最相似的实例。不幸的是，我的初始结果是无用的，因为两个在值上非常接近的属性与因变量的相关性很弱，这将错误地偏向距离计算。例如，假设您正在尝试根据汽车数据库查找给定汽车的最近邻居:制造商、型号、年份、颜色、发动机大小、车门数量。我们直观地知道，品牌、型号和年份对价格的影响

浏览 0提问于2015-11-02得票数 1

1回答

如何规划一个避免过度拟合的模型分析？

、

来自统计学，我正在尝试学习机器学习。我读过很多关于ML的教程，但是没有真正的训练。我正在做一个小项目，我的数据集有6k行和大约300个特性。正如我在教程中所读的，我将我的数据集分成一个训练样本(80%)和一个测试样本(20%)，然后用交叉验证(5倍)对我的算法进行训练。当我重新运行我的程序两次(我只测试了KNN，我现在知道这是非常不合适的)，我得到了真正不同的结果，以不同的敏感性，特异性和准确性。我想，如果我重新运行程序，直到指标是好的，我的算法将被过度，我也猜这将是因为重采样的测试/培训样本，但请纠正我，如果我错了。如果我要尝试很多算法来看看我能得到什么，我应该在某个地方修复我的样

浏览 0提问于2019-03-14得票数 4

回答已采纳

7回答

如何制作voronoi树状地图？

、、

我想为统计数据制作voronoi树状图，比如您知道如何在Perl、PHP、Ruby或Python中做到这一点吗？

浏览 13提问于2009-05-08得票数 2

回答已采纳

2回答

当没有达到收敛时，SAS的PROC GENMOD返回什么值？

、

更具体地说，它们是上一次迭代结束时的统计数据吗？还是别的什么？

浏览 4提问于2012-10-15得票数 0

回答已采纳

3回答

关于使用机器学习工具Weka的问题

、、、

我正在使用Weka的资源管理器功能进行分类。所以我有我的.arff文件，有两个数值特征，我的类是一个二进制的0或1(例如{0,1})。示例： @RELATION summary @ATTRIBUTE feature1 NUMERIC @ATTRIBUTE feature2 NUMERIC @ATTRIBUTE class {1,0} @DATA 23,11,0 20,100,1 2,36,0 98,8,1 ..... 我加载这个.arff文件，使用10折交叉验证(没有测试文件)，然后选择NaiveBayes，然后我对数据进行分类，结果显示:5个标签错误，100个标签正确。到目前一切尚好。

浏览 4提问于2009-11-27得票数 4

回答已采纳

7回答

什么是一个好的.Net统计数学包？

、、

我正在寻找一个做高等数学，统计，统计分布等的图书馆。目前我正在寻找做二项分布和泊松分布的东西。

浏览 3提问于2009-10-12得票数 37

回答已采纳

2回答

对于高维数据流中的孤立点检测，聚类特征和微观聚类是否具有较好的汇总统计量？

、、、、

我在处理数据流中的离群点检测。我正在寻找一种方法来总结我的数据并获得重要的统计数据，如均值和方差等。我想知道集群特性或微集群是否合适。

浏览 0提问于2019-12-22得票数 0

1回答

有没有一个公式来评定WebRTC音频质量为优秀、良好、一般或差？

、、、

我已经能够使用RTCPeerConnection.getStats()接口获得WebRTC音频调用的各种统计数据(抖动、RTT、丢包等)。我需要将整体呼叫质量评为优秀、良好、一般或差。有没有使用WebRTC统计数据来给出总体评级的公式？如果不是，我应该给哪个(哪些) WebRTC统计数据更多权重？

浏览 74提问于2019-01-10得票数 6

回答已采纳

2回答

如何找到正文的主题

、、、

我知道，在NLP中，确定句子或段落的主题是一个挑战。然而，我试图确定像维基百科这样的文章的标题可能是什么(当然，没有使用其他方法)。我唯一的想法就是找到最常用的词。关于纽约市的文章，这些都是最重要的结果： [('new', 429), ('city', 380), ('york', 361), ("'s", 177), ('manhattan', 90), ('world', 84), ('united', 78), ('states', 74), ('

浏览 5提问于2016-07-25得票数 0

回答已采纳

2回答

估计行与实际行之间的关系，对性能有什么影响？

、、、

我有一个执行非常快的查询，但是在生产中，当服务器负载很高时，它的性能就没那么好了。我怀疑这可能是估计的行远低于执行计划中的实际行。我知道服务器统计数据并不过时。我现在正在优化一个新的查询，我担心它在生产中会遇到同样的问题。返回的行数以及CPU和读取都在我的数据管理员所要求的指定阈值内。正如您在上面的Sentry计划中所看到的，有几个临时表可以估计单个行，但返回100倍的行数。我的问题是，即使行数很少，行的差异是否会导致服务器性能的瓶颈？第二个问题，如果问题不是一个糟糕的缓存计划或陈旧的统计，还有什么问题会导致一个计划显示这样的差异？

浏览 1提问于2019-11-26得票数 0

回答已采纳

3回答

在列表和集合中搜索元素的复杂度

、、

考虑一下，如果我必须搜索表中的特定行，根据ORM，每一行都是我相信的对象。我没有深入研究JDBC，所以更好的做法是，这些POJO对象是在哪里收集或保存的？在集合或列表中？我试图找出在列表Vs中搜索元素的复杂性。设置我做了什么？ private void searchSet() { Set<String> names = new HashSet<>(); names.add("srk"); names.add("lastminute"); names.add("mo

浏览 0提问于2013-05-23得票数 1

3回答

具有删除旧样本能力的C++累加器库

、、、

在Boost.Accumulator中，您可以将样本添加到累加器，然后从累加器中提取统计量。例如： acc(1.) acc(2.) acc(3.) cout << mean; // 2 该库有许多更复杂的统计量，如skewness、kurtosis或p_square_cumulative_distribution。我想做的是这样的： acc(1.) acc(2.) acc(3.) std::cout << mean(acc); // 2 acc.pop() // withdraw the first value (1.) std::cout << mean

浏览 0提问于2012-09-26得票数 7

1回答

如何在不存储大量数据的情况下生成性能指标？(分位流)

、

这是一个很常见的问题，但很难找到答案。我想测量web服务器的性能，第95百分位数的响应时间，x，API，调用，算法，性能，性能，磁盘，I/O，等等。但是，你知道，这是大量的数据，我不想存储它，因为这是用于生产。另外，我不想花太多的CPU时间来计算我的软件有多慢。如果你搜索答案，你会看到许多关于古代算法的引用，这些算法将大量数据存储在垃圾箱中，或者保存大量随机样本数据。常见的结果包括P平方和二进制，并且注意到很难找到任何合适的实现，因为虽然它们通常被认为是垃圾，但是没有人使用它们。你还会找到听起来很聪明的答案，但你无法实现，因为一半的解释都缺失了。也许如果你是个统计学专业的学生，你会明白的意

浏览 0提问于2019-12-08得票数 0

1回答

有产品拍照识别，并核对目录产生分类库存的文档的软件开发能力吗？

、、

我公司有大量产品无法分类统计库存，想要有一个可以拍图生成产品目录，后期配送时拍图分类上货帐可否实现

浏览 354提问于2020-03-09

2回答

为什么拟合优度检验拒绝模型？

、、

我正在用SAS (9.2)中的PROC逻辑建立一个大学申请者数据集的模型。目标变量是“登记y/n”，我正在对13个变量(指标、连续变量和类的混合变量)建模，包括:提交的申请数量、参加的活动数量、申请者年龄等。我使用了整个数据集的50%来训练模型，这给了我一个样本大小(用于训练)近15,000次观察。当我运行PROC逻辑时，输出会报告大多数变量在<.0001时都非常重要。 “检验全球空假设:BETA=0”统计还报告说，该模型在<.0001上很好，而关联统计表报告了预测概率的高百分比(90%+)是一致的。所有这些看起来都很棒，直到我找到了拟合度的偏差统计数据。Pearson、De

浏览 2提问于2017-04-18得票数 0

回答已采纳

1回答

一种统计优化的遗传算法选择算子

、、、

我熟悉遗传算法的选择方法，如随机通用抽样、轮盘赌、锦标赛等。然而，我意识到这些方法接近于统计学中使用的随机抽样。我想知道是否有基于群体中包含的个体的某些特征的接近统计聚类的实现方法，而不必在进行样本之前首先检查所有个体的特定特征。从本质上讲，我希望减少其他采样方法的随机性，同时保持每个种群的足够多样性。

浏览 1提问于2011-10-16得票数 2

回答已采纳

1回答

web应用程序的实时预测建模工具

、

我有一个购物网站。我想要建立一个简单的预测模型来预测用户在一次访问后购买某一产品的可能性(在每个页面上花费的时间，她来自哪里，她有多少评论等)，他可能离开一个页面等。在Ruby on Rails、Python或Java中，有哪些工具可用于此任务？典型的统计建模技术，如逻辑回归，线性回归在这种情况下有效吗？谢谢。

浏览 2提问于2012-05-11得票数 2

回答已采纳

3回答