statsmodels.api.GLM (广义线性模型)的奇怪抽样结果

文章/答案/技术大牛

发布

1回答

、

我在使用python工具"statsmodels.api.GLM“时遇到了一个问题，我无法理解。我来这里寻求帮助。三次和自然三次样条”的示例(请参阅)。在对数据进行拟合后，我尝试预测x的给定位置的值(例如，以下代码中的xp00和xp01 )。然后我发现，一旦请求的位置与训练x集(即xp)具有不同的min和max (即xp01)，结果就变成了其他东西，而不是我的过渡期望，即在相同的位置，预测应该是完全相同<e

浏览 85提问于2021-06-24得票数 0

1回答

用抽样数据分析api奇怪的结果

、

经过几次测试后，我注意到一种奇怪的行为，我将以一个实际的例子继续。我需要知道是什么关键字把人们带到一个给定的网址，我想知道有多少点击，我从这些关键字。例如，对于我的url /programmazione/lo-schiaccianoci-in-3d-andrei-konchalovsky-2-dicembre-2011.film，我得到了以下结果：，我就会有奇怪的行为。如果我将请求扩展到上一次请求的同一个月

浏览 1提问于2011-12-27得票数 1

回答已采纳

2回答

GLM和带有statsmodel的Logit模型有什么不同？

、、、、

谁能用统计模型解释一下广义线性模型和逻辑回归模型表之间的区别？为什么在执行逻辑回归时，两个模型得到的结果不同？

浏览 2提问于2020-06-28得票数 3

1回答

Cox模型的一致性值与mlr计算的c-指标不同。

、、

如果在mlr中使用带5倍交叉验证的重采样来训练cox模型，则通过打印每个折叠的Cox模型摘要输出的一致性值与由mlr计算的cindex值不同。我解释得不对吗？还是我用了太多的预测器？在下面的示例中，mlr返回第一个折叠的cindex值为0.5093809，但cox摘要输出报告的一致性为0.76。我的数据可以在这里下载：library(survival) mydata <- read.csv(file=&qu

浏览 0提问于2018-11-29得票数 0

回答已采纳

1回答

glmulti函数(来自gmulti包)需要set.seed值吗？

、、

我正在使用glmulti来选择一组候选的广义线性模型，我的变量重要性值和“最佳”模型在每次运行模型时都会不断变化。我很难理解这是为什么，glmulti需要一个set.seed值才能使结果可重现吗？

浏览 3提问于2018-10-24得票数 1

3回答

利用剪影评分对滑雪运动员进行有效的k均值评价

、、

我已经运行了各种k的聚类，现在希望用sklearn实现的剪影评分来评估不同的结果。试图在没有抽样的情况下运行它似乎是不可行的，而且耗时长得令人望而却步，所以我假设我需要使用抽样，即： metrics.silhouette_score(feature_matrix, cluster_labels我之所以问这个问题，很大程度上是因为我的初步测试(使用sample_size=10000)产生了一些非常不直观的结果<

浏览 0提问于2014-05-15得票数 14

1回答

当参数已知时，如何从自定义分布中采样？

、、、

目标是从已知参数的分布中获得样本。例如，自定义分布是p(X|θ)，其中θ是K维的参数向量，X是N维的随机向量。目的不是从参数的后验分布中抽样，而是想从自定义的分布中抽样。从一个简单的从伯努利分布中抽样的例子开始。pymc3 source code step = pm.Metropolis() samples = pm.sample(1000, step=step) 我预

浏览 34提问于2019-07-01得票数 2

回答已采纳

2回答

为什么梯度增强机(GBM)不使用尺寸采样？

、、、

GBM和随机森林一样，在不同的数据集样本上构建每棵树，因此，遵循集成模型的精神，产生更高的精度。然而，我还没有看到GBM被用于每一棵树的维数抽样，就像随机森林中常见的做法一样。是否有一些测试表明，用GBM进行的尺寸采样会降低其精度，因此无论是在文献形式还是在实际经验中，都避免了这种情况。

浏览 0提问于2014-11-25得票数 8

回答已采纳

1回答

在论文中报告Moran的i测试结果

、、

我已经使用莫兰的i检验(DHARMa包)在一个广义线性模型中测试了空间自相关性。我得到了观察值，期望值，标准差和p值的结果，结果是没有自相关性。如何在科学论文中报告Moran's I的结果？P值本身是否足够，或者我是否应该报告任何其他结果？谢谢

浏览 5提问于2020-04-21得票数 0

1回答

关于Keras的跳过图和抽样表实用程序的混淆

、、、

我对ML相当陌生，所以作为一个学习练习来熟悉Keras，我正在尝试从dataset中学习一些word2vec风格的嵌入。我对跳频实用程序的行为感到困惑，特别是应该从制作_取样_表格填充的抽样表参数。我理解它背后的想法，但我看到了一些奇怪的结果。在没有抽样表的情况下，生成例程图和标签很好：print("pairs

浏览 0提问于2018-03-18得票数 4

1回答

回归克里金的Logistic函数

、、、、

我想要执行回归克里格(RK)的二进制存在缺位和主机网格数据作为一个常量预测。我曾经用逻辑函数来估计二元结果和预测因子之间的关系，但是我认为它不是通过RK假设吗？预测变量在模型中没有显着性。代码的数据： colClasses = c("integer05, Adjusted R-squared: -0.007861 F-statistic

浏览 1提问于2015-04-02得票数 2

回答已采纳

3回答

使用R的Proc GLM (SAS)

、

我需要测试哪些影响，我应该包括在我的模型中对奶牛的遗传评估。在SAS中，我会使用proc。paula1; set paula0;class year herd season;run;anova(model1) 我怀疑有什么问题，因为所有的影响在统计学上都是显着的，即使我包括了与该特性无关<

浏览 8提问于2014-11-22得票数 4

回答已采纳

1回答

广义线性混合效应异方差模型

我的变量是在一个随机区组上测量的，其中我的治疗方法是23次抽样设计。我有3个完整的区块和6个样本每区块。示例dataframe有4个响应变量(LH、REN、FTT、DFR)、Accesion (处理)、Bloque (块号)和绘图(即表示次抽样的变量)。(log、boxcox、power等)之后，几乎所有100个响应变量的数据都是非正常的和异方差的。大多数变量呈现出不同方差的x平方分布或泊松分布。

浏览 2提问于2017-08-21得票数 4

1回答

分析API与web数据不匹配

、

我知道这是其他地方问过的问题，但我还没有找到一个特别有用的答案。据我所读，这有时可能是使用的查询类型的一个问题。下面是我一直在使用的东西：'dimensions':'ga:medium', 'metrics': 'ga:u

浏览 6提问于2015-06-15得票数 0

回答已采纳

4回答

从SQL DB中提取(抽样)时间序列

、

我有一个MS数据库，其中包含带有时间戳的值。我的结果表如下所示：03.01.2016 1129.01.2016 3301.03.2016现在，我需要从这里提取每周的数据：(例如，星期五抽样)01.01.2016 11 // friday05.02.2016

浏览 5提问于2016-08-09得票数 1

回答已采纳

1回答

统计模拟结果中的奇异显带

、、、

因此，我目前正在选修一门统计课程，我们一直在谈论抽样变化。我构建了一个Web应用程序来执行抽样模拟，并在使用1000这样的良好样本大小时显示结果(cobra5707.dx.am/SampleSim)，得到良好的正态分布。0.45,1000,10000的结果：然而，当样本大小不是一个很好的数字时，产生的直方图就会出现奇怪的空白。结果为0.45,808,10000

浏览 3提问于2016-02-26得票数 0

回答已采纳

1回答

截距为零的随机效应方差

、

我在R中使用普通的LMM运行功率分析，我有七个输入参数，其中两个不需要测试(否)。年复一年而不是。)。其余5个参数为残差、截距和斜率的截距、斜率和随机效应标准差。考虑到我的响应数据(年份是模型中唯一的解释变量)被绑定在(-1，+1)之间，拦截也在这个范围内。然而，我所发现的是，如果我用给定的截距和斜率进行1000次模拟(我在10年内将其视为常数)，那么如果随机效应拦截SD值低于某一值，就会有许多模拟，其中随机效应拦截SD为零。这个问题是由于我强制的范围是(-1，+1)吗

浏览 2提问于2014-10-31得票数 4

回答已采纳

1回答

在Azure门户中绘图之前，从应用程序洞察力中删除重复的自定义度量事件

、

在绘制Azure门户中的数据之前，是否有一种基于itemId的事件解除欺骗的方法？一个更具体的例子是：我正在运行一个由事件触发的算法，结果是奖励。该算法一天可触发数十次，奖励为正负浮点值。然而，有时我对这个结果感到惊讶(比如说在过去的12小时里，奖励的总和是惊人的负数)，在仔细检查时，我发现有几个大的负面结果被重复了。进一步的调查表明，这已经发生在其他事

浏览 4提问于2020-09-16得票数 0

回答已采纳

1回答

如何缩小列表中的数据范围

我运行的一个python脚本遇到了一个问题，该脚本试图从打印的输出中获取PyTrends ()上22个热门主题之一。我尝试创建一个从1到22的随机数，然后使用它从python shell的第176-198行打印的22个结果中选择一个。Data = str(Data) print (Data) <

浏览 2提问于2018-05-06得票数 1

1回答

什么时候应该对数据进行过采样？

、、、

我的数据不平衡。因此，我需要在培训前应用抽样技术(抽样过少或过抽样)。当我申请低采样时，loss和val_loss，以及acc和val_acc都表现出很好的适应性。我应该期待什么结果？

浏览 0提问于2021-09-07得票数 3

点击加载更多