使用pandas计算聚合结果的频率

、

我对与我下面追求的方法完全不同的方法持开放态度。在SQL中，在探索数据时，我经常使用如下内容：FROM SELECT House_ID, MAX(Date_Time) AS Max_DT ) MeasureMax 我试图在Pandas具体地说，我不知道聚合列叫什么。如果我执行descri

浏览 0提问于2017-12-18得票数 0

回答已采纳

1回答

如何在不同的交易时段使用createDailyTimeSeriesEngine？

、

首先，我认为createDailyTimeSeriesEngine是非常简单和有效的。不同交易所的刻度保存在同一个刻度流表中。不同的交易所有不同的交易时间。我应该如何聚合ticks，以及如何使用createDailyTimeSeriesEngine？

浏览 12提问于2021-11-05得票数 0

2回答

以HBase为数据源计算文档的TF-IDF

、、、

我想要计算存储在HBase中的文档的TF (词频)和IDF (逆文档频率)。你能引导我通过吗？我已经看过Mahout 0.4上的BayesTfIdfDriver了，但我并没有领先一步。

浏览 3提问于2012-06-09得票数 1

2回答

如何根据较低的频率进行去重

、

我有一张像这样的桌子我希望能够保持最高频率的品牌ids。例如，在奥迪的情况下，两个in具有相同的频率，因此只保留一个。在梅赛德斯-奔驰的情况下，保留后一个，因为它的频率是7。这是我的数据框架： {0: 'audi', 2: 'bmw', 3: 'dacia

浏览 1提问于2020-10-15得票数 0

1回答

重要条款桶总是空的

我有一组帖子，它们的标签被导入到Elasticsearch中。", "bar"], created_at: "..." }GET _search "aggregations": { "significant_terms": { "field": "tags"

浏览 0提问于2018-04-22得票数 1

回答已采纳

1回答

Anaconda - CSV的显示表输出

、、、

我正在尝试将.csv文件的输出作为一个带有列标题的表。我试图显示为表与频率计算。到目前为止，我可以用这个代码计算频率：d = pandas.read_csv('gapminder.csv', low_memory=False)f = d.groupby('

浏览 0提问于2015-12-12得票数 1

回答已采纳

1回答

使用聚合检索查询结果中的术语的文档频率

T的每个元素在整个索引中出现的频率(->文档频率)是多少次？有了聚合，就不一样了。

浏览 5提问于2014-11-06得票数 4

回答已采纳

2回答

熊猫总数的计算

、、

我试图在pandas聚合中执行计算。我希望计算结果包括在总和中。下面是我正在尝试的代码。我也使用熊猫包作为df。(['type', 'name']).agg({'values': [np.min, np.max, 100 * sum([('values' > 3200)] / [np.size])]})100 *

浏览 3提问于2015-05-28得票数 2

回答已采纳

1回答

改进Pandas在火花放电中的应用

、、、、

我必须在Pyspark中的滑动窗口内执行聚合。特别是，我必须做以下工作：这些任务必须在带有.rangeBetween(-100 days, 0)的滑动窗口中计算。我可以很容易地通过构造一个Pandas来实现这一结果，它将Pandas中的某些列作为输入，将它们转换为Pandas DataFrame，然后计算</em

浏览 5提问于2021-04-11得票数 2

1回答

使用基于聚合的动态过滤器过滤Rails3模块

、、

在Index视图中，我使用will_paginate gem对结果集进行了分割。Locations: [ New York (100) | Paris (51) | ... ] 我考虑过使用一个辅助函数来计算基于结果集合的

浏览 0提问于2010-12-28得票数 0

回答已采纳

1回答

Elasticsearch:从聚合中的存储桶中访问值

、

我想创建单词云来可视化Elasticsearch查询的结果。在单词云中，应该显示与查询匹配的文档中出现的所有术语。因此，我需要计算出现在某个任意文档集中的所有术语的词频。问题是我需要文档中所有术语的实际频率，而不仅仅是一个术语出现在其中的文档数量(这很容易使用术语聚合或facet来解决)。car bus bus"} {"index":{"_i

浏览 2提问于2014-05-13得票数 8

1回答

在Python中聚合组并从某个计数中吐出百分比

、、、

我试图找出如何通过在新列上创建百分比和求和来聚合Pandas数据框架中的组。例如，在下面的数据框架中，我有A、B、C和D列，我想按A中的组进行聚合，而C应该是(频率'1‘除以不缺失值的频率)的一个百分比，而D应该是不缺失值的总和。import pandasimport numpy as np df = Dat

浏览 1提问于2015-09-14得票数 4

回答已采纳

4回答

在Python或R中，有没有更有效的方法来聚合数据集和计算频率？

、、

我有一个数据集0，1，1，2，我想要聚合它。为此，我必须计算“频率”并将其放入DataFrame中:1/4。下面是代码。.sum()value 1 0.50有没有一种更有效的方法来聚合数据集并在Python或R中自动计算频率？

浏览 0提问于2019-03-16得票数 1

2回答

逻辑来代替聚合函数WHERE子句

、、

我正在计算大表上值的频率。由于聚合函数的结果会导致某些行为零，所以我想跳过这类行。我本可以使用NULLIF(..)，但我不想返回一个零值。聚合函数在WHERE子句中是不允许的。

浏览 1提问于2020-07-02得票数 0

回答已采纳

1回答

熊猫:按直方图结果编制索引数据

、、

我试图用它们的概率来索引数据(用一个简单的直方图来估计)。目的是以一个概率小于某个阈值的概率来选择序列中的项目。我有一系列整数值，例如：import numpy as np 然后我像这样计算它们的直方图： tmp = {"series" : series, "count" :

浏览 5提问于2012-04-13得票数 3

回答已采纳

1回答

在R中使用hclust进行加权观测频率聚类

、、、

我有一个包含500K观察值的大型矩阵，需要使用分层聚类进行聚类。由于大小，我没有计算距离矩阵的计算能力。为了克服这个问题，我选择聚合我的矩阵来合并那些相同的观察值，从而将我的矩阵减少到大约10K个观察值。我有这个聚合矩阵中每一行的频率。我现在需要将此频率作为权重合并到我的分层聚类中。这些数据是500K观察值的数值和分类变量<em

浏览 15提问于2017-07-25得票数 1

1回答

在使用R的列中存储的文本中出现的某个单词

、

因此，我在表格中有Date，text和Likes列，我想要计算某个单词在一列文本中出现的频率(每列最多出现1次)，以及不出现的频率。我想通过显示结果来绘制结果，如图所示但我想与不同颜色的搜索词的“发生”和“不发生”的点，每月在y轴和喜欢在x轴上聚合它如果你能帮助我完成这个挑战，那就太好了。作为更新，我这里有可用的样本数据

浏览 0提问于2021-03-29得票数 0

1回答

使用pandas内置频率模拟半年度频率

、

我使用的是带有DatetimeIndex索引的pandas时间序列，我需要支持每半年一次的频率。基本的半年频率有1H=Jan-Jun和2H=Jul-Dec，但有些序列的最后一个月可能是12月以外的月份，例如1H=Dec-May和2H=Jun-Nov。我想我肯定可以通过创建一个从熊猫的DateOffset类派生的自定义类来实现我想要的。然而，在我这样做之前，我很好奇

浏览 0提问于2012-11-15得票数 0

回答已采纳

1回答

使用mongodb聚合框架计算频率

、、、、

我试图根据10秒的间隔来计算数据库中文档的频率。03-31T22:30:50.000Z", _id: "5339ec9a08eb125965f2eae5"] }); })}; 这是其结果console.l

浏览 1提问于2014-04-04得票数 2

回答已采纳

1回答

划分未堆叠数据的两列

、

我有两栏在熊猫的数据。job column = ['aa','bb','aa','aa','bb','cc'] #these are example values from column 2 of my pandasdata framemy_counts= pdata.groupby([

浏览 0提问于2014-08-30得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在不同的交易时段使用createDailyTimeSeriesEngine？

以HBase为数据源计算文档的TF-IDF

如何根据较低的频率进行去重

重要条款桶总是空的

Anaconda - CSV的显示表输出

使用聚合检索查询结果中的术语的文档频率

熊猫总数的计算

改进Pandas在火花放电中的应用

使用基于聚合的动态过滤器过滤Rails3模块

Elasticsearch:从聚合中的存储桶中访问值

在Python中聚合组并从某个计数中吐出百分比

在Python或R中，有没有更有效的方法来聚合数据集和计算频率？

逻辑来代替聚合函数WHERE子句

熊猫:按直方图结果编制索引数据

在R中使用hclust进行加权观测频率聚类

在使用R的列中存储的文本中出现的某个单词

使用pandas内置频率模拟半年度频率

使用mongodb聚合框架计算频率

划分未堆叠数据的两列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐