Pandas合并无重复列的混合长度数据集

、

我正在尝试合并几个混合的数据帧，将一些有时存在于其他数据帧中的缺失值合并到一个组合数据集中，一些数据帧也可能包含额外的列，然后这些列应该被添加，并且所有其他行都有NaN作为值。这基于一个或几个列，行索引没有意义，真正的dataset有许多列，因此手动删除任何内容都是不可取的。因此，本质上，基于一个或多个列合并多个数据帧，确定任何非NaN值的优先级，或者如果存在两个冲突的</

浏览 17提问于2020-11-27得票数 0

回答已采纳

2回答

如何将混合数据类型的制表符分隔文件加载到numpy或pandas中？

、、

我有一个制表符分隔的数据集，它加载到Excel中，在数据类型方面看起来像这样，但维度为83x 23275。正如您所看到的，此数据集是混合类型，第0行和第0列的类型为string。或numpy，我如何加载这类数据并访问与其正确标签相关联的数字？我甚至可以使用数据类型字符串的两个标签向量(行和列的长度分别为83和23275 )，然后

浏览 0提问于2015-11-12得票数 0

2回答

如何消除潘达斯DataFrame行中长度3或更长的重复？

、

我有一个数据集，它完全由表示空间数据的浮点值组成(基本上是一个曲面的水平切线)。有时，产生这些值的传感器会错误地这样做，并会在一行中重复多个值。我希望删除长度3或更长的重复序列，同时保留重复值的第一个值和值的所有其他实例(包括长度2的序列)。在行的开头有一个4长的0.2重复，在末尾有一个长达2的0.2重复。我想

浏览 5提问于2020-06-23得票数 1

回答已采纳

1回答

如何从受另一列约束的数据库中提取一列数据

、、

这是在Python 2中完成的，我使用的是Pandas。虽然我喜欢用SQL来做这件事，这可能会让我的生活变得更容易，但这不是一个选择。我有两个数据帧，x和y。x(BuyerNames)‘和’y (Buyer)‘中的条目属于同一集合，并且共享列中的数据通常是一致的。我想创建一个dataframe，它是y的子集，称为y*，这样对于具有相应索引的行，'Buy

浏览 10提问于2019-01-10得票数 0

2回答

在DataFrame中爆炸相同长度的多个列表

、

我有一个Pandas DataFrame，在我想要分割的列中有几个列表。每个列表都有相同的长度，它们必须在相同的索引中被分割。我现在使用的是来自的建议，但我无法让它发挥作用：import pandas as pd split_size我认为问题在于chain.from_iterable的用法，但没有它，我只需要重复列表列

浏览 0提问于2019-08-28得票数 2

1回答

从长到宽重新塑造数据集(或用信息丰富主数据集的不同方法)

、

来自STATA的我很难重塑我的数据，或者我在如何处理python /a ML问题上弄错了。我有多个数据集，我将在这里简要描述： +-----------------------------------------|多个附加数据

浏览 4提问于2020-11-29得票数 1

回答已采纳

2回答

ValueError:取值长度与索引长度不匹配|计算日期差异

、、

我有一个数据集/pandas df，大约有50列--列是字符、数字和日期的混合。其中5列是日期，标签为Meeting1-Meeting5，我正在尝试计算会议日期之间的天数。我的df一般是这样的：123456789datetime from datetime import

浏览 3提问于2017-09-18得票数 0

2回答

比较两个长度不等的数据帧的行

、、

我试图从两个长度不等的数据帧中计算两列的值，以找到两种情况： (这是我不确定这是否是最佳方法的地方)--获取id1、id2组<

浏览 0提问于2017-10-08得票数 1

回答已采纳

3回答

我想用一个DataFrame有效地分割一个DatetimeIndex (类似于重采样或groupby操作)，但是所需的时间切片是不同的。通过循环(请参阅下面的代码)来实现这一点相对容易，但是随着时间序列的增加，多个片段很快就会变慢。对此/提高速度有什么建议吗？import pandas as pd, datetime as dt, numpy as np idx = pd.DatetimeIndexrow.star

浏览 5提问于2017-10-24得票数 1

回答已采纳

3回答

如何将dask.dataframe与自定义dsk图一起使用

、

我将尝试重新表述我的问题：id,names,amount387,Tim,208129,Patricia

浏览 5提问于2015-10-21得票数 2

回答已采纳

3回答

Pandas.resample为非整数倍频

、、、

为了使数据集与另一个数据集同步，我必须将数据集从10分钟间隔重采样到15分钟间隔。基于我在堆栈溢出的搜索，我有一些如何继续的想法，但是没有一个能提供一个清晰清晰的解决方案。可能的解决办法将所有数据<e

浏览 3提问于2014-10-27得票数 2

回答已采纳

2回答

基于查找更改pandas中的行值

、

我有两个熊猫数据帧。一个包含实际数据，第二个包含行索引，我需要用一些值替换它。I3 43455467 40 014 I3 # # 014 I 所以要根据record_id查找来改变相应的行索引值这里(1 2 4 011)

浏览 0提问于2017-04-05得票数 1

2回答

如何将数据从长转换为宽，并在索引中按年对值进行分组？

、、、、

下面的代码与我使用的前一个csv一起工作，两个csv的列数量相同，列的名称也是相同的。没有的csv数据from pandas import DataFramefrom matplotlib importprint(group

浏览 3提问于2020-09-20得票数 6

回答已采纳

4回答

使用财务数据从数据帧计算回报

、

我有一个包含每月财务数据的数据框架：Out[89]: In [90]: returns = (vfiax_monthly.open[1:] - vfiax_monthly.open[:-1])/vfiax_monthly.open[1:]In [103]: returns = (vfiax

浏览 1提问于2012-11-15得票数 24

回答已采纳

1回答

使用索引从XArray的DataArray中提取值到列

、、

所以，我做的事情可能有点不正统，我有90亿像素光栅地图，基于NLCD，我想从这些栅格中得到像素的值，这些像素大约有5亿：上面的代码为我提供了一个数据帧，因为长度</em

浏览 0提问于2022-06-02得票数 0

2回答

日内TimeSeries的多指标结构(10 min价格数据)

、、、、

我每十分钟有一份日内价格的文件。一天0:41次。每次约会重复42次。下面的多个索引应该会将重复的日期“折叠”为一个时间。换句话说，09:30是每天的第一次，16:20是最后一次:I不能在16:20-09:30之间的价格天之间的重叠差。差异应该从09:40-09:30开始，然后结束为16:20 - 16:10，对于datafr

浏览 1提问于2012-11-16得票数 3

1回答

神经网络与随机森林性能差异

、、、、

我想用PyTorch对神经网络进行一些实验，所以我尝试了一个简单的热身练习，但我无法完全理解结果。该数据集上的简单线性回归的均方误差

浏览 0提问于2019-12-11得票数 1

回答已采纳

2回答

熊猫DataFrame从不规则时间序列索引中重新采样

、、、

我想将一个DataFrame重采样到每5秒一次，其中原始数据的时间戳是不规则的。很抱歉，如果这看起来是一个重复的问题，但是我对数据时间戳的内插法有问题，这就是为什么我在这个问题中包括了我的DataFrame。显示了我想要的结果，但我不能使用这里建议的traces包。我用pandas 0.19.0。只是重采样到1s已经产生了错误的结果。40000.000000 19

浏览 0提问于2018-03-09得票数 6

回答已采纳

1回答

变长输入序列Keras中的GRU/LSTM

、、

我所面临的问题是以以下形式提供的数据：>>> import pandas as pd >>> pd.DataFrame([[1, 2, 3],[1, 2,我的整个数据集要大得多，但我想先了解概念部分，然后再抛出模型。我想要学习的任务是给出一个互动的顺序，哪一组是由人选择的。更具体一点，我希望有一个包含所有组(有3个组

浏览 0提问于2019-04-02得票数 6

回答已采纳

2回答

字符串中包含的10大数的最佳压缩

、、、

我正在为包含基数10位的字符串编写压缩和解压缩函数。我认为，由于仅对10个字符进行操作，所以存在一个可以表示大字符串的小得多的字符串。例如，我想要一个表示1000位数字的字符串(例如)并“压缩它”。这些长度的数字超过了我正在使用的语言JavaScript中的数字类型。因此，数字操作/转换是不可能的。我使用的压缩软件()不压缩数字。是否有某种可以用来压缩数字的算法？我不是在寻找执行速度，而是

浏览 4提问于2016-02-13得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将混合数据类型的制表符分隔文件加载到numpy或pandas中？

如何消除潘达斯DataFrame行中长度3或更长的重复？

如何从受另一列约束的数据库中提取一列数据

在DataFrame中爆炸相同长度的多个列表

从长到宽重新塑造数据集(或用信息丰富主数据集的不同方法)

ValueError:取值长度与索引长度不匹配|计算日期差异

比较两个长度不等的数据帧的行

数据帧中可变长度时间片的高效提取

如何将dask.dataframe与自定义dsk图一起使用

Pandas.resample为非整数倍频

基于查找更改pandas中的行值

如何将数据从长转换为宽，并在索引中按年对值进行分组？

使用财务数据从数据帧计算回报

使用索引从XArray的DataArray中提取值到列

日内TimeSeries的多指标结构(10 min价格数据)

神经网络与随机森林性能差异

熊猫DataFrame从不规则时间序列索引中重新采样

变长输入序列Keras中的GRU/LSTM

字符串中包含的10大数的最佳压缩

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐