Vaex数据帧和表达式:每n行过滤一次(Python)

文章/答案/技术大牛

发布

1回答

、、

我有一些相当大的硬盘文件(10e9行，大约100 big )，包含X，Y，Z，Sensor_0，...，Sensor_n值。对于处理，我使用的是vaex，它给我带来了又好又快的结果。然而，我正在努力解决以下问题：我还没有找到一种方法来创建一个新的表达式对象，只有每第n行的df。在pandas中，我会这样做: df_new_nth_X = df.X::50，只获取新df的每50个值，这对于我的df来说显然是非常消耗内存的。因此，我想“过滤</e

浏览 30提问于2021-03-08得票数 0

回答已采纳

1回答

如何在Vaex中使用命名选择进行过滤

、

df.x < 2,name='smaller') 这很酷，我可以使用很多(即统计)函数提供的selection参数，例如 df.count('*',selection='bigger') 但是，有没有在过滤器中使用命名选择的方法呢

浏览 21提问于2020-08-27得票数 0

回答已采纳

1回答

Pandas query()过滤性能

我读过，使用query()进行数据帧过滤要比仅使用带'&‘的条件来过滤数据更快。当然，当可以使用query()时，也有一些限制。BUt我在一个数据帧上尝试了它，实际上运行速度要慢得多。为什么会这样呢？

浏览 1提问于2019-05-04得票数 4

1回答

如何迭代同列前几行的结果？

、、、、

从A、B、D、P列的数据帧开始：import numpy as npimport vaex 要达到这个结果，我需要迭代从第(1)行开始的每一行，并计算如下：@numba.njit对于第一行和第二<

浏览 1提问于2021-04-11得票数 1

回答已采纳

1回答

使用dataframe列时，vaex应用不起作用

、

下一步将是标记和剩余文本的n-gram。“惠灵顿是英国的一个小镇。”变成"town is a attr_root in the country“。然后使用n-gram找到常见的模式。为此，我需要使用数据帧中的其他字符串列替换字符串列中的字符串值。(arguments) File "C:\Users\User\AppData\Roaming\Python\Python37\site-packages\vaex\utils.py&q

浏览 39提问于2021-11-15得票数 0

回答已采纳

1回答

Spark中的用户定义函数(UDF)是否在集群工作节点上并行运行？

、

假设我在python中创建了一个函数，所以将一个数字求幂为2： def squared(s):%sql select id, squaredWithPython(id) as id_squared from test 那么，如果数据分布在工作节点的内存上UDF和vectorized UDF的区别是什么？同样，在DataFra

浏览 33提问于2019-10-10得票数 0

回答已采纳

3回答

一次清除R中所有列的数据帧

、

我试图编写一两行代码，查看数据帧中的任何空白或非数字值(如N/A或NaN )的每一列，并将它们替换为0。以下是一些尝试：df[,c(1:n)]<-sub("NaN","0",df[,c(1:n)])df[df[,c(1:<e

浏览 3提问于2017-08-18得票数 2

回答已采纳

1回答

Vaex:进程无法访问文件，因为它正在被另一个进程使用。

、

我正在开发一个使用Vaex从羽毛文件访问数据的应用程序。我们在dataframe中创建虚拟列，它存储布尔值，用于过滤数据集中的数据行。每次创建一个新的过滤器时，都会保存一个文件来缓存数据。我们使用export_feather将过滤器保存到文件中，删除虚拟列，然后加入缓存。(export_path.joinpath(filename)), inplace=True) 在应用程序中，我们希望清理和删除缓存的文件。proc

浏览 3提问于2022-07-19得票数 0

回答已采纳

1回答

如何有效地从包含多列的Vaex* DataFrame中删除非有限值？*

、

我的数据的值等于正无穷大和负无穷大。Vaex具有dropna、dropmissing和dropnan函数，但不具有去除非有限值的功能.我目前的方法是迭代每一列，并覆盖过滤过的数据集，这些数据集从每一列中删除非有限值：for col in cols:...虽然这种方法确实给出了正确的结果，但它似乎效率很低，因为运行它需要很长时间，即使我的数据集只有几行和</

浏览 8提问于2020-06-10得票数 1

1回答

如何使用FFMPEG获取每个场景中间的截图

此代码生成每个场景的第一帧的屏幕截图：如何获取每个场景中间的截图

浏览 1提问于2016-01-23得票数 0

2回答

PySpark中的列过滤

、、、、

我有一个从Hive表加载的dataframe df，它有一个时间戳列，比如ts，字符串类型为dd-MMM-yy hh.mm.ss.MS a (转换为python日期时间库，这是%d-%b-%y %I.现在，我想从数据帧中过滤前五分钟的行： datetime.strptime(df.ts, '%d-%b-%y %I.%M.我收到以下消息 TypeError: strptime() argument 1 must be str

浏览 3提问于2015-07-14得票数 6

回答已采纳

1回答

如何仅重定向由逗号产生的部分输出？

、、、

让我们假设我运行一个名为test.py的python程序，并希望将它的所有输出保存在一个文件中。示例:保存程序输出的每一秒行，或者可能保存每个x行。那么，我怎样才能使用bash，最好是实时更新文件的东西呢？但是，有人还能告诉我一个命令，它打印第一个x行，但是在x行之后，输出

浏览 0提问于2021-01-07得票数 1

回答已采纳

1回答

打印某些不符合正则表达式条件或某些条件的数据帧行

、、

数据帧：我需要对每一列逐个执行验证类似地，在每个列验证之后过滤掉行。NumberRegex = r"^[0-9]\d{1,20}(?:.\d{

浏览 1提问于2021-09-03得票数 0

3回答

将熊猫数据帧分割成N个块

、、

我目前正在尝试将一个熊猫数据帧分割成包含每N行的未知数量的块。我尝试过使用numpy.array_split()，但是这个函数将数据帧分割成N个块，其中包含未知的行数。有没有一种聪明的方法可以将python数据帧拆分为多个数据帧，每个数据帧包含来自父数据帧的特定数量的行？

浏览 1提问于2018-02-09得票数 5

回答已采纳

1回答

Python read_csv to dataframe而没有分隔符

、

我有共享的代码，这些代码是通过数据文件来工作的。是否有一种方法可以逐行读取gzip文件，而不使用任何分隔符(使用整行，该行可以包括逗号和其他字符)作为一行并在dataframe中使用？您似乎必须提供一个分隔符，当我提供"\n“时，它可以读取，但是error_bad_lines会抱怨类似于”跳过xxx行:预期的22个字段，但得到了23个“字段，因为每一行都不同。我希望它将每一行视为数据帧中

浏览 7提问于2019-10-01得票数 3

3回答

熊猫过滤并转换为datetime64ns

、、、、

我有一个DataFrame，我想把str转换成datatime，但是有一些无效的行我想过滤掉。但是df2有一些无效的行。说：ValueError:数组的长度为5，而DataFrame的长度由于过滤而为5，(未过滤的)长度为6.。基本上我的问题是如何过滤掉不必要的数据并将列转换为日期时间？/Python.fra

浏览 5提问于2019-12-15得票数 1

2回答

将大型csv格式转换为hdf5格式

、、、、

我试图将CSV转换为一个hdf5文件，以便使它对于vaex libary来说是可读的：import vaexdf = vaex.from_csvbytes this sub-write = 2048, bytes actually written = 18446744073709551615, offset = 348515307) 在没有Python

浏览 29提问于2022-09-30得票数 0

3回答

Python生成器表达式递归

、、、、

在概念上，我们将过滤器添加到“筛子”中，因此每个数字(例如，10)都会根据所有先前发现的素数(so 2、3、5和7)进行测试，直到找到下一个素数为止，即11.11随后被添加到过滤器的“列表”中，等等。这一部分(i for i in s if i % n != 0)是一个。当我们第一次浏览它时，我们使用nats (用于自然数)，并在其中添加2过滤

浏览 8提问于2021-08-14得票数 0

回答已采纳

2回答

避免在没有缓存的spark中对代码进行延迟计算

、

我有一个需要立即填充的数据帧，因为我需要根据为每一行数据帧生成的随机数来过滤数据，例如，如果生成的随机数> 0.5，它将被过滤为dataA，如果生成的随机数<0.5时，它将被过滤为dataB。randomNumberDF.filter(col("num") >= 0.5) val dataB = randomNumberDF.filter(col("num")

浏览 1提问于2020-03-03得票数 2

1回答

这个矩阵运算的正式名称(矩阵列乘以列向量)？

、、、

我已经编写了以下Python/Pandas代码，将M行x N列数据帧(A)的每一列乘以M x 1数据帧(b)，得到M x N数据帧C： C= pd.DataFrame(A.values * b.values, columns=A.columns, index=b.index)换句话说，它将矩阵的<e

浏览 12提问于2015-03-17得票数 1

点击加载更多