当从多个hdf5文件读取数据时，vaex groupby给出了TypeError: unhashable类型：'Expression‘

问题描述：当从多个hdf5文件读取数据时，使用vaex库中的groupby函数时，出现了TypeError: unhashable类型：'Expression'的错误。

答案：出现这个错误的原因是在vaex库中，groupby函数要求被分组的表达式必须是可哈希的（hashable），但是在这个问题中，传入groupby函数的表达式是不可哈希的类型。

解决这个问题的方法是将表达式转换为可哈希的类型。在vaex库中，可以使用expression函数将表达式封装为可哈希的对象。以下是解决问题的步骤：

导入必要的库和模块：

import vaex

读取多个hdf5文件并将它们合并成一个表：

df = vaex.open('file1.hdf5')
df = df.concat(vaex.open('file2.hdf5'))
# 继续合并其他的文件

将表达式封装为可哈希的对象：

expr = vaex.expression.Expression(df)
# 将表达式替换为你需要分组的列名或表达式
groupby_expr = expr['column_name']

使用封装后的表达式进行分组：

result = df.groupby(groupby_expr, vaex.agg.sum(df['column_name']))

在上述代码中，我们首先导入了vaex库，然后使用open函数读取多个hdf5文件，并将它们合并成一个表。接下来，我们使用vaex.expression.Expression函数将表达式封装为可哈希的对象，并将其替换为需要分组的列名或表达式。最后，我们使用groupby函数进行分组，并指定需要进行聚合的列和聚合函数（此处使用了sum函数作为示例）。

注意：在这个答案中，我们没有提及任何特定的云计算品牌商，但你可以根据自己的需求选择适合的云计算平台或产品来使用vaex库进行开发和部署。

参考文档：

vaex官方文档：https://docs.vaex.io/en/latest/

页面内容是否对你有帮助？

有帮助

没帮助

当从多个hdf5文件读取数据时，vaex groupby给出了TypeError: unhashable类型：'Expression‘

、、

在Python中，我使用vaex (vdf = vaex.open('test_*.hdf5'))从多个hdf5文件中打开一个数据框。但是我无法让vaex的groupby正常工作：vdf.groupby('x', agg='count')抛出了一个TypeError: unhashable</em

浏览 24提问于2020-09-07得票数 0

1回答

使用Vaex的性能提示

此数据文件的内容存储在多个HDF5文件中。我通过在每个请求中执行vaex.open_many(<path/to/hdf5 files/).On来创建数据，代码接收到少量(在10 s内)键，以便在large_df中查找。从我所读到的情况来看，Vaex应该是我的用例的完美例子，但是我一直在努力获得我所期望的性能。>)].to_pandas_df() 当提前将所有

浏览 1提问于2020-06-09得票数 2

回答已采纳

9回答

HDF5与有文件的文件夹有什么不同？

、、、

在“HDF5”( )一书中，我读到了它的优点，与在文件夹中使用文件相比，我在寻找使用它的好处，但我遇到的大多数内容都谈到了分层文件格式在通过API添加数据时的简单性方面的好处：>>> f = h5py.File("weather.hdf5")或者它能够在请求时只<

浏览 18提问于2014-03-02得票数 69

1回答

使用Javascript version_hint.toFixed从浏览器中读取version_hint.toFixed不是一个函数

、、、

所以我有一些来自Matlab的HDF5文件，其中.mat作为格式(改为.hdf5，没有任何区别)，在PythonwithPythonwithh5py中，我可以在没有任何问题的情况下提取我想要的数据，我运行一个在网站上有一个表单/fileupload和一个按钮来读取文件，当文件上传时，我想从文件中获取密钥并显示密钥。我试过使用js5和h5wasm，但它们都给出了与python：Uncaugh

浏览 15提问于2022-06-09得票数 0

回答已采纳

2回答

我使用Pandas存储、加载和操作财务数据。一个典型的数据文件是一个6000x4000 DataFrame (6000个股票x4000个交易日期)，如果说有一半股票在给定日期有价值N/A，那么它的大小为200 of。下面是我可能运行的函数类型的一个示例： # prices.csv is a matrix containing stock prices for如果建议使用swtich到HDF5，我是否应该将相同的DataFrames存储在3

浏览 4提问于2014-04-15得票数 4

回答已采纳

2回答

如何有效地从多个h5df文件中读取小片段？

、、、

我每天都有一个hdf5文件，其中包含许多资产的压缩数据。我正在考虑用两种方式来做这件事，给出了8个过程：使用一个进程加载所有数据，然后将分析分成8个进程。资产数据并不大，因此每个资产的IO都比较快。进行分析的时间取决于所要做的准确分析，但我们可以假设它通常比读取单个资产数据花费更长的时间。也有其他人使用同样的框架来进行分析。我最

浏览 18提问于2022-09-09得票数 2

回答已采纳

2回答

如何使用hdf5创建指向一个外部python3文件的链接数组？

、

我想知道是否可以使用hdf5 5/cxi文件执行以下操作：有一个外部h5文件，该文件存储具有4D维的numpy数组。在该文件中，添加组需要添加另一个cxi文件，其中包含指向h5文件的外部链接数组。我还尝试了dset = f.create_dataset(path_to_new_mask,data=l)并使用length = num列出了这个文件，但是所有这些步骤都失败了。

浏览 2提问于2020-04-18得票数 1

2回答

如何在python中从HDF5中提取数据？

、、

我有下面的HDF5文件，我可以在数据中提取一个列表'model_cints‘，但是，我不知道用来显示列表数据中的数据。% f.keys()) data = list(f[a_group_key]) 数据在

浏览 0提问于2021-01-24得票数 0

5回答

打开一个用于分析大熊猫的20 for文件

、、、

为了机器学习的目的，我目前正试图打开一个大熊猫和蟒蛇的文件--让它们全部放在DataFrame中对我来说是非常理想的。现在，文件大小为18 GB，内存为32 GB，但我一直收到内存错误。创建一个数据库并从python访问它)

浏览 0提问于2018-02-13得票数 48

1回答

MongoError: TypeError:在使用$or时无法读取未定义的属性'id‘

、、

我使用的是水系，我用mongoimport命令导入了数据库。我使用本机驱动程序连接到mongo，调用.find和.aggregate。当使用$or查找多个记录时，从以前的一组查询中得到的结果。ProductID\"": "76543"},{"\"ProductID\"": "74632"}, {"\"ProductID\"": "76534",.

浏览 5提问于2016-03-11得票数 1

回答已采纳

1回答

Parquetloader:无法使用pig加载多个地块文件

、

重复约束更为严格:不能将类型所需的二进制MyTime合并到可选的二进制MyTime中。也许其中一个文件已损坏，但我不知道如何跳过它。谢谢

浏览 3提问于2015-05-28得票数 0

2回答

单个<input>元素可以返回多个值吗？

、、

VS2013，VB，MVC5，html 这些帖子(，)很好地展示了如何在一个表单中使用多个< input >元素。这对于在列表中的每一行末尾都包含一个类似的命令是很好的。我希望有一个页面，它列出了多行，并且在每一行的末尾都有相同的< end >元素。当单击特定的< input >时，它必须返回到特定于该行的“控制器方法”信息，并与单击的链接相关。控制器方法将需要特定于单击链接的行的数据，例如记录ID、记录类型等等。它可能是由具有不同ID的多个<

浏览 4提问于2015-03-10得票数 0

回答已采纳

2回答

如何在c++中使用不同的ifstream模式？

、、

ifstream infile ( "test.txt" , ifstream::in | ifstream::binary );是使用多个标志的正确语法吗？

浏览 3提问于2009-10-23得票数 3

回答已采纳

1回答

输入过程中SAS重命名变量

、、、、

我经常使用一些数据集，这些数据集我几乎没有控制能力，并且在几个不同的用户之间共享。我通常以CSV的形式读取文件，使用infile语句+使用informat、format和input语句块定义变量。我尝试过在没有整个informat/format/input业务的情况下进行简单的proc导入，但是我发现，尝试重新定义变量类型之后会给我带来更大的麻烦(我使用的所有数据集都有文本、美元、百分比、一般数字我知道在导入文件之前，我可以手动将Excel中的美元

浏览 4提问于2017-02-10得票数 0

1回答

Unity3D多线程数据导入程序？

、、

目标数据文件包含对象的转换信息、用于运行时网格生成的点以及地形数据。它们都必须被解析、过滤和&#x

浏览 0提问于2015-11-06得票数 4

6回答

IOEXceptions在BufferedReader的readLine()中有什么用途？

、、

我可以用一个try-catch循环来“修复”下面的异常，但是我无法理解原因。 $ javac ReadLineTest.java while((s=in.readLine())!=null){

浏览 7提问于2010-04-13得票数 10

回答已采纳

1回答

我应该将关键的css存储在数据库中还是主题的文件系统中？

、、、、

我在多个css文件上使用file_get_contents来连接css，并且有人告诉我，这意味着每个请求在文件系统中有很多读取操作，这对服务器负载来说并不是最佳的。我试图决定是在文件系统中还是在数据库中缓存这个关键的css，即使它是自己的post类型。我知道我将使用用于生成缓存文件的css文件名的散列作为缓存文件的名称。当浏览器有一个旧版本的缓存文件时，我会在这个

浏览 0提问于2019-02-09得票数 0

回答已采纳

1回答

如何发送和接收SQLite数据库

、、

我有一个很大的SQLite数据库要处理，所以我想使用MPI进行并行化，以加快速度。我想要做的是从root发送一个数据库到每个slave，然后在slave添加一些表之后将修改后的数据库发送到root。我想用MPI_Type_create_struct创建一个数据类型来存储数据库，但是数据库太复杂了。有没有其他方法来处理这种情况？提前谢谢你！

浏览 2提问于2016-03-17得票数 1

2回答

如何链接使用Pandas生成的HDF5文件？

、、

假设我们有一个包含pandas.to_hdf生成的HDF5 5文件的文件夹。我想创建一个master.h5文件，其中包含指向所有DataFrames的外部链接。)但是pandas.to_hdf生成的文件不仅包含

浏览 6提问于2021-12-16得票数 0

4回答

如何组合多个.h5文件？

、、、

我的数据库很大，我把它分部分导出。现在我有了三个.h5文件，我想将它们合并成一个.h5文件，以供进一步的工作。我该怎么做呢？

浏览 5提问于2019-10-01得票数 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

当从多个hdf5文件读取数据时，vaex groupby给出了TypeError: unhashable类型：'Expression‘

相关·内容

当从多个hdf5文件读取数据时，vaex groupby给出了TypeError: unhashable类型：'Expression‘

使用Vaex的性能提示

HDF5与有文件的文件夹有什么不同？

使用Javascript version_hint.toFixed从浏览器中读取version_hint.toFixed不是一个函数

我如何更好地管理我在潘达斯中的内存使用？

如何有效地从多个h5df文件中读取小片段？

如何使用hdf5创建指向一个外部python3文件的链接数组？

如何在python中从HDF5中提取数据？

打开一个用于分析大熊猫的20 for文件

MongoError: TypeError:在使用$or时无法读取未定义的属性'id‘

Parquetloader:无法使用pig加载多个地块文件

单个<input>元素可以返回多个值吗？

如何在c++中使用不同的ifstream模式？

输入过程中SAS重命名变量

Unity3D多线程数据导入程序？

IOEXceptions在BufferedReader的readLine()中有什么用途？

我应该将关键的css存储在数据库中还是主题的文件系统中？

如何发送和接收SQLite数据库

如何链接使用Pandas生成的HDF5文件？

如何组合多个.h5文件？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐