开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

当从多个hdf5文件读取数据时，vaex groupby给出了TypeError: unhashable类型：'Expression‘

问题描述：当从多个hdf5文件读取数据时，使用vaex库中的groupby函数时，出现了TypeError: unhashable类型：'Expression'的错误。

答案：出现这个错误的原因是在vaex库中，groupby函数要求被分组的表达式必须是可哈希的（hashable），但是在这个问题中，传入groupby函数的表达式是不可哈希的类型。

解决这个问题的方法是将表达式转换为可哈希的类型。在vaex库中，可以使用expression函数将表达式封装为可哈希的对象。以下是解决问题的步骤：

导入必要的库和模块：

import vaex

读取多个hdf5文件并将它们合并成一个表：

df = vaex.open('file1.hdf5')
df = df.concat(vaex.open('file2.hdf5'))
# 继续合并其他的文件

将表达式封装为可哈希的对象：

expr = vaex.expression.Expression(df)
# 将表达式替换为你需要分组的列名或表达式
groupby_expr = expr['column_name']

使用封装后的表达式进行分组：

result = df.groupby(groupby_expr, vaex.agg.sum(df['column_name']))

在上述代码中，我们首先导入了vaex库，然后使用open函数读取多个hdf5文件，并将它们合并成一个表。接下来，我们使用vaex.expression.Expression函数将表达式封装为可哈希的对象，并将其替换为需要分组的列名或表达式。最后，我们使用groupby函数进行分组，并指定需要进行聚合的列和聚合函数（此处使用了sum函数作为示例）。

注意：在这个答案中，我们没有提及任何特定的云计算品牌商，但你可以根据自己的需求选择适合的云计算平台或产品来使用vaex库进行开发和部署。

参考文档：

vaex官方文档：https://docs.vaex.io/en/latest/

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

快使用Vaex DataFrame，每秒数亿数据算起来 ⛵

Python数据分析实战教程但是，pandas对于大型的数据处理却并不是很高效，在读取大文件时甚至会消耗大量时间。...Vaex 在过去的版本中支持二进制文件格式，例如 HDF5、 Arrow 和 Parquet 。从4.14.0版本以来，它也可以像使用上述格式一样轻松打开和使用巨型 CSV 文件。...上述过程的详细说明如下：① 当我们使用vaex.open()对于 CSV 文件，Vaex 将流式处理整个 CSV 文件以确定行数和列数，以及每列的数据类型。...可以通过schema_infer_fraction控制 Vaex 读取文件的程度。数字越小，读取速度越快，但数据类型推断可能不太准确（因为不一定扫描完所有数据）。...'))图片 6.提前停止Vaex 有一种直接的方式来确定数据读取的规模，当我们在数据分析时使用 unique, nunique或者 groupby方法，在全量数据上可能会有非常大的时延，我们可以指定 limit

2.1K7 2

Vaex ：突破pandas，快速分析100GB大数据集

这里用的是hdf5文件，hdf5是一种文件存储格式，相比较csv更适合存储大数据量，压缩程度高，而且读取、写入也更快。换上今天的主角vaex，读取同样的数据，做同样的平均值计算，需要多少时间呢？...使用vaex读取并计算： ? 文件读取用了9ms，可以忽略不计，平均值计算用了1s，总共1s。同样是读取1亿行的hdfs数据集，为什么pandas需要十几秒，而vaex耗费时间接近于0呢？...美中不足的是，vaex的懒加载只支持HDF5, Apache Arrow,Parquet, FITS等文件，不支持csv等文本文件，因为文本文件没办法进行内存映射。...； vaex的优势在于：性能：处理海量数据，行/秒；惰性：快速计算，不占用内存；零内存复制：在进行过滤/转换/计算时，不复制内存，在需要时进行流式传输；可视化：内含可视化组件； API：...读取数据 vaex支持读取hdf5、csv、parquet等文件，使用read方法。hdf5可以惰性读取，而csv只能读到内存中。 ? vaex数据读取函数： ?

3K3 1

Vaex ：突破pandas，快速分析100GB大数据集

这里用的是hdf5文件，hdf5是一种文件存储格式，相比较csv更适合存储大数据量，压缩程度高，而且读取、写入也更快。换上今天的主角vaex，读取同样的数据，做同样的平均值计算，需要多少时间呢？...使用vaex读取并计算：文件读取用了9ms，可以忽略不计，平均值计算用了1s，总共1s。同样是读取1亿行的hdfs数据集，为什么pandas需要十几秒，而vaex耗费时间接近于0呢？...美中不足的是，vaex的懒加载只支持HDF5, Apache Arrow,Parquet, FITS等文件，不支持csv等文本文件，因为文本文件没办法进行内存映射。...； vaex的优势在于：性能：处理海量数据，行/秒；惰性：快速计算，不占用内存；零内存复制：在进行过滤/转换/计算时，不复制内存，在需要时进行流式传输；可视化：内含可视化组件； API：...类似pandas，拥有丰富的数据处理和计算函数；可交互：配合Jupyter notebook使用，灵活的交互可视化；安装vaex 使用pip或者conda进行安装：读取数据 vaex支持读取hdf5

2.5K7 0

搞定100万行数据：超强Python数据分析利器

如果你的数据不是内存映射文件格式（例如CSV、JSON），则可以通过与Vaex结合Pandas I/O轻松地转换它。我们可以将它转换为HDF5并用Vaex处理它！...dv = vaex.from_csv(file_path, convert=True, chunk_size=5_000_000) 上面的函数将自动创建一个HDF5文件并将其保存到硬盘。...检查一下dv类型： type(dv) # output vaex.hdf5.dataset.Hdf5MemoryMapped 现在，让我们用Vaex处理7.5GB的数据集——我们不需要读取它，因为我们在上面的...dv = vaex.open('big_file.csv.hdf5') Vaex需要不到1秒的时间来执行上面的命令。但Vaex实际上并没有读取文件，因为延迟加载。...当使用Numpy执行时，只需要30秒（11亿行）。当我们对numba预编译表达式执行同样的操作时，我们的执行时间大约快了2.5倍，至少在我们的测试电脑上是这样。如果有一个英伟达显卡，可以尝试一下！

2.1K18 17

使用Python『秒开』100GB+数据！

数据清洗第一步将数据转换为内存映射文件格式，如Apache Arrow、Apache Parque 或HDF5。一旦数据成为内存映射格式，使用Vaex打开它是瞬间的（数据的磁盘大小超过100GB）。...将CSV数据转换为HDF5的代码如下： ? 为什么这么快？当你使用Vaex打开内存映射文件时，实际上没有数据读取。...Vaex只读取文件元数据，比如磁盘上数据的位置、数据结构（行数、列数、列名和类型）、文件描述等等。那么，如果我们想要检查或与数据交互呢？打开一个数据集会得到一个标准的DataFrame： ?...这是因为显示Vaex DataFrame或列只需要从磁盘读取前5行和后5行。这就引出了另一个重要的问题：Vaex只会在必要时遍历整个数据集，而且它会尽可能少地遍历数据。现在开始清理数据集。...在过滤Vaex DataFrame时，不会生成数据副本。相反，只创建对原始对象的引用，并在其上应用二进制掩码。掩码选择显示哪些行并用于将来的计算。

1.4K0 1

0.052s 打开 100GB 数据，这个开源库火爆了！

在这种情况下，你仍然必须管理云数据存储区，每次实例启动时，都需要等待数据从存储空间传输到实例，同时，还要考虑将数据存储在云上的合规性问题，以及在远程计算机上工作带来的不便。...第一步是将数据转换为内存可映射文件格式，例如Apache Arrow，Apache Parquet或HDF5。在此处也可以找到如何将CSV数据转换为HDF5的示例。...数据变为内存可映射格式后，即使在磁盘上的大小超过100GB，也可以使用Vaex即时打开（只需0.052秒！）：为什么这么快？当使用Vaex打开内存映射文件时，实际上没有进行任何数据读取。...Vaex仅读取文件的元数据，例如磁盘上数据的位置，数据结构（行数、列数、列名和类型），文件说明等。那么，如果我们要检查数据或与数据交互怎么办？...这将我们引向另一个重点：Vaex只会在需要时遍历整个数据集，并且会尝试通过尽可能少的数据传递来做到这一点。无论如何，让我们从极端异常值或错误数据输入值开始清除此数据集。

8021 0

0.052秒打开100GB数据？这个Python开源库这样做数据分析

在这种情况下，你仍然必须管理云数据存储区，每次实例启动时，都需要等待数据从存储空间传输到实例，同时，还要考虑将数据存储在云上的合规性问题，以及在远程计算机上工作带来的不便。...打开100GB数据集只需0.052秒第一步是将数据转换为内存可映射文件格式，例如Apache Arrow，Apache Parquet或HDF5。...当使用Vaex打开内存映射文件时，实际上没有进行任何数据读取。Vaex仅读取文件的元数据，例如磁盘上数据的位置，数据结构（行数、列数、列名和类型），文件说明等。...这是因为显示Vaex DataFrame或列仅需要从磁盘读取前后5行数据。这将我们引向另一个重点：Vaex只会在需要时遍历整个数据集，并且会尝试通过尽可能少的数据传递来做到这一点。...无论如何，让我们从极端异常值或错误数据输入值开始清除此数据集。一个很好的方法是使用describe方法对数据进行高级概述，其中显示了样本数、缺失值数和每一列的数据类型。

1.3K2 0

如何用Python在笔记本电脑上分析100GB数据（上）

在这种情况下，您仍然需要管理云数据桶，等待每次实例启动时从桶到实例的数据传输，处理将数据放到云上所带来的遵从性问题，以及处理在远程机器上工作所带来的所有不便。...清扫街道第一步是将数据转换为内存映射文件格式，如Apache Arrow、Apache Parquet或HDF5。在这里可以找到如何将CSV数据转换为HDF5的示例。...一旦数据是内存映射格式，使用Vaex打开它是瞬间的(0.052秒!)，尽管磁盘上的容量超过100GB： ? 使用Vaex打开内存映射文件是即时的（0.052秒！），即使它们超过100GB大。...当您使用Vaex打开内存映射文件时，实际上没有数据读取。Vaex只读取文件元数据，比如磁盘上数据的位置、数据结构(行数、列数、列名和类型)、文件描述等等。那么，如果我们想要检查或与数据交互呢?...这是因为显示Vaex DataFrame或列只需要从磁盘读取前5行和后5行。这就引出了另一个重要的问题:Vaex只会在必要时遍历整个数据集，而且它会尽可能少地传递数据。

1.1K2 1

python3表格数据处理

80GB大小的表格文件，那么用pandas和xlrd都是没办法处理的，因为这已经远远超出了内存可支持的空间。...数据格式转换在上一章节的测试中，我们用到了1个没有提到过的文件：data.hdf5，这个文件其实是从data.csv转换而来的。...但是这种操作方式有个弊端，就是生成的hdf5文件跟vaex不是直接适配的关系，如果直接用df = vaex.open('data.hdf5')的方法进行读取的话，输出内容如下所示： In [3]: df...执行完毕后在当前目录下生成了一个vaex_data.hdf5文件，让我们再试试读取这个新的hdf5文件： [dechin@dechin-manjaro gold]$ ipython Python 3.8.5...这里我们也需要提一下，在新的hdf5文件中，索引从高、低等中文变成了h、l等英文，这是为了方便数据的操作，我们在csv文件中将索引手动的修改成了英文，再转换成hdf5的格式。

2.8K2 0

如何使用 Python 分析笔记本电脑上的 100 GB 数据

清理街道第一步是将数据转换为内存可映射文件格式，如 Apache Arrow、Apache Parquet 或 HDF5。...使用 Vaex 打开内存映射文件只需要 0.052 秒，即使它们超过 100 GB 为什么这么快？使用 Vaex 打开内存映射文件时，实际上没有数据读取。...Vaex 只读取文件元数据，如磁盘上数据的位置、数据结构（行数、列数、列名和类型）、文件描述等。那么，如果我们想检查数据或与数据交互呢？...这就引出了另一个重要的问题：Vaex 只会在必须的时候遍历整个数据集，它会尽可能少地传递数据。无论如何，让我们首先从极端异常值或错误的数据输入中清除这个数据集。...到达目的地我希望这篇文章是对 Vaex 的一个有用的介绍，它将帮助缓解你可能面临的一些「不舒服的数据」问题，至少当涉及到表格数据集时会对你有帮助。

1.2K2 2

对比Vaex, Dask, PySpark, Modin 和Julia

即使在单台PC上，也可以利用多个处理核心来加快计算速度。 Dask处理数据框的模块方式通常称为DataFrame。...load_transactions —读取〜700MB CSV文件 load_identity —读取〜30MB CSV文件 merge—通过字符串列判断来将这两个数据集合 aggregation—将6...作者创建该库是为了使数据集的基础分析更加快速。Vaex虽然不支持Pandas的全部功能，但可以计算基本统计信息并快速创建某些图表类型。 Vaex语法 Pandas和vaex语法之间没有太多区别。 ?...另外这里有个小技巧，pandas读取csv很慢，例如我自己会经常读取5-10G左右的csv文件，这时在第一次读取后使用to_pickle保存成pickle文件，在以后加载时用read_pickle读取pickle...文件，不仅速度上会快10几倍，文件的大小也会有2-5倍的减小（减小程度取决于你dataframe的内容和数据类型）最后总结还是那句话，当数据能全部加载到内存里面的时候，用Pandas就对了作者：

4.6K1 0

Python3中的“指针”

，我们可以发现，当对a先后扩展一个元素1和2时，变量b的值也随之改变，跟a是同步变化的。...，其他类型的数据结构是否存在类似的现象呢？...除了列表和字典外，其他的就是普通的数值类型和元组Tuple类型，还有一些第三方定义的数据类型，也可以分别测试一下： In [15]: a = 1 In [16]: b = a In [17]: a... in ----> 1 hash({'1':1}) TypeError: unhashable type: 'dict'...从结果中我们发现，那些可以被哈希的类型都是非可变参量，也就是在“链式赋值”的过程中不会发生“联动”的类型。

1121 0

【数据分析从入门到“入坑“系列】利用Python学习数据分析-Python函数-2

生成器能以一种一致的方式对序列进行迭代（比如列表中的对象或文件中的行）是Python的一个重要特点。...In [186]: gen = squares() In [187]: gen Out[187]: 直到你从该生成器中请求元素时...例如，groupby可以接受任何序列和一个函数。它根据函数的返回值对序列中的连续元素进行分组。...在数据分析中，许多函数函数只用于部分输入。...: float() argument must be a string or a number, not 'tuple' 可以用元组包含多个异常： def attempt_float(x): try

6041 0

盘一盘 Python 系列特别篇 - 异常处理

：知道错误但不确定类型，用 except Exception 知道错误而且确定类型，用 except some_exception 知道错误而且有多个错误用多个 except 用 except (exc...convert_to_int('1 mio') 'a' is not a numerical value or expression. 当程序报错但异常 TypeError 被处理时的输出。...在实际应用中，finally 语句在程序跑完后用于释放资源、关闭文件或断开数据库连接等。...再看一个从电脑硬盘中读取文件（假设路径中有一个 Error.txt 的文件）的例子。...输入要读取的文件名 (txt 格式): asf 文件 asf.txt 不能被打开未能完成读取文件 asf.txt 如果输入一个正确的文件名，比如 Error。

1.1K1 0

Python编程常见问题与解答

并且，最好切换到Python安装目录中的scripts子目录中执行，在安装了多个Python版本时这一点非常重要。...12.问：我创建了一个集合，想在里面加入一个列表作为元素，结果提示“TypeError: unhashable type: 'list'”，这是什么意思呢？...25.问：从“资源管理器”来看，我当前文件夹中明明有test.txt文件，但是使用内置函数open()打开时还是提示文件不存在，可能是哪里错了呢？...答：默认情况下，“资源管理器”会隐藏一些常见类型文件的扩展名，去掉这个隐藏，检查一下文件的名字是不是test.txt.txt。...答：也不是，如果需要读取前面已经读取过的内容，可以使用文件对象的seek()方法修改文件指针的位置。

3.5K1 0

《Pandas Cookbook》第10章时间序列分析1. Python和Pandas日期工具的区别2. 智能切分时间序列3. 只使用适用于DatetimeIndex的方法4. 计算每周的犯罪数5.

智能切分时间序列 # 从hdf5文件crime.h5读取丹佛市的crimes数据集，输出列数据的数据类型和数据的前几行 In[44]: crime = pd.read_hdf('data/crime.h5...# 注意到有三个类型列和一个Timestamp对象列，这些数据的数据类型在创建时就建立了对应的数据类型。 # 这和csv文件非常不同，csv文件保存的只是字符串。...原理 # hdf5文件可以保存每一列的数据类型，可以极大减少内存的使用。 # 在上面的例子中，三个列被存成了类型，而不是对象。存成对象的话，消耗的内存会变为之前的四倍。...只使用适用于DatetimeIndex的方法 # 读取crime hdf5数据集，行索引设为REPORTED_DATE，检查其数据类型 In[63]: crime = pd.read_hdf('data...# 上面的结果中，6月30日的数据只有一条，这也是因为第一个时间值的原因。 # 所有的DateOffsets对象都有一个normalize参数，当其设为True时，会将所有时间归零。

4.7K1 0

跟着小鱼头学单细胞测序-如何使用Cell Ranger V6 (一)

相信大家在平时的科研工作中对10X数据并不陌生, 而Cell Ranger软件作为由10X官方开发的配套分析软件，颇受欢迎。今天我们就给大家介绍一下这款软件主要分析流程和使用。...正文 Cell Ranger是10X公司专门为单细胞RNA测序数据量身打造的分析软件，能够通过直接读取原始下机测序数据，进行比对，定量，聚类，可视化以及更多的基因表达相关的下游分析，并且结合配套的浏览平台...以下文中软件信息及代码均从Cell Ranger官网获取【1】。...: /outs/cloupe.cloupe 结果中需要重点查看的有网页版报告（web_summary.html），该报告列出了详细的数据QC的信息，可用于判断该数据测序质量...例如当处理多个生物学重复样本时，首先分别对每个样本单独的进行cellranger count定量，然后通过aggr整合。

2.2K4 0

Python3 错误和异常

某些编程语言有这样的函数：当输入存在非法数据时不能被安全地调用，或者返回值不能与异常进行有效的区别。例如，C语言中的atoi函数（ASCII串到整数的转换）在输入非法时可以返回0。... ZeroDivisionError as err: # 赋值给err变量 print("出现异常：", err) except TypeError: # 声明一个指定的异常类型 print...运行结果：出现异常： division by zero 一个except子句可以同时处理多个异常，这些异常将被放在一个括号里成为一个元组，例如: except (RuntimeError, TypeError...except TypeError: # 声明一个指定的异常类型 print("出现类型异常！")...当创建一个模块有可能抛出多种不同的异常时，一种通常的做法是为这个包建立一个基础异常类，然后基于这个基础类为不同的错误情况创建不同的子类： class Error(Exception): """Base

9271 0

Pandas使用 (一）

# 因为要把多个文件的同一类型表达值合并到一个文件，我们使用文件名作为列的名字 name = os.path.split(tsvFile)[-1][:-4] print name expr_tpm =...# 为了读取多个文件，定义一个函数简化操作 def readExpr_1(tsvFileL, typeL=['TPM','FPKM']): ''' tsvFileL: lists of...data in the HDF5 format. https://support.hdfgroup.org/HDF5/ 使用优势是把处理好的数据以二进制文件存取，既可以减少文件数目、压缩使用空间，又可以方便多次快速读取...HDF5文件的写入形式上类似于字典操作，其读取也是。...sex', 'Biosample organism', 'Biosample Age']] exec(code_obj, self.user_global_ns, self.user_ns) 当数据中存在混合数据模式时

2.4K9 0

Python函数基础回顾

返回多个值 Python的一个功能是：函数可以返回多个值。...它们在数据分析工作中非常方便，因为你会发现很多数据转换函数都以函数作为参数的。...直接传入lambda函数比编写完整函数声明要少输入很多字（也更清晰），甚至比将lambda函数赋值给一个变量还要少输入很多字。...In [186]: gen = squares() In [187]: gen Out[187]: 直到你从该生成器中请求元素时...例如，groupby可以接受任何序列和一个函数。它根据函数的返回值对序列中的连续元素进行分组。

3531 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭