开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

zarr不考虑xarray中的区块大小，并恢复为原始区块大小

Zarr 是一种用于存储多维数组数据的格式，它支持分块存储，这意味着数据可以被分割成较小的块进行存储和处理。这种分块存储方式可以提高数据处理的并行性和效率，尤其是在处理大型数据集时。

Xarray 是一个用于处理多维数据（如气象数据、卫星图像等）的 Python 库，它内部使用 Zarr 格式来存储数据。Xarray 允许用户定义数据的区块大小，这样可以优化数据的读写性能。

如果你想要将 Xarray 中的数据恢复为原始的 Zarr 区块大小，你需要了解以下几个基础概念：

区块（Chunking）：这是指将数据分割成小块的过程，每个块可以独立地进行读写操作。区块的大小会影响数据的读写性能和存储效率。
元数据（Metadata）：Zarr 格式使用元数据来描述数据的维度、形状、数据类型以及区块的大小等信息。
压缩（Compression）：Zarr 支持对数据进行压缩，这可以减少存储空间的需求并可能提高数据传输的效率。

要将 Xarray 中的数据恢复为原始的 Zarr 区块大小，你可以按照以下步骤操作：

读取 Xarray 数据集：
读取 Xarray 数据集：
获取原始区块大小：通常，原始的 Zarr 区块大小可以在创建 Zarr 存储时指定。如果你不知道原始的区块大小，你可能需要查看创建 Zarr 存储时的代码或者文档。
重新写入 Zarr 存储：使用 Xarray 的 to_zarr 方法，并指定区块大小参数，可以将数据重新写入 Zarr 存储，恢复为原始的区块大小。
重新写入 Zarr 存储：使用 Xarray 的 to_zarr 方法，并指定区块大小参数，可以将数据重新写入 Zarr 存储，恢复为原始的区块大小。

如果你遇到了问题，比如区块大小没有按预期改变，可能的原因包括：

元数据未更新：确保在重新写入 Zarr 存储时正确设置了区块大小参数。
存储路径问题：确保你指向的 Zarr 存储路径是正确的，并且有足够的权限进行写操作。
数据集特性：某些数据集的特性可能限制了可以使用的区块大小。

解决这些问题的方法包括：

检查并确保区块大小参数正确设置。
确保你有权限对指定的 Zarr 存储路径进行写操作。
如果数据集特性限制了区块大小，可能需要调整数据处理策略或算法。

参考链接：

请注意，以上代码示例和步骤是基于 Python 和相关库的通用操作，具体实现可能需要根据你的数据集和环境进行调整。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

xarray系列｜数据处理和分析小技巧

函数有 preprocess 参数，这个参数主要是在读取文件之前先进行一定的处理，如果批量操作涉及到维度合并等操作时比较有用，比如要合并的维度不是坐标，可能会出现以下错误，需要先将合并的维度设置为坐标...注意：目前没有类似 xr.open_mfdataset 的函数批量读取 zarr 格式文件，如果读取两个不同的 zarr 格式文件，想要合并时，可能会出现 chunk 不一致的问题，这时候可以通过 ....chunk 方法重新设置 chunk 大小进行合并，比如： zarr3 = (xr.concat([zarr1, zarr2], dim='time') .chunk({'time': 10...数据处理数据处理的内容比较多，这里主要以数据的索引、筛选为主，关于数据的插值和统计计算以后再说（又拖了一次，哈哈）第一个要说的是后台留言询问的，如果从daily的nc文件中抽取某些年份1-4月的数据...如果你遇到了一些问题的话，也可以评论留言，我收集一下，回头可以放到菜单栏中实时更新。一不小心就写了这么多，很多经验都是细节问题。

2.6K2 2

存储和操作n维数据的难题，谷歌用一个开源软件库解决了

例如，下面的代码创建了一个 TensorStore 对象，该对象代表一个 56 万亿体素的苍蝇大脑 3D 图像，并允许访问 NumPy 数组中 100x100 的图像 patch 数据：值得注意的是...TensorStore 将 Checkpoint 转换为 zarr 格式存储，并选择块结构以允许每个 TPU 的分区并行独立地读取和写入。...当保存 checkpoint 时，参数以 zarr 格式写入，块网格进一步被划分，以用于在 TPU 上划分参数网格。主机为分配给该主机的 TPU 的每个分区并行写入 zarr 块。...使用 TensorStore 的异步 API，即使数据仍被写入持久存储，训练也会继续进行。当从 checkpoint 恢复时，每个主机只读取分配给该主机的分区块。...目前，TensorStore 已被用于人类大脑皮层数据集 H01，原始成像数据为 1.4 PB（约为 500000 * 350000 * 5000 像素）。

1K2 0

xarray系列 | 基于xarray和dask并行写多个netCDF文件

('rasm', chunks={'time': 12}) 此数据集为xarray官方提供的示例数据。...这里设置的 time 维度的块大小为12。...chunk_slices.keys(), slices)) yield dataset[selection] 分割对象： datasets = list(split_by_chunks(result)) 返回结果中的每一项对应的是...xarray的dataset对象的每一个切片。...目前新版本的netCDF库也逐渐支持zarr格式，但还没测试过效果如何。如果不是一定要netCDF格式的话，可以尝试使用zarr格式。后话：虽然本文使用了dask，但是涉及到dask的内容比较少。

2.8K1 1

xarray系列｜数据处理和分析小技巧

函数有 preprocess 参数，这个参数主要是在读取文件之前先进行一定的处理，如果批量操作涉及到维度合并等操作时比较有用，比如要合并的维度不是坐标，可能会出现以下错误，需要先将合并的维度设置为坐标...注意：目前没有类似 xr.open_mfdataset 的函数批量读取 zarr 格式文件，如果读取两个不同的 zarr 格式文件，想要合并时，可能会出现 chunk 不一致的问题，这时候可以通过 ....chunk 方法重新设置 chunk 大小进行合并，比如： zarr3 = (xr.concat([zarr1, zarr2], dim='time') .chunk({'time': 10...数据处理数据处理的内容比较多，这里主要以数据的索引、筛选为主，关于数据的插值和统计计算以后再说（又拖了一次，哈哈）第一个要说的是后台留言询问的，如果从daily的nc文件中抽取某些年份1-4月的数据...如果你遇到了一些问题的话，也可以评论留言，我收集一下，回头可以放到菜单栏中实时更新。一不小心就写了这么多，很多经验都是细节问题。

2.9K3 0

空间组学 | NatMethods | SpatialData: 一个开放和通用的空间组学数据框架

SpatialData 与常见的数据格式兼容，包括特定供应商的文件格式。数据集集合可以存储在单个 Zarr 存储中，并且表示为一个 SpatialData 对象。...Para_09 为了举例说明SpatialData如何用于在数据集之间转移空间注释，我们考虑了来自Visium捕获位置的掩膜，并汇总了重叠的Xenium细胞的细胞类型信息以估计每个位置的细胞类型比例。...为了比较，我们还考虑了基于反卷积的Visium计数分析（使用cell2location20），并使用相同的scRNA-seq衍生细胞类型作为参考。...、spatial-image、xarray、xarray-schema、xarray-spatial、zarr（栅格空间数据）、geopandas、pyarrow、pygeos、shapely（矢量空间数据...对于可视化，只考虑每个 Visium 捕获位置至少贡献 5% 的细胞类型，然后在每个位置的数量被标准化为总和为 1。

680 0

Linux 磁盘管理命令：使用xfs 管理命令

（Block size）区块（Block）是文件系统存储盘中内容最小的单位，其大小对文件系统的空间运用和效用有很大的影响。...区块大小只可以在格式化文件系统时设定，以后除重新格式化外不能改变。XFS 文件系统的区块大小最少可以为 512 字节，最大不可超过 64KB，默认为 4KB。...然而区块大小又受到作业系统内核的 page 大小限制。在 X86 计算机中，区块最大不可超过 4KB。...其他平台如 IA64 可以使用较大区块，不过过大区块会浪费空间，所以不建议使用大于 4KB 的区块。...noatime：读取文件时不更新访问时间。norecovery：挂载时不运行日志恢复（只读挂载）。logbufs=：内存中的日志缓存区数量。logbsize=：内存中每个日志缓存区的大小。

930 0

【linux命令讲解大全】043.详解Linux中cpio命令的用法及常见选项

； -A 或 --append：附加到已存在的备份文档中，且这个备份文档必须存放在磁盘上，而不能放置于磁带机里； -b 或 --awap：此参数的效果和同时指定 -ss 参数相同； -B：将输入/输出的区块大小改成...5210Bytes； -c：使用旧 ASCII 备份格式； -C 区块大小> 或 --io-size=区块大小>：设置输入/输出的区块大小，单位是 Byte； -d 或 --make-directories...，仅负责解决 cpio 不同版本间的兼容性问题； -l 或 --link：以硬连接的方式取代复制文件，可在 copy-pass 模式下运用； -L 或 --dereference：不建立符号连接，直接复制该连接所指向的原始文件...号； --block-size=区块大小>：设置输入/输出的区块大小，假如设置数值为 5，则区块大小为 2500，若设置成 10，则区块大小为 5120，以此类推； --force-local：强制将备份档存放在本地主机...，那么在恢复的时候会自动恢复到这些绝对路径下，本例就会将备份文件全部还原到 /etc 路径下对应的目录中。

3931 0

EVMPatch：自动修补以太坊智能合约

最近利用智能合约代码中的错误进行的攻击造成了严重后果，修复错误并及时部署补丁合约具有很大的挑战性。即时修补尤为重要，因为由于区块链系统的分布式特性，智能合约始终在线，它们还管理着相当数量的资产。...也就是说不仅修补合约，而且允许开发人员检索在原始合约和修补合约之间表现出不同行为和结果的交易清单。这些交易可作为潜在攻击原始合约的指标。如果列表为空，框架会立即自动将修补后的合约部署在以太坊区块链上。...使用INVALID指令填充原始基本块的其余部分，以确保基本块的大小与原始基本块的大小完全相同。 0xCD处的基本块通过下降沿连接到先前的基本块。...原始合约的平均代码大小为8142.7 B（σ5327.8B，σ=31.3min，最快的33min和最慢的110min）。使用EVMPATCH应用补丁后，平均大小增加了455.9 B（σ333.5B）。...相反，对于手动打补丁的版本，将两种算术运算都考虑在内。相关的攻击交易先前被报告为攻击交易。

3812 0

可验证分发网络：区块链扩容终极解决方案

如果没有云分发网络，这是不可能的。这与区块链的现状形成了鲜明对比。实际上，正如前面所解释的，通过区块链网络传播一个1 MB的区块是一项耗时的任务，并且增加区块的大小可能会导致不可恢复的问题。...在区块被传播之后，接收方通过发送区块的哈希通知发送方（图3中的步骤2）。最后，公布一个区块的加密密钥，并直接在区块链对等网络上传播（图3中的步骤3）。...以下是BDN帮助扩展区块链的几种方法。 5.1 交易缓存在区块链系统中，如比特币或以太坊，每个节点接收两次交易：第一次是原始交易，最初通过网络传播，第二次是将交易写入到区块中。...BDN可以有效地通过云分发交易，并对它们进行索引，然后在传输区块时利用索引(而不是原始交易)。这有效地将区块大小压缩了100多倍，假设原始交易大约500字节长，而索引可以是4字节或更少。...因此，考虑到纯区块链系统中并非所有交易都到达所有端节点，即使是轻微的异步也会导致区块大小的显著增加（并不是所有的交易都是”压缩的“）；因此，性能会受到影响。相反，BDN有效地传输和索引了区块链交易。

8762 0

区块链存储爆炸：问题、分析与优化

实际上，存档节点执行所有块并保留所有历史数据，包括：区块状态交易收据这其中，状态是这 8.7TB 的主要组成部分。所以有时，我们将存储爆炸称为“状态爆炸”。但是为什状态会如此之大？...这里我们举一个简化的例子，其中节点只保存每 3 个区块的MPT。（注意，为了获得一个不包含任何状态区块的状态，节点必须获得该区块之前最近的状态，并重放接下来的交易）。...我们来考虑一个具有 1000 TPS 的区块链并分析其区块和状态大小，将是：假设 tx 大小约为 100 字节，每年区块所需的存储量为 1000 (TPS) * 100（每 tx 字节数）* 365...一个快照区块包含前状态哈希这一附加信息，即前一个快照区块的后状态哈希（执行交易之后的状态哈希）：非快照区块不维护状态哈希，而是具有增量哈希，其中包含该区块的所有交易事务的原始数据库操作（删除、更新）的哈希...我们可以对存储成本进行简单的数学计算：假设 epoch 持续时间为 2 周，则区块重放大小为 2 * 14（天）* 24（小时）* 3600（秒）* 100 * 1000（TPS）= 224 GB！

1.7K3 0

磁盘和移动存储常用命令

#参数 -b区块大小> 指定区块大小，单位为字节。 -c 检查是否有损坏的区块。 -f不连续区段大小> 指定不连续区段的大小，单位为字节。 -F 不管指定的设备为何，强制执行mke2fs。...notrunc：不截断输出文件。 sync：用0填充到每个输入块的末尾,使其大小为 ibs 字节。...#语　　法： badblocks [-svw][-b 区块大小>][-o ][磁盘装置][磁盘区块数][启始区块] #参　　数： -b区块大小> 指定磁盘的区块大小，单位为字节。...因此损坏区块列表的区块跟文件中指定的区块是一样的。 -n 以只读模式开启文件系统，并采取非互动方式执行，所有的问题对话均设置以"no"回答。 -p 不询问使用者意见，便自动修复文件系统。...在每个文件的执行程序前面加上“.”号； --block-size=区块大小>：设置输入/输出的区块大小，假如设置数值为5，则区块大小为2500，若设置成10，则区块大小为5120，以此类推； --

2.6K1 0

磁盘和移动存储常用命令

#参数 -b区块大小> 指定区块大小，单位为字节。 -c 检查是否有损坏的区块。 -f不连续区段大小> 指定不连续区段的大小，单位为字节。...notrunc：不截断输出文件。 sync：用0填充到每个输入块的末尾,使其大小为 ibs 字节。...#语　　法： badblocks [-svw][-b 区块大小>][-o ][磁盘装置][磁盘区块数][启始区块] #参　　数： -b区块大小> 指定磁盘的区块大小，单位为字节。...因此损坏区块列表的区块跟文件中指定的区块是一样的。 -n 以只读模式开启文件系统，并采取非互动方式执行，所有的问题对话均设置以"no"回答。 -p 不询问使用者意见，便自动修复文件系统。...在每个文件的执行程序前面加上“.”号； --block-size=区块大小>：设置输入/输出的区块大小，假如设置数值为5，则区块大小为2500，若设置成10，则区块大小为5120，以此类推； --

2.9K2 0

linux 之 dd 命令

复制文件并对原文件的内容进行转换和格式化处理补充说明 dd 命令用于复制文件并对原文件的内容进行转换和格式化处理。...=区块数>：仅读取指定的区块数； ibs=：每次读取的字节数； obs=：每次输出的字节数； of=：输出到文件； seek=区块数>：一开始输出时，跳过指定的区块数；...如果不指定 if，默认就会从 stdin 中读取输入。 of 代表输出文件。如果不指定 of，默认就会将 stdout 作为默认输出。 bs 代表字节为单位的块大小。 count 代表被复制的块数。...512个字节大小的MBR信息到指定文件： #dd if=/dev/hda of=/root/image count=1 bs=512 count=1指仅拷贝一个块；bs=512指块大小为512个字节...(即块大小为1.44M) 8.拷贝内存内容到硬盘 #dd if=/dev/mem of=/root/mem.bin bs=1024 (指定块大小为1k) 9.拷贝光盘内容到指定文件夹，并保存为cd.iso

4.3K0 1

linux之dd命令

复制文件并对原文件的内容进行转换和格式化处理补充说明 dd 命令用于复制文件并对原文件的内容进行转换和格式化处理。...=区块数>：仅读取指定的区块数； ibs=：每次读取的字节数； obs=：每次输出的字节数； of=：输出到文件； seek=区块数>：一开始输出时，跳过指定的区块数；...如果不指定 if，默认就会从 stdin 中读取输入。 of 代表输出文件。如果不指定 of，默认就会将 stdout 作为默认输出。 bs 代表字节为单位的块大小。 count 代表被复制的块数。...512个字节大小的MBR信息到指定文件： #dd if=/dev/hda of=/root/image count=1 bs=512 count=1指仅拷贝一个块；bs=512指块大小为512个字节...(即块大小为1.44M) 8.拷贝内存内容到硬盘 #dd if=/dev/mem of=/root/mem.bin bs=1024 (指定块大小为1k) 9.拷贝光盘内容到指定文件夹，并保存为cd.iso

3.2K2 0

linux之dd命令

复制文件并对原文件的内容进行转换和格式化处理补充说明 dd 命令用于复制文件并对原文件的内容进行转换和格式化处理。...count=区块数>：仅读取指定的区块数； ibs=：每次读取的字节数； obs=：每次输出的字节数； of=：输出到文件； seek=区块数>：一开始输出时，跳过指定的区块数...如果不指定 if，默认就会从 stdin 中读取输入。 of 代表输出文件。如果不指定 of，默认就会将 stdout 作为默认输出。 bs 代表字节为单位的块大小。 count 代表被复制的块数。...512个字节大小的MBR信息到指定文件： #dd if=/dev/hda of=/root/image count=1 bs=512 count=1指仅拷贝一个块；bs=512指块大小为512个字节...(即块大小为1.44M) 8.拷贝内存内容到硬盘 #dd if=/dev/mem of=/root/mem.bin bs=1024 (指定块大小为1k) 9.拷贝光盘内容到指定文件夹，并保存为cd.iso

2.8K2 0

Linux 磁盘管理命令：dd磁盘操作

--block-size=区块大小> 以指定的区块大小来显示区块数目。...-k 或--kilobytes 指定区块大小为 1024B。...-m 或--megabytes 指定区块大小为 1 048 576B。...syn c 用 0 填充到每个输入块的末尾，使其大小为 ibs 字节。说明 dd 是 Linux 的一个非常有用的命令，其作用是用指定大小的块复制一个文件，并在复制的同时进行指定的转换。...$ rm /tmp/tmpfile（2）把 net.i 文件写入软盘中，并设定读/写缓冲区的数目（注意：软盘中的内容会被完全覆盖掉）。

1771 0

介绍以太坊 gas 限制项目（EGL）

以太坊尝试了一种不同的范式——如果我们将区块大小的控制权交给矿工会怎样？在以太坊中，每个区块的矿工都可以将后续区块大小更改为 0.1%。...区块大小机制不会促使矿工考虑用户的效用，并在其与运行节点所需硬件的影响之间取得平衡。是时候在这个实验中进行另一次迭代了，第三种方式。很明显，核心开发人员应该有发言权，但他们不应该是唯一的声音。...我们提出的解决方案是为社区中的任何人创建一种机制来参与和影响区块大小，使用经济激励（游戏和市场中的皮肤）来诱导良好的行为。所以，回顾一下：社区：面临高额或飙升的gas费用。...EGL 为社区研究、投票并最终发现什么是“经济有效”的 gas 限制创造了经济激励，并奖励矿池倾听并承担倾听他们的经济风险。...如果阈值不符合要求，所需的气体限制并不会保持不变。相反，它被设置为恢复气体限制的 5%。因此，未能参与投票开始恢复 EGL 创造的价值。

1.3K4 0

Web3公链DA扩展方向（1-概述、danksharding、validium）

（rollup还有一个瓶颈是要实现去中心化sequencer以实现抗审查，但与本文关联不大）公链DA扩展的三个叙事方向 DA扩展的瓶颈是什么区块大小限制：区块大小限制， calldata存放数据费用昂贵...模块化公链（Modular Blockchains）本质上是将公链中以DA为代表的模块功能抽象为第三方公共组件，供生态其他项目调用公链可以分为哪几个模块：共识层(Consensus)，执行层...验证节点做验证的时候，不再需要下载全部数据，而只需要从网络中采样并检查k个碎片，来查看它们是否可用、且是否为合法的编码。...（k值视具体对安全性的需要进行选取，下文取k=30）如果它们都可用且编码合法，那么就说明网络中无法找到X个碎片从而复原数据的概率小于0.5^30，进而说明数据分发节点成功隐藏原始数据的可能性小于...新方案如下：（1）全节点想要打包区块，需要增加配置，转为“打包者”角色，并通过竞价来获得打包资格。

3161 0

Merkle Tree 简介

分布式系统：用于在多个节点之间验证数据的一致性，例如分布式数据库中的数据同步。区块链：用于验证区块中的交易和确保区块链的完整性。Merkle 树的根节点通常包含在区块头中。...接收方可以再次计算数据的哈希值，然后将其与接收到的哈希值进行比较，以验证数据的完整性。如果两个哈希值不匹配，就表示数据已被篡改。...数据块校验和：将数据分成固定大小的块，并对每个块计算校验和（如CRC校验和）。接收方可以验证校验和以检测任何数据块的错误。...冗余备份：在P2P网络中，将数据存储在多个节点上，以便在某些节点失效或数据被篡改时能够从其他节点恢复数据。数据验证算法：定义特定的数据验证算法，以确保接收到的数据符合预期的规范和格式。...这些方法可以单独使用，也可以组合使用，具体取决于P2P网络的需求和设计。在设计P2P应用程序时，通常需要仔细考虑数据完整性的需求，并选择合适的方法来保护数据。

4203 0

VMware的虚拟机快照深入解析

粒度是稀疏磁盘使用写入时复制机制的度量单位。每个粒度均是一个包含虚拟磁盘数据的扇区块。默认大小为 128 个扇区或 64 KB。平面文件 -flat.vmdk 文件，组成基本磁盘的两个文件之一。...平面磁盘包含基本磁盘的原始数据。该文件在数据存储浏览器中不显示为单个文件。数据库文件 .vmsd 文件，包含虚拟机的快照信息，并且是快照管理器的主要信息源。...快照链：就是多个快照组成的关系链,这些快照按照创建时间排列成链在初始状态下，快照文件的大小为16MB，并随着虚拟机对磁盘文件的写操作而增长。...4、快照整合快照整合命令将在不违反数据依赖关系的情况下搜索要进行组合的层次结构或增量磁盘。整合后，将移除冗余磁盘，这样便可提高虚拟机性能并保存存储空间。...如果需要使用总线共享，则作为备用解决方案，请考虑在客户机操作系统中运行备份软件。如果虚拟机当前具有快照，并阻止您配置总线共享，请删除（整合）这些快照。

7.8K4 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭