首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

稀疏矩阵的压缩方法

2.6.2 稀疏矩阵压缩 我们已经可以用Numpy中的二维数组表示矩阵或者Numpy中的np.mat()函数创建矩阵对象,这样就能够很方便地完成有关矩阵的各种运算。...最后,观察稀疏矩阵 ,第一行第一个非零元素之前共有 个非零元素;第二行的第一个非零元素之前共有 个非零元素,第三行的第一个非零元素之前共有 个非零元素;再记录矩阵中所有的非零数字个数...字典格式的稀疏矩阵 lil_matrix 基于行用列表保存稀疏矩阵的非零元素 下面以csr_matrix为例进行演示。...> 以上创建了一个用变量 m引用的被压缩过的矩阵,从输出信息可知,其中保存了 个元素,也就意味着对应的稀疏矩阵中都是零元素。...'>' with 3 stored elements in Compressed Sparse Row format> 这里创建了一个 的稀疏矩阵,然后用CSR方式压缩,从返回信息中可知,在m2

5.2K20

SciPy 稀疏矩阵(3):DOK

它被广泛应用于各种程序设计和应用中,扮演着关键的角色。散列表的主要优点是查找速度快,因为每个元素都存储了它的键和值,所以我们可以直接访问任何元素,无论元素在数组中的位置如何。...如果想存储三元组表示的稀疏矩阵的同时又要确保按照行列索引对元素进行访问的效率高,在存储三元组(非零元素)信息的过程中使用散列表是有必要的。...显然,我们需要把非零元素的行列索引作为散列表的键,非零元素的值作为散列表的值。...虽然我们之前试过把一个全 0 矩阵中的非主对角线上的零元素修改成了非零元素 1,存储的非零元素数量发生了变化,从 0 变成了 20。...(非零元素改非零元素) 按照关键字修改对应值 按照行列索引修改对应值(零元素改非零元素) 增加关键字和对应值 按照行列索引修改对应值(非零元素改零元素) 删除关键字和对应值 优缺点 SciPy DOK

37850
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【学术】一篇关于机器学习中的稀疏矩阵的介绍

    AiTechYun 编辑:Yining 在矩阵中,如果数值为0的元素数目远远多于非0元素的数目,并且非0元素分布无规律时,则称该矩阵为稀疏矩阵;与之相反,若非0元素数目占大多数时,则称该矩阵为稠密矩阵。...稀疏矩阵与大多数非零值的矩阵不同,非零值的矩阵被称为稠密矩阵。 如果矩阵中的许多系数都为零,那么该矩阵就是稀疏的。...还有一些更适合执行高效操作的数据结构;下面列出了两个常用的示例。 压缩的稀疏行。稀疏矩阵用三个一维数组表示非零值、行的范围和列索引。 压缩的稀疏列。...不过,我们可以很容易地计算出矩阵的密度,然后从一个矩阵中减去它。NumPy数组中的非零元素可以由count_nonzero()函数给出,数组中元素的总数可以由数组的大小属性给出。...因此,数组的稀疏性可以被计算为: sparsity = 1.0 - count_nonzero(A) / A.size 下面的例子演示了如何计算数组的稀疏性。

    3.8K40

    python的高级数组之稀疏矩阵

    稀疏矩阵的定义: 具有少量非零项的矩阵(在矩阵中,若数值0的元素数目远多于非0元素的数目,并且非0元素分布没有规律时,)则称该矩阵为稀疏矩阵;相反,为稠密矩阵。...对于稀疏矩阵,采用二维数组的存储方法既浪费大量的存储单元来存放零元素,又要在运算中浪费大量的时间来进行零元素的无效运算。因此必须考虑对稀疏矩阵进行压缩存储(只存储非零元素)。...CSR是一种编码的方式 一维数组data(数值):有序地存储了所有的非零值,它具有与非零元素同样多数量的元素,通常由变量nnz表示。...一维数组indptr(行偏移量):包含了证书使得indptr[i]是data中元素的索引,它是行i中的第一个非零元素。...Len(indice)==len(data)==nnz 备注:列索引表示数值所在的列号,从0开始。 数组data:包含矩阵中的非零元素,以行优先的形式保存。

    2.9K10

    推荐系统为什么使用稀疏矩阵?如何使用python的SciPy包处理稀疏矩阵

    这意味着当我们在一个矩阵中表示用户(行)和行为(列)时,结果是一个由许多零值组成的极其稀疏的矩阵。 ? 在真实的场景中,我们如何最好地表示这样一个稀疏的用户-项目交互矩阵?...实现背后的思想很简单:我们不将所有值存储在密集的矩阵中,而是以某种格式存储非零值(例如,使用它们的行和列索引)。...为了有效地表示稀疏矩阵,CSR使用三个numpy数组来存储一些相关信息,包括: data(数据):非零值的值,这些是存储在稀疏矩阵中的非零值 indices(索引):列索引的数组,从第一行(从左到右)开始...,我们标识非零位置并在该行中返回它们的索引。...在下面的图中,第一个非零值出现在第0行第5列,因此5作为索引数组中的第一个值出现,然后是1(第1行,第1列)。 indptr(指针):表示索引指针,返回一个行开始的数组。

    2.7K20

    盘一盘 Python 特别篇 20 - SciPy 稀疏矩阵

    引言 和稠密矩阵相比,稀疏矩阵的最大好处就是节省大量的内存空间来储存零。稀疏矩阵本质上还是矩阵,只不过多数位置是空的,那么存储所有的 0 非常浪费。...有兴趣的读者可以去官网去查询。 COO 采用三元组 (row, col, data) 的形式来存储矩阵中非零元素的信息,即把非零值 data 按着行坐标 row 和纵坐标 col 写成两个列表。...: data 保存每行中的非零元素的值 rows 保存每行非零元素所在的列号 (列号是按顺序排的)。...'>' with 13 stored elements in List of Lists format> 检查矩阵 A 的每行的非零值对应的列索引。...A.offsets array([-1, 0, 1], dtype=int32) 如果想看 A 中的元素,我们可用 toarray() 转换成 numpy 数组显示出来。

    2.1K30

    SciPy 稀疏矩阵(2):COO

    上回说到,计算机存储稀疏矩阵的核心思想就是对矩阵中的非零元素的信息进行一个必要的管理。...然而,我们都知道在稀疏矩阵中零元素的分布通常情况下没有什么规律,因此仅仅存储非零元素的值是不够的,我们还需要非零元素的其他信息,具体需要什么信息很容易想到:考虑到在矩阵中的每一个元素不仅有值,同时对应的信息还有矩阵的行和列...因此,将非零元素的值外加上其对应的行和列构成一个三元组(行索引,列索引,值)。然后再按照某种规律存储这些三元组。...:非零元素的行列索引可能会重复多次。...下回预告 COO 格式的稀疏矩阵因为只存储非零元素的信息,因此空间复杂度就是 O(k),其中 k 表示非零元素的个数。

    32620

    稀疏矩阵的概念介绍

    值数组 Value array:顾名思义,它将所有非零元素存储在原始矩阵中。数组的长度等于原始矩阵中非零条目的数量。在这个示例中,有 7 个非零元素。因此值数组的长度为 7。...列索引数组 Column index array:此数组存储值数组中元素的列索引。...(这里使用从零开始的索引) 行索引数组 Row index array:该数组存储所有当前行和之前行中非零值的累积计数。row_index_array [j] 编码第 j 行上方非零的总数。...首先,这里是 plt.spy () 函数的介绍:绘制二维数组的稀疏模式。这可视化了数组的非零值。 在上图中,所有黑点代表非零值。...所以可以理解为将这些数据转换为稀疏矩阵是值得得,因为能够节省很多得存储。 那么如何判断数据的稀疏程度呢?使用NumPy可以计算稀疏度。

    1.1K30

    SciPy 稀疏矩阵(5):CSR

    因此,获取 LIL 格式的稀疏矩阵中的某一行(第 i 行)的非零元素的列索引和元素值只需要分别访问 rows 属性(数组)第 i 个元素(动态数组)和 data 属性(数组)的第 i 个元素(动态数组)...如图所示,我们可以发现 LIL 格式的稀疏矩阵虽然可以快速获取某一行的信息,但是它任意相邻两行的非零元素的列索引以及对应元素值并不是存储在一段连续的内存空间中,换句话说就是当缓存中的第 i 行非零元素的信息即将用完的时候...(数组)最后多出了一个元素,该元素表示非零元素的个数,其他完全一样。...,shape 是矩阵的行列数(M 行 N 列),默认会通过非零元素行索引外加上非零元素列索引进行推断。...part 06、下回预告 BETTER LIFE 不同于 LIL 格式的稀疏矩阵把相邻两行的非零元素的列索引和元素值存储在内存的不同位置,CSR 格式的稀疏矩阵中相邻两行的非零元素的列索引和元素值在内存中是紧密相连的

    16710

    稀疏矩阵的概念介绍

    值数组 Value array:顾名思义,它将所有非零元素存储在原始矩阵中。数组的长度等于原始矩阵中非零条目的数量。在这个示例中,有 7 个非零元素。因此值数组的长度为 7。...列索引数组 Column index array:此数组存储值数组中元素的列索引。...(这里使用从零开始的索引) 行索引数组 Row index array:该数组存储所有当前行和之前行中非零值的累积计数。row_index_array [j] 编码第 j 行上方非零的总数。...首先,这里是 plt.spy () 函数的介绍:绘制二维数组的稀疏模式。这可视化了数组的非零值。 在上图中,所有黑点代表非零值。...所以可以理解为将这些数据转换为稀疏矩阵是值得的,因为能够节省很多的存储。 那么如何判断数据的稀疏程度呢?使用NumPy可以计算稀疏度。

    1.7K20

    张量 Tensor学习总结

    张量索引和张量运算 Tensor索引与Numpy索引类似,索引从0开始编制,负索引表示按倒序编制,冒号:和 ...用于对数据进行切片。...Tensor与NumPy互相转换 稀疏张量 稀疏张量是一种特殊类型的张量,其中大部分元素的值为零。在一些应用场景中,如推荐系统、分子动力学、图神经网络等,数据的特征往往是稀疏的。...CSRTensor CSR稀疏张量格式以values、indptr和indices存储非零元素的值和位置,具有高效的存储与计算优势。...其中,indptr表示每一行非零元素在values中的起始位置和终止位置,indices表示非零元素在列中的位置,values表示非零元素的值,shape表示稀疏张量的形状。...COOTensor COO(Coordinate Format)稀疏张量格式用于表示在给定索引上非零元素的集合,包括indices(非零元素下标)、values(非零元素的值)和shape(稀疏张量的形状

    9610

    稀疏数组如何帮助我们节省内存,提升性能

    什么是稀疏矩阵 稀疏矩阵是指矩阵中大部分元素为零的矩阵。在实际应用中,很多矩阵都是稀疏的,比如网络图、文本数据等。由于矩阵中存在大量的零元素,因此稀疏矩阵的存储和计算都具有一定的特殊性。...一般来说,在矩阵中,若数值为0的元素数目远远多于非0元素的数目,并且非0元素分布没有规律时,则称该矩阵为稀疏矩阵;与之相反,若非0元素数目占大多数时,则称该矩阵为稠密矩阵。...在实际应用中通常使用三元组表示稀疏矩阵: 三元组的表示方法是:对于一个 m×n 的稀疏矩阵 A,我们只存储矩阵中非零元素的信息,具体来说,将每个非零元素的行下标、列下标和值存储下来,得到一个三元组(i,...在构造函数中,我们传入矩阵的行数和列数,并创建了一个 HashMap 对象 matrix 来存储非零元素。...总结 相较于传统的数组存储或键值对存储,稀疏矩阵存储采用一种基于行索引的数据字典存储方法,这种方法在处理松散布局的表格数据时表现出色。

    38160

    【python语言学习】(一)向量、矩阵和数组

    向量、矩阵和数组 1.0简介 1.1创建一个向量 1.2创建一个矩阵 1.3创建一个稀疏矩阵 1.4选择元素 1.5展示一个矩阵的属性 1.0简介 向量(vector) 矩阵(matrice) 张量(tensor...([[1], [2], [3]]) 1.2创建一个矩阵 (●’◡’●)通过二维数组来创建一个矩阵 三行两列 import numpy as np matrix = np.array([[1, 2], [...1, 2], [1, 2]]) NumPy提供了专门的数据结构来表示矩阵,但不推荐使用矩阵数据结构 实际上数组才是NumPy的标准数据结构 绝大多数NumPy操作返回的是数组而不是矩阵对象 1.3创建一个稀疏矩阵...(●’◡’●)表示只有零星非零值的数据 稀疏矩阵只保存非零元素并假设剩余元素的值都是零,节省大量的计算成本 稀疏行(CSR) 下标的编号从0开始 Scipy #加载库 import numpy as...[3, 0]]) #创建一个压缩的稀疏行(Compressed Sparse Row,CSR)矩阵 matrix_sparse = sparse.csr_matrix(matrix) 1.4选择元素 (

    52110

    SciPy 稀疏矩阵(4):LIL(上)

    因此,针对有序稀疏向量组的压缩存储是稀疏矩阵处理中一个非常有效的方法。 稀疏向量的压缩存储是一种高效的数据存储方式,它只存储非零元素的索引和值,而不是存储整个向量。...同时,由于只存储非零元素,在进行向量运算时,可以只对非零元素进行操作,从而提高了运算的效率。因此,稀疏向量的压缩存储在处理大规模数据和高维数据时具有非常重要的作用。...对于稀疏向量的压缩存储,虽然只涉及到非零元素的索引和值,但其代码实现方式多种多样。一一详述这些实现方式既不现实,也完全没有必要。实际上,稀疏向量的存储策略主要可以分为两种:二元组容器法和两个序列法。...还有两点需要注意:第一,这两个序列并不是使用 Python 列表,而是其元素为 Python 列表的 NumPy 数组;第二,行向量组索引序列中的元素(序列)都是排好序的(便于使用二分查找来提高查找效率...(非零元素改非零元素) 有序顺序表的二分查找(找到并修改) O(log₂n) 按照行列索引修改对应值(零元素改非零元素) 有序顺序表的二分查找(找不到并插入) O(n) 按照行列索引修改对应值(非零元素改零元素

    24210

    如何使用python处理稀疏矩阵

    我们如何更好地表示这些稀疏矩阵?我们需要一种方法来跟踪零不在哪里。那么关于列表,我们在其中一个列中跟踪row,col非零项目的存在以及在另一列中其对应值的情况呢?请记住,稀疏矩阵不必只包含零和一。...只要大多数元素为零,无论非零元素中存在什么,矩阵都是稀疏的。 我们还需要创建稀疏矩阵的顺序, 我们是一行一行地行进,在遇到每个非零元素时存储它们,还是一列一列地进行?...如果我们决定逐行进行,那么刚刚创建了一个压缩的稀疏行矩阵。如果按列,则现在有一个压缩的稀疏列矩阵。方便地,Scipy对两者都支持。 让我们看一下如何创建这些矩阵。...数组中的位置,因此,目前并没有迫切要求将它们转换回标准Numpy表示形式。...可能还有内存限制阻止这样做(请记住,这是采用此方法的主要原因之一)。但是,仅出于演示目的,这里介绍了如何将稀疏的Scipy矩阵表示形式转换回Numpy多维数组。

    3.5K30

    如何秒理解和实现稀疏数组?有两下子!

    稀疏数组的存储方式是将二维数组的非零元素及其下标存储起来,其中第一行存储原始二维数组的行数、列数及非零元素个数;接下来每行都存储一个非零元素的行数、列数及值。  ...稀疏数组的核心优势在于其对空间的高效利用。在许多实际应用中,数据集中的非零元素或非重复元素数量相对较少,这使得稀疏数组成为一种节省内存的理想选择。...3*3的稀疏数组,第一行表示原始二维数组的行数、列数及非零元素个数,接下来的两行分别表示非零元素的位置及其值。...数据结构选择  在实现稀疏数组时,选择合适的数据结构至关重要。在Java中,可以使用ArrayList或HashMap来存储非零元素的索引和值。...稀疏数组的核心概念  稀疏数组是针对那些大部分元素为零或相同值的二维数组优化的数据结构。它通过只存储非零元素及其索引的方式,显著减少了内存占用,提高了存储效率。

    20931

    如何写成高性能的代码(三):巧用稀疏矩阵节省内存占用

    一般来说,在矩阵中,若数值为0的元素数目远远多于非0元素的数目,并且非0元素分布没有规律时,则称该矩阵为稀疏矩阵;与之相反,若非0元素数目占大多数时,则称该矩阵为稠密矩阵。...定义非零元素的总数比上矩阵所有元素的总数为矩阵的稠密度。,下面的矩阵就是一个典型的稀疏矩阵。...通过稀疏矩阵存储方式优化 在稀疏矩阵中,我们可以使用三个不同的数组来存储行索引、列偏移、和其中的值,而不是直接在二维矩阵中存储值。以这种方式按列压缩稀疏矩阵 存储的三个数组: 值 =>单元格中的值。...行索引=>单元格的行索引。 列偏移=>这里每个索引都代表列,并且该数组将行开始的索引值存储在 Row 数组中。...和上面一样,来看看这种方式的复杂度: 空间:O(N) 插入:O(N) 删除:O(N) 搜索:O(N) 访问:O(1) 相较于传统的数组存储或是键值对存储,稀疏矩阵存储构建了基于行索引为 Key 的数据字典

    1.2K20

    SciPy 稀疏矩阵(6):CSC

    ,shape 是矩阵的行列数(M 行 N 列),默认会通过非零元素行索引外加上非零元素列索引进行推断。...csc_matrix((data, indices, indptr), [shape=(M, N)]):第 i 列非零元素的行索引是 indices[indptr[i]:indptr[i+1]],对应的非零元素值存储在...如何进行重复相加等化简操作只需要调用 sum_duplicates() 方法,调用该方法不仅会把重复的行索引的对应值相加,还会把同一列的行索引按从小到大的顺序排好。...对于一个大的稀疏矩阵我们显然也可以进行分块,只不过绝大多数情况下大量的块是元素全为零的矩阵,显然,我们可以通过仅存储非零矩阵块也能实现稀疏矩阵的压缩存储。...因此,我们可以模仿之前的所有的稀疏矩阵格式,只要把非零元素换成非零矩阵块即可。

    17410
    领券