所以科学家们找到的一种既能够保存信息,又节省内存的方案:我们称之为“稀疏矩阵”。 背景 Pandas的DataFrame 已经算作机器学习中处理数据的标配了 ,那么稀疏矩阵的真正需求是什么?...当涉及数百万行和/或数百列时,pandas DataFrames 变得最糟糕,这时因为 pandas DataFrams 存储数据的方式。例如下面的图,这是 CSV 文件的磁盘和内存大小比较。...有两种常见的矩阵类型,密集和稀疏。主要区别在于稀疏指标有很多零值。密集的指标没有。这是一个具有 4 列和 4 行的稀疏矩阵的示例。 在上面的矩阵中,16 个中有 12 个是零。...这就引出了一个简单的问题: 我们可以在常规的机器学习任务中只存储非零值来压缩矩阵的大小吗? 简单的答案是:是的,可以! 我们可以轻松地将高维稀疏矩阵转换为压缩稀疏行矩阵(简称 CSR 矩阵)。...回到嘴上面的图,这就是上面我们看到为什么pandas占用内存多的原因。 我们为什么要关心稀疏矩阵? 好吧,使用稀疏矩阵有很多很好的理由。他们主要是, 与基本方法相比,可节省大量内存。
所以科学家们找到的一种既能够保存信息,又节省内存的方案:我们称之为“稀疏矩阵”。 背景 Pandas的DataFrame 已经算作机器学习中处理数据的标配了 ,那么稀疏矩阵的真正需求是什么?...当涉及数百万行和/或数百列时,pandas DataFrames 变得最糟糕,这是因为 pandas DataFrames 存储数据的方式。例如下面的图,这是 CSV 文件的磁盘和内存大小比较。...什么是稀疏矩阵? 有两种常见的矩阵类型,密集和稀疏。主要区别在于稀疏指标有很多零值。密集的指标没有。这是一个具有 4 列和 4 行的稀疏矩阵的示例。 在上面的矩阵中,16 个中有 12 个是零。...这就引出了一个简单的问题: 我们可以在常规的机器学习任务中只存储非零值来压缩矩阵的大小吗? 简单的答案是:是的,可以! 我们可以轻松地将高维稀疏矩阵转换为压缩稀疏行矩阵(简称 CSR 矩阵)。...回到最上面的图,这就是上面我们看到为什么pandas占用内存多的原因。 我们为什么要关心稀疏矩阵? 好吧,使用稀疏矩阵有很多很好的理由。他们主要是: 与基本方法相比,可节省大量内存。
文章目录 1 scipy.sparse 1.1 SciPy 几种稀疏矩阵类型 1.2 lil_matrix 1.3 矩阵的通用属性 1.4 稀疏矩阵存取 2 pandas.sparse 2.1 SparseArray...: SciPy 稀疏矩阵笔记 Sparse稀疏矩阵主要存储格式总结 Python数据分析----scipy稀疏矩阵 1.1 SciPy 几种稀疏矩阵类型 SciPy 中有 7 种存储稀疏矩阵的数据结构...如果想做矩阵运算,例如矩阵乘法、求逆等,应该用 CSC 或者 CSR 类型的稀疏矩阵。...由于在内存中存储顺序的差异,csc_matrix 矩阵更适合取列切片, 而 csr_matrix 矩阵更适合用来取行切片。...(j) # 返回矩阵列j的一个拷贝,作为一个(mx 1) 稀疏矩阵 (列向量) mat.getrow(i) # 返回矩阵行i的一个拷贝,作为一个(1 x n) 稀疏矩阵 (行向量) mat.nonzero
稀疏与密集矩阵以及如何使计算机崩溃 上述代码的结果tfidf_matrix是压缩稀疏行(CSR)矩阵。 出于目的,要知道任何大多数零值的矩阵都是稀疏矩阵。这与大多数非零值的密集矩阵不同。...N-Grams矩阵有237,573行和389,905列。前10行和列如下所示: 这很稀疏。没有理由将所有这些零存储在内存中。如果这样做,就有可能耗尽RAM并触发一个MemoryError。...输入CSR矩阵,该矩阵仅存储矩阵的非零值和对其原始位置的引用。 重要的是CSR格式可以节省内存,同时仍允许快速行访问和矩阵乘法。...第三步:构建一个哈希表,将发现转换为电子表格中的“组”列 现在要构建一个Python字典,其中包含legal_name列中每个唯一字符串的键。 最快的方法是将CSR矩阵转换为坐标(COO)矩阵。...COO矩阵是稀疏矩阵的另一种表示。
NumPy 上 NumPy 下 Pandas 上 Pandas 下 SciPy 上 之前基础版的 11 节的目录如下: 编程概览 元素型数据 容器型数据 流程控制:条件-循环-异常处理 函数上...在 PDE FD 中用到了稀疏矩阵 (sparse matrix),这个算是 SciPy 中最有内容的知识点之一。和稠密矩阵相比,稀疏矩阵的最大好处就是节省大量的内存空间来储存零。...稀疏矩阵本质上还是矩阵,只不过多数位置是空的,那么存储所有的 0 非常浪费。...稀疏矩阵的存储机制有很多种 (列出常用的五种): COO (Coordinate List Format):座标格式,容易创建但是不便于矩阵计算,用 coo_matrix CSR (Compressed...Sparse Row): 压缩行格式,不容易创建但便于矩阵计算,用 csr_matri CSC (Compressed Sparse Column): 压缩列格式,不容易创建但便于矩阵计算,用 csc_matrix
但是,我们都知道,无论是 LIL 格式的稀疏矩阵还是 CSR 格式的稀疏矩阵全都把稀疏矩阵看成有序稀疏行向量组。然而,稀疏矩阵不仅可以看成是有序稀疏行向量组,还可以看成是有序稀疏列向量组。...我们完全可以把稀疏矩阵看成是有序稀疏列向量组,然后模仿 LIL 格式或者是 CSR 格式对列向量组中的每一个列向量进行压缩存储。...” PART. 01 SciPy CSC 格式的稀疏矩阵 SciPy CSC 格式的稀疏矩阵和 SciPy CSR 格式的稀疏矩阵差不多,属性名都是一样的,唯一不一样的地方就是 SciPy CSC 格式的稀疏矩阵把稀疏矩阵看成有序稀疏列向量组而...PART. 02 下回预告 不同于 LIL 格式和 CSR 格式都是把稀疏矩阵看成有序稀疏行向量组,然后对行向量组中每一个行向量进行压缩存储,CSC 格式把稀疏矩阵看成有序稀疏列向量组,然后通过模仿 CSR...然而,学过线性代数的人都非常地清楚,一个大矩阵可以分成很多个小矩阵,这样的矩阵被我们称之为分块矩阵。
这意味着当我们在一个矩阵中表示用户(行)和行为(列)时,结果是一个由许多零值组成的极其稀疏的矩阵。 ? 在真实的场景中,我们如何最好地表示这样一个稀疏的用户-项目交互矩阵?...压缩稀疏行(CSR) 尽管在SciPy中有很多类型的稀疏矩阵,比如键的字典(DOK)和列表的列表(LIL),但我只讨论压缩稀疏行(CSR),因为它是最常用和最广为人知的格式。...CSR(以及CSC,又名压缩稀疏列)用于写一次读多任务。...为了有效地表示稀疏矩阵,CSR使用三个numpy数组来存储一些相关信息,包括: data(数据):非零值的值,这些是存储在稀疏矩阵中的非零值 indices(索引):列索引的数组,从第一行(从左到右)开始...向csr_matrix写入将是低效的,并且应该考虑其他类型的稀疏矩阵,比如在操作稀疏结构方面更有效的List of lists。
scipy.sparse 相关函数: from scipy.sparse import coo_matrix, csr_matrix, diags, eye 导入了SciPy库中的稀疏矩阵相关功能。...coo_matrix:一种稀疏矩阵表示方式,使用三个NumPy数组(行坐标、列坐标、数据值)存储非零元素。...csr_matrix:另一种稀疏矩阵表示方式,使用行索引、列索引和数据值数组,适合高效的算术运算和矩阵向量积。 diags:用于创建对角矩阵的函数。...将中间部分的文字编码取出,作为特征矩阵: #将数据中间部分的字标签取出,转化成(稀疏)矩阵 features = csr_matrix(paper_features_label[:, 1:-1], dtype...# 对邻接矩阵对角线添加1,将其变为自循环图。
实例化 SciPy CSR 格式的稀疏矩阵类的定义位于 scipy.sparse 包中的 csr_matrix 类,对其进行实例化就能获取一个 SciPy CSR 格式的稀疏矩阵的实例。...最后我们以矩阵乘向量为例做一个性能测试,矩阵分别采用 LIL 格式和 CSR 格式,来看看 CSR 格式的稀疏矩阵相较于 LIL 格式的稀疏矩阵是否能够更充分地利用缓存。...从运行结果可以很明显的发现 CSR 格式的稀疏矩阵做矩阵向量乘法的性能要优于 LIL 格式的稀疏矩阵做矩阵向量乘法的性能,这验证了我们之前的理论分析。...part 06、下回预告 BETTER LIFE 不同于 LIL 格式的稀疏矩阵把相邻两行的非零元素的列索引和元素值存储在内存的不同位置,CSR 格式的稀疏矩阵中相邻两行的非零元素的列索引和元素值在内存中是紧密相连的...我们完全可以把稀疏矩阵看成是有序稀疏列向量组,然后模仿 LIL 格式或者是 CSR 格式对列向量组中的每一个列向量进行压缩存储。
你会看到为什么这样的矩阵包含多个零,这意味着它们将是稀疏的。 稀疏矩阵带来的一个问题是,它们可能会占用很大的内存。...我们如何更好地表示这些稀疏矩阵?我们需要一种方法来跟踪零不在哪里。那么关于列表,我们在其中一个列中跟踪row,col非零项目的存在以及在另一列中其对应值的情况呢?请记住,稀疏矩阵不必只包含零和一。...只要大多数元素为零,无论非零元素中存在什么,矩阵都是稀疏的。 我们还需要创建稀疏矩阵的顺序, 我们是一行一行地行进,在遇到每个非零元素时存储它们,还是一列一列地进行?...如果我们决定逐行进行,那么刚刚创建了一个压缩的稀疏行矩阵。如果按列,则现在有一个压缩的稀疏列矩阵。方便地,Scipy对两者都支持。 让我们看一下如何创建这些矩阵。...为此,要从左到右逐行遍历元素,并在遇到它们时将其输入到此压缩矩阵表示中。 压缩稀疏列矩阵又如何呢?
CSR、CSC是用于矩阵-矩阵和矩阵-向量运算的有效格式,LIL格式用于生成和更改稀疏矩阵。Python不能自动创建稀疏矩阵,所以要用scipy中特殊的命令来得到稀疏矩阵。...(1) 压缩稀疏行(CSR,Compressed Sparse Row):或csr_matrix 按行对矩阵进行压缩的。 ...CSR使用了三个数组,分别为数值、行偏移(表示某一行的第一个元素在数值里面的起始偏移位置,在行偏移的最后补上矩阵总的元素个数)、列号。...2:3]=[3]… (2) 稀疏列矩阵CSC(Compressed Sparse Column),用于CSC格式的类型为:csc_matrix 按列对矩阵进行压缩的。...、isspmatrix_csc、isspmatrix_csr等方法检查稀疏矩阵的类型。
向量、矩阵和数组 1.0简介 1.1创建一个向量 1.2创建一个矩阵 1.3创建一个稀疏矩阵 1.4选择元素 1.5展示一个矩阵的属性 1.0简介 向量(vector) 矩阵(matrice) 张量(tensor...1, 2], [1, 2]]) NumPy提供了专门的数据结构来表示矩阵,但不推荐使用矩阵数据结构 实际上数组才是NumPy的标准数据结构 绝大多数NumPy操作返回的是数组而不是矩阵对象 1.3创建一个稀疏矩阵...(●’◡’●)表示只有零星非零值的数据 稀疏矩阵只保存非零元素并假设剩余元素的值都是零,节省大量的计算成本 稀疏行(CSR) 下标的编号从0开始 Scipy #加载库 import numpy as...[3, 0]]) #创建一个压缩的稀疏行(Compressed Sparse Row,CSR)矩阵 matrix_sparse = sparse.csr_matrix(matrix) 1.4选择元素 (...●’◡’●)在向量或矩阵中选择一个或多个元素 #加载库 import numpy as np vector = np.array([1, 2, 3, 4, 5, 6]) # 创建矩阵 matrix =
【注】参考自: 稀疏矩阵存储格式总结+存储效率对比:COO,CSR,DIA,ELL,HYB。...2.2 Compressed Sparse Row(CSR) image.png CSR 格式是比较标准的一种格式,其同样需要三类数据来表示——数值、列号、行偏移。...对比 3.1 优缺点概述 存储格式 优点 缺点 COO 灵活、简单 压缩、稀疏矩阵矢量乘积效率低 CSR 灵活、简单 稀疏矩阵矢量乘积效率低 ELL 稀疏矩阵矢量乘积效率高 压缩效率不稳定 DIA 稀疏矩阵矢量乘积效率高...压缩效率不稳定 COO 格式常用于从文件中进行稀疏矩阵的读写,而 CSR 格式常用于读入数据后进行稀疏矩阵的计算。...3.2 存储效率 CSR 格式在存储稀疏矩阵时非零元素平均使用的字节数最为稳定;DIA 格式存储稀疏矩阵时非零元素平均使用的字节数与矩阵类型关联较大,该格式更适合 Structured Mesh 结构的稀疏矩阵
★矩阵压缩的基本原则: 不重复存储相同元素 不存储零元素 下面详细介绍一种压缩稀疏行(Compressed Sparse Row,CSR)的矩阵压缩方法。...对分块稀疏矩阵按行压缩 coo_matrix 坐标格式的稀疏矩阵 csc_matrix 压缩系数矩阵 csr_matrix 按行压缩 dia_matrix 压缩对角线为非零元素的稀疏矩阵 dok_matrix...字典格式的稀疏矩阵 lil_matrix 基于行用列表保存稀疏矩阵的非零元素 下面以csr_matrix为例进行演示。...引用的对象是对矩阵 施行 CSR 后的结果,从输出结果中可知,此对象是将原 的稀疏矩阵以CSR模式压缩为含有 12 个元素的对象。...可以通过csr_T的属性,分别得到行偏移量、列索引和值,请与前述分析对照,理解 CSR 的特点。
3 sparse稀疏矩阵构造 之前笔者也在研究稀疏矩阵,scipy.sparse、pandas.sparse、sklearn稀疏矩阵的使用,就顺便看一下SAR如何使用: 利用coo_matrix形成矩阵...其有五种实例化方法,其中前四种初始化方法类似coo_matrix,即通过密集矩阵构建、通过其他类型稀疏矩阵转化、构建一定shape的空矩阵、通过(row, col, data)构建矩阵。...其第五种初始化方式这是直接体现csr_matrix的存储特征:csr_matrix((data, indices, indptr), [shape=(M, N)]),意思是,矩阵中第i行非零元素的列号为...coo_matrix,另外还有属性如下: indices 与属性data一一对应,元素值代表在某一行的列号 indptr csr_matrix各行的起始值,length(csr_object.indptr...CSR + CSR,CSR * CSR等 高效的行切片 快速矩阵运算 csr_matrix的缺点: 列切片操作比较慢(考虑csc_matrix) 稀疏结构的转换比较慢(考虑lil_matrix或doc_matrix
多个数据结构可以用来有效地构造一个稀疏矩阵;下面列出了三个常见的例子。 Dictionary of Keys。在将行和列索引映射到值时使用字典。 List of Lists。...压缩的稀疏行。稀疏矩阵用三个一维数组表示非零值、行的范围和列索引。 压缩的稀疏列。与压缩的稀疏行方法相同,除了列索引外,在行索引之前被压缩和读取。...被压缩的稀疏行,也称为CSR,通常被用来表示机器学习中的稀疏矩阵,因为它支持的是有效的访问和矩阵乘法。...存储在NumPy数组中的稠密矩阵可以通过调用csr_matrix()函数将其转换为一个稀疏矩阵。...,接着是CSR表示,然后是重新构建的稠密矩阵。
最常用的稀疏矩阵存储格式主要有:COO(Coordinate Format)和CSR(Compressed Sparse Row)。...(2)CSR(Compressed Sparse Row) ? CSR是比较标准的一种,也需要三类数据来表达:数值,列号,以及行偏移。CSR不是三元组,而是整体的编码方式。...在行偏移的最后补上矩阵总的元素个数,本例中是9。 CSC是和CSR相对应的一种方式,即按列压缩的意思。...和CSR格式比起DIA和ELL来,更加灵活,易于操作; 3、ELL的优点是快速,而COO优点是灵活,二者结合后的HYB格式是一种不错的稀疏矩阵表示格式; 4、根据Nathan Bell的工作,CSR格式在存储稀疏矩阵时非零元素平均使用的字节数...,COO格式常用于从文件中进行稀疏矩阵的读写,如matrix market即采用COO格式,而CSR格式常用于读入数据后进行稀疏矩阵计算。
压缩稀疏行(Compressed Sparse Row,CSR)矩阵 压缩稀疏行(Compressed Sparse Row,CSR)是一种常用的稀疏矩阵存储格式。...CSR存储格式通过压缩非零元素的行指针和列索引,以及存储非零元素的值,来有效地表示稀疏矩阵。...CSR存储格式的主要优点是有效地压缩了稀疏矩阵的存储空间,只存储非零元素及其对应的行和列信息。此外,CSR格式还支持高效的稀疏矩阵向量乘法和稀疏矩阵乘法等操作。...接受矩阵的行数、列数和非零元素的个数作为参数,并返回创建的CSR矩阵。...接受一个指向CSR矩阵的指针 matrix,以及包含非零元素的值、行索引和列索引的数组,以及非零元素的个数作为参数。
稀疏矩阵的存储机制有很多种 (列出常用的五种): COO (Coordinate List Format):座标格式,容易创建但是不便于矩阵计算,用 coo_matrix CSR (Compressed...,一般创建成功之后可以转化成其他格式的稀疏矩阵 (如 CSR, CSC) 进行转置、矩阵乘法等操作,或者转成转成 LIL 做切片。...和 csr_matrix 正好相反,即按列压缩的稀疏矩阵存储方式,同样由三个一维数组 indptr, indices, data 组成, indices 存储每列中数据的行号,与属性 data 中的元素一一对应...这种格式很适合逐个添加元素,并且能快速获取行相关的数据。...如果要执行矩阵乘法或转置,将它们转换成 CSC 或 CSR 格式,效率最高。 总之,在运算稀疏矩阵时,绝对绝对不要直接使用 NumPy! Stay Tuned!
稀疏矩阵是指矩阵中元素大部分是0的矩阵,事实上,实际问题中大规模矩阵基本上是稀疏矩阵,很多稀疏度在90%甚至99%以上;因此我们需要有高效的稀疏矩阵存储格式。...Compressed Sparse Row (CSR) (以行压缩的形式进行表示) ? CSR是比较标准的一种,也需要三类数据来表达:数值,列号,以及行偏移。CSR不是三元组,而是整体的编码方式。...数值和列号与COO一致,表示一个元素以及其列号,行偏移表示某一行的第一个元素在values里面的起始偏移位置。...在行偏移的最后补上矩阵总的元素个数,本例中是9。 ? Compressed Sparse Column (CSC) (以列压缩的形式进行表示) CSC是和CSR相对应的一种方式,即按列压缩的意思。...https://www.cnblogs.com/xbinworld/p/4273506.html https://en.wikipedia.org/wiki/Sparse_matrix (上面对稀疏矩阵的格式
领取专属 10元无门槛券
手把手带您无忧上云