开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

反规范化Pandas中的数据:如何创建col_1、col_2等并将现有值添加到列？

反规范化Pandas中的数据

基础概念

反规范化（Denormalization）是指将数据从规范化的形式转换为非规范化的形式，通常是为了提高查询性能。在数据库设计中，规范化是将数据分解成多个表，以减少数据冗余和提高数据一致性。而反规范化则是将这些数据重新组合，以便在某些情况下可以更快地访问数据。

在Pandas中，反规范化通常涉及将多个列的数据合并到一个新的列中，或者将一行数据拆分成多行。

相关优势

查询性能提升：反规范化可以减少数据库查询时的连接操作，从而提高查询速度。
简化应用逻辑：在某些情况下，反规范化可以使应用程序的逻辑更加简单，因为数据已经以一种更容易处理的方式组织。

类型

垂直反规范化：将多个表合并成一个表。
水平反规范化：将一行数据拆分成多行。

应用场景

数据仓库：在数据仓库中，为了提高查询性能，通常会进行反规范化。
报表生成：生成复杂报表时，反规范化可以简化数据处理过程。

示例代码

假设我们有一个DataFrame，包含以下列：id, col_1_value, col_2_value。我们希望将这些值分别提取到新的列col_1和col_2中。

import pandas as pd

# 创建示例DataFrame
data = {
    'id': [1, 2, 3],
    'col_1_value': ['A', 'B', 'C'],
    'col_2_value': ['X', 'Y', 'Z']
}
df = pd.DataFrame(data)

# 反规范化：创建新的列并添加现有值
df['col_1'] = df['col_1_value']
df['col_2'] = df['col_2_value']

# 删除原始值列
df = df.drop(columns=['col_1_value', 'col_2_value'])

print(df)

输出：

   id col_1 col_2
0   1     A     X
1   2     B     Y
2   3     C     Z

遇到的问题及解决方法

问题：如果原始数据中存在缺失值，如何处理？

原因：缺失值可能会导致新列中出现空值，影响后续数据处理。

解决方法：

填充缺失值：可以使用fillna()方法填充缺失值。
删除缺失值：可以使用dropna()方法删除包含缺失值的行。

# 填充缺失值
df['col_1'] = df['col_1'].fillna('Unknown')
df['col_2'] = df['col_2'].fillna('Unknown')

# 或者删除包含缺失值的行
df = df.dropna(subset=['col_1', 'col_2'])

通过上述方法，可以有效地处理Pandas中的反规范化问题，并确保数据的完整性和一致性。

相关搜索:如何在pandas中创建逻辑，以便基于其他列中的现有值创建新列？如何在pandas数据框架中创建新列作为现有列的函数？如何在Pandas数据框中创建列值基于其他列的条件列如何根据列中前20%的值创建pandas数据框？如何从pandas数据帧中另一列的多个值创建列中的值列表？如何基于数据框架(pivot或unpivot？)中的列值在pandas中创建新列。如何将列添加到由静态预定义列表组成的现有pandas数据框架中？如何从现有数据帧中某一列的前10位创建新的pandas数据帧如何在pandas数据透视表中创建仅包含已填充列的匹配值的新列？如何创建从没有重复的列中获取的唯一值的pandas数据帧如何根据另一列的值将pandas数据帧的某些行添加到列表中 Pandas，如何将一行中的值与同一列中的所有其他行进行比较，并将其作为新列中的新行值添加到新列中？如何在云函数中读取csv文件的创建和更新元数据，并将其作为列添加到csv中如何有效地将多列添加到具有依赖于其他动态列值的pandas数据框中从Pandas Dataframe中的一行中获取某些列值，并将它们添加到另一个数据帧中如何在pandas (Python3)中创建具有特定值作为列的自定义数据帧？如何将新键添加到现有字典中，并将以前的键作为值附加到在for循环中创建的新键: python 当我尝试将csv数据框中的列添加到在pandas上打开的现有数据框中时，为什么我一直得到'Nan‘值？在pandas中，如何检查两个字符串是否与现有数据框中任意行中的多个列匹配并将其删除如何在Pandas数据框中使用由同一行中的其他列确定的值创建新列

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

想学数据分析但不会Python，过来看看SQL吧（上）~

SELECT col_name FROM table_name; 检索多列从table_name表中检索col_1,col_2和col_3列。...SELECT col_1,col_2,col_3 FROM table_name; 检索所有列使用通配符*，返回table_name表中的所有列； SELECT * FROM table_name;...检索某列中不同的值检索col_1中具有唯一性的行，即唯一值。...降序排序 SELECT col_1,col_2 FROM table_name ORDER BY col_2 DESC,col_3; 返回的数据会按照col_2列降序，col_3列升序对col_1和col...使用示例：在表table_1列col_1中筛选出满足条件col_1 运算符 value的值。

1.4K2 0

在gpu上运行Pandas和sklearn

我们将创建cuDF（cuda dataframe），其大小为10000000行x 2列(10M x 2)，首先导入需要的库： import cudf import pandas as pd import...我们看看创建时的时间对比：现在让我们看看GPU是否通过对这些数据帧执行一些操作来提高性能!...对数运算为了得到最好的平均值，我们将对两个df中的一列应用np.log函数，然后运行10个循环: GPU的结果是32.8毫秒，而CPU（常规的pandas）则是2.55秒!...基于gpu的处理快的多的多。从" Int "到" String "的数据类型转换通过将的“col_1”(包含从0到10M的整数值)转换为字符串值(对象)来进一步测试。...cuml.metrics.regression import r2_score from sklearn.linear_model import LinearRegression as skLinearRegression 创建虚拟数据并将其拆分

1.6K2 0

大数据ETL实践探索（5）---- 大数据ETL利器之 pandas

在下面的代码片段中，数据清洗代码被封装在了一些函数中，代码的目的十分直观。...如果你有兴趣学习如何使用「Pandas」来处理大数据，我强烈推荐你阅读「Why and How to Use Pandas with Large Data」这篇文章（https://towardsdatascience.com...删除列中的字符串 def remove_col_str(df): # remove a portion of string in a dataframe column - col_1 df...你可以很容易地使用 df[‘col_1’].replace 来处理该问题，其中「col_1」是数据帧 df 中的一列。...在字符串的开头有一些空格是很常见的。因此，当你想要删除列中字符串开头的空格时，这种方法很实用。

1.4K3 0

SQL中的NULL

今天主要聊一下取数分析中容易忽略的点，尤其是SQL中的NULL值。...1、空值JOIN时导致数据丢失创建案例数据表 CREATE TABLE IF NOT EXISTS tmp_test_3 ( id_1 INT, col_1 VARCHAR(255), col_2 VARCHAR...现在有个业务，部分数据存在tmp_test_3表，有一些存在tmp_test_4表，假设要得到两个表中的数据，需要这两个表按col_2、col_4列JOIN连接。...直接说原因：在tmp_test_3和tmp_test_4表中用于join的列存在NULL值，而NULL和任何值做比较都是返回的NULL（即不能对NULL进行！=、=、>、<等判断，返回是NULL）。...，也可以对多个列运算后求和忽略NULL值，且当对多个列运算求和时，如果运算的列中任意一列的值为NULL，则忽略这行的记录。

8751 0

让SQL起飞（优化）

本文给大家总结如何让SQL起飞（优化）一、SQL写法优化在SQL中，很多时候不同的SQL代码能够得出相同结果。...这里用Items表和SalesHistory表举例：图片我们思考一下如何从上面的商品表Items中找出同时存在于销售记录表SalesHistory中的商品。简而言之，就是找出有销售记录的商品。...如果你建立一个（col_1, col_2, col_3）的联合索引，相当于建立了 (col_1)、(col_1,col_2)、(col_1,col_2,col_3) 三个索引。...* FROM SomeTable WHERE col_2 = 100 AND col_1 = 10 ; 联合索引中的第一列（col_1）必须写在查询条件的开头，而且索引中列的顺序不能颠倒。...可能需要说明的是最后一条SQL为什么会走索引，简单转化一下，col_2 = 100 AND col_1 = 10，这个条件就相当于col_1 = 10 AND col_2 = 100，自然就可以走联合做因

1.4K4 2

DataFrame表样式设置(一)

直到我遇到了StyleFrame模块，这个模块是把Pandas和openpyxl进行了结合，让你既可以享受DataFrame的操作便利，又可以轻松利用openpyxl进行表格样式设置。...Excel中我们平常设置的主要有字体(类型、颜色、边框线、背景色、下划线、大小、加粗)、对齐方式(水平方向、垂直方向)、数字(数据显示格式，百分数、小数点位数、时间格式等设置)、条件格式四个部分。...当我们把字体样式设置成Arial样式，实现代码如下： #将col_1和col_2列的字体设置成微软雅黑 sf.apply_column_style(cols_to_style=["col_1","col..._1列的字体设置成绿色，col_2列字体设置成红色，实现代码如下： sf.apply_column_style(cols_to_style=["col_1"],...我们把col_1列的单元格背景设置成绿色，col_2列单元格背景设置成红色，实现代码如下： sf.apply_column_style(cols_to_style=["col_1"],

5.3K3 1

还在为数据清洗抓狂？这里有一个简单实用的清洗代码集

我的数据清洗小工具箱在下面的代码片段中，数据清洗代码被封装在了一些函数中，代码的目的十分直观。你可以直接使用这些代码，无需将它们嵌入到需要进行少量参数修改的函数中。 1....如果你有兴趣学习如何使用「Pandas」来处理大数据，我强烈推荐你阅读「Why and How to Use Pandas with Large Data」这篇文章（https://towardsdatascience.com...删除列中的字符串 def remove_col_str(df): # remove a portion of string in a dataframe column - col_1 df...你可以很容易地使用 df['col_1'].replace 来处理该问题，其中「col_1」是数据帧 df 中的一列。 6....在字符串的开头有一些空格是很常见的。因此，当你想要删除列中字符串开头的空格时，这种方法很实用。 7.

7292 0

Pandas数据显示不全？快来了解这些设置技巧！ ⛵

图片对 Pandas 不熟悉的同学，一定要学习下这个宝藏工具库哦！ShowMeAI 给大家做了一个详尽的教程，可以在 ? Python 数据分析教程中查看，我们同时也制作了 ?...小数位精度不一致对于浮点型的字段列，Pandas 可能有不同的位精度。例如下图中，col_1 精确到小数点后一位，而 col_2 精确到小数点后三位。有时候精度的不一致可能会有信息的差异。...图片在本篇内容中，ShowMeAI 将介绍如何使用 Pandas 自定义设置来解决诸如上述的问题。...主要的设置包括下面内容：自定义要显示的行数自定义要显示的列数自定义列宽使浮点列之间的小数位精度保持一致禁用科学记数法其他用法注意：以上设置仅更改数据的显示呈现方式，实际并不会影响Dataframe存储的数据...设置字段小数位精度一致前面提到的一个例子中，col_1 和 col_2 的小数位精度不一致：图片我们可以通过设置 display.float_format 至 "{:.2f}".format 使格式一致

2.9K6 1

SQL 进阶技巧（下）

1 取得唯一行数据库引擎只要发现满足条件的一行数据则立即停止扫描，，这种情况适用于只需查找一条满足条件的数据的情况三、注意组合索引，要符合最左匹配原则才能生效假设存在这样顺序的一个联合索引“col...，第三条由于没有先匹配 col_1，导致无法命中索引，另外如果无法保证查询条件里列的顺序与索引一致，可以考虑将联合索引拆分为多个索引。...，聚簇索引叶子节点上存有主键值+整行数据，非聚簇索叶子节点上则存有辅助索引的列值 + 主键值，如下 ?...所以就算对 COUNT(*) 使用主键查找，由于每次取出主键索引的叶子节点时，取的是一整行的数据，效率必然不高，但是非聚簇索引叶子节点只存储了「列值 + 主键值」,这也启发我们可以用非聚簇索引来优化，假设表有一列叫...），降低性能，而如果我们所要的数据就在组合索引里，只需读取组合索引列，这样网络带宽将大大减少,假设有组合索引列 (col_1, col_2) 推荐用 SELECT col_1, col_2 FROM

6272 0

数据库优化：SQL高性能优化指南，助你成就大神之路！

1、参数是子查询时，使用 EXISTS 代替 IN 如果 IN 的参数是（1，2，3）这样的值列表时，没啥问题，但如果参数是子查询时，就需要注意了。...8、减少中间表在 SQL 中，子查询的结果会产生一张新表，不过如果不加限制大量使用中间表的话，会带来两个问题，一是展示数据需要消耗内存资源，二是原始表中的索引不容易用到，所以尽量减少中间表也可以提升性能...“col_1, col_2, col_3”。...，第三条由于没有先匹配 col_1，导致无法命中索引，另外如果无法保证查询条件里列的顺序与索引一致，可以考虑将联合索引拆分为多个索引。...），降低性能，而如果我们所要的数据就在组合索引里，只需读取组合索引列，这样网络带宽将大大减少,假设有组合索引列 (col_1, col_2) 推荐用 SELECT col_1, col_2 FROM

8322 0

简单实用的数据清洗代码

如果你对学习如何用Pandas处理大型数据感兴趣，我强烈建议你看一看这篇文章——为什么和如何用Pandas处理大型数据。 3....有些时候，在你字符串类型的列中，你可能要面对换行符或是奇怪的符号的出现。...这个问题可以被df['col_1'].replace轻松解决, 其中，col_1指的是数据帧中的某列。 6....所以列中字符串前有空格的情况时有发生。因此，如果你想移除它们时，这个办法很管用。 7....譬如，你想把第一列和第二列合并，条件是根据第一列中以特定字母们结束的字符串。在合并后，根据你的需要，末尾字母们也可被移除。

1K4 0

快速对表的某字段赋递增的数值

假如有这张一张表，当时创建时没有用来存放递增的数值的int型字段。在使用的过程中，有这样的需求。..._1 NVARCHAR(20), col_2 NVARCHAR(40) );GO code-1:建表插入测试数据 INSERT INTO T33 (col_1,col_2)SELECT TOP...[name],20),NEWID() FROM sys.objects AS a CROSS JOIN sys.objects AS b;GO code-2:插入数据这时，如果需要在这张表上增加一列int...除了直接在SSMS的表设计器（添加字段id，并设置为自增列）上做之外，还可以使用脚本来实现。用脚本来实现有一个好处是：如果表已有的数据已经很多时，有很大的优势。...如何添加？ ----------2016-01-08 18:00 更新-------- 经过@goto13 的提醒，直接在添加id字段时，指定为自增列就已经可以实现最后的效果了。谢谢！

5346 0

Pandas 2.2 中文官方教程和指南（十·二）

True colindexes := { "B": Index(9, fullshuffle, zlib(1)).is_csi=True} In [544]: st.close() 请参阅这里如何在现有存储上创建完全排序索引...对于其他驱动程序，请注意 pandas 从查询输出中推断列 dtype，而不是通过查找物理数据库模式中的数据类型。例如，假设userid是表中的整数列。...它不是公共 API 的一部分，并将在未来的某个时候被删除而没有警告。分类数据分类数据可以导出为Stata数据文件，作为带有值标签的数据。导出的数据包括底层类别代码作为整数数据值和类别作为值标签。...要对 categories 和顺序进行更多控制，请提前创建CategoricalDtype，并将其传递给该列的dtype。...URL，用于访问压缩存档中的数据，文件的本地缓存等。

2610 0

SQL 进阶技巧（上）

中查询 col_1 */ SELECT col_1 FROM SomeTable; 多行注释很多人不知道，这种写法不仅可以用来添加真正的注释，也可以用来注释代码，非常方便 3、缩进就像写 Java...，Python 等编程语言一样，SQL 也应该有缩进，良好的缩进对提升代码的可读性帮助很大，以下分别是好的缩进与坏的缩进示例 -- 好的缩进 SELECT col_1, col_2,...MAX(col_2) FROM tbl_B WHERE col_3 = 100 ) GROUP BY col_1, col_2, col_3 4、空格代码中应该适当留有一些空格，如果一点不留，...我们经常需要按分数，人数，销售额等进行排名，有 Oracle, DB2 中可以使用 RANK 函数进行排名，不过在 MySQL 中 RANK 函数未实现，这种情况我们可以使用自连接来实现,如对以下 Products...八、减少中间表在 SQL 中，子查询的结果会产生一张新表，不过如果不加限制大量使用中间表的话，会带来两个问题，一是展示数据需要消耗内存资源，二是原始表中的索引不容易用到，所以尽量减少中间表也可以提升性能

1.1K2 0

想学数据分析但不会Python，过来看看SQL吧（下）~

如上，我们创建了一个子查询，放在小括号里，并将其命名为sub。...创建链接的方式很简单，如下便是使用WHERE创建链接： SELECT col_1,col_2,col_3 FROM table_1,table_2 WHERE table_1.id = table2.id...; 如上，col_1和col_2属于table_1表中，col_3属于table_2表中，而这两个表使用相同的id列进行匹配。...： SELECT AVG(col_1) AS avg_col_1 FROM table_1; ⚠️聚合函数都会忽略列中的NULL值，但是COUNT(*)也就是统计全部数据的行数时，不会忽略NULL值。...使用示例： COALESCE(col_1,0) -- 将col_1中的NULL值替换为0 COALESCE(col_2,'no DATA') -- 将col_2中的NULL值替换为no DATA 总结

3.1K3 0

盘一盘 Python 特别篇 15 - Pivot Table

透视表是一种做多维数据分析的工具，还记得 Pandas 的 split-apply-combine 三部曲吗？首先用 groupby 分组，再平行将某个函数应用到各组上，最后自动连接成一个总表。...先看一张图： Pivot 字面意思是支点，即上图中的 index 和 columns 指定的行和列标签，支点可想理解成数据 (values) 在哪个维度上做整合 (aggfunc)，再吧 NaN 值用...因为这两列的值是数值型 (int, float)，而其他例的值是非数值型 (object)，用 df.dtypes 就可看出。...aggfunc 参数还可以传进一个字典来实现不同列下应用不同的整合函数，语法如下： aggfunc = {col_1:func_1, col_2:func_2, ... col_n:func_n} pd.pivot_table...语法如下： aggfunc = {col_1:func_1, col_2:func_list, ... col_n:func_n} 假设第二列传入一个函数列表。

1.4K2 0

SQL性能优化基础|技术创作特训营第一期

人数，销售额等进行排名，有 Oracle, DB2 中可以使用 RANK 函数进行排名，不过在 MySQL 中 RANK 函数未实现，这种情况我们可以使用自连接来实现,如对以下 Products 表按价格高低进行排名图片图片结果如下...（1，2，3）这样的值列表时，没啥问题，但如果参数是子查询时，就需要注意了。...，只需读取组合索引列，这样网络带宽将大大减少,假设有组合索引列 (col_1, col_2)推荐用SELECT col_1, col_2 FROM SomeTable WHERE col_1 =...通过遵循SQL的书写规范，使用进阶技巧如别名、子查询和连接操作来简化复杂查询，并通过合理创建索引、优化查询逻辑和结构、优化数据库表设计、避免全表扫描以及调整数据库服务器参数等方法来提高查询效率。...3、SQL 的优化方法：合理创建索引、优化查询逻辑和结构、优化数据库表设计、避免全表扫描、调整数据库服务器参数。

3642 0

MySQL 8.0 之 Online DDL快速加列

说实话，这个问题还真不好回答，为什么要迁移，一定是遇到了某种瓶颈，可能是数据量也可能是数据类型等，于是我咨询了一下业务，最终得到了答案：这个业务中的某些表，要频繁的加字段。...Copy方法 MySQL5.5版本及之前的加列方法：Copy 它的执行示意图如下：我们有一个原表A，只包含1个字段，它包含1、2、4、6这几条记录，当我们使用Copy算法加列时： 1、创建了一个新的表...可以看到，Copy算法需要拷贝一遍数据，需要额外的存储空间来存储tmp-A这个临时表。另外，在拷贝数据的过程中，表A的写入操作会丢失，也就是说，表A在alter table的过程中不能有数据更新。...另外，这里需要解释下，Copy算法中生成的tmp-A临时表是在Server层面创建的，而上述Online DDL操作中的tmp-file是在插件式存储引擎Innodb内部生成的，我们把这种在Innodb...我们来看它的优势，首先我们创建一个表t1，并插入26w条数据，然后分别添加数据列col_1,col_2,col_3,并显示指定加列的算法为copy、inplace、和instant，结果如下： [test

2.3K2 1

2000字详解当Pandas遇上超大规模的数据集该如何处理呢？

，那么我们就可以将该列去除掉，代码如下 # Filter out unimportant columns df = df[['col_1','col_2', 'col_3', 'col_4', 'col...转变数据格式最后我们可以通过改变数据类型来压缩内存空间，一般情况下，Pandas模块会给数据列自动设置默认的数据类型，很多数据类型里面还有子类型，而这些子类型可以用更加少的字节数来表示，下表给出了各子类型所占的字节数...对于内存当中的数据，我们可以这么来理解，内存相当于是仓库，而数据则相当于是货物，货物在入仓库之前呢需要将其装入箱子当中，现在有着大、中、小三种箱子，现在Pandas在读取数据的时候是将这些数据无论其类型...因此我们优化的思路就在于是遍历每一列，然后找出该列的最大值与最小值，我们将这些最大最小值与子类型当中的最大最小值去做比较，挑选字节数最小的子类型。...我们举个例子，Pandas默认是int64类型的某一列最大值与最小值分别是0和100，而int8类型是可以存储数值在-128~127之间的，因此我们可以将该列从int64类型转换成int8类型，也就同时节省了不少内存的空间

3073 0

线性代数（持续更新中）

0\\3\end{bmatrix} 我们把第一个向量称作 col_1，第二个向量称作 col_2，分别表示第一列的向量和第二列的向量。...---- 列图像：即在二维平面上画出上面的列向量。解释：绿向量 col_1与蓝向量（两倍的绿向量 col_2）合成红向量 b。...---- 列图像的解释：观察列图像的向量 col_1,col_2,col3 的组合。...用列向量线性组合的观点阐述：col_1,col_2,col_3 通过所有的线性组合所得到的向量 b_i ，是否能够铺满整个空间？对上面这个例子，答案是肯定的。...（这是MATLAB等工具经常使用的算法。）

3086 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭