开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何创建一个dataframe，其中一列的输入是动态的，并通过依赖于该列中另一个条目的IF语句派生

要创建一个包含动态输入的DataFrame，并通过依赖于该列中另一个条目的IF语句派生，可以使用Python中的pandas库来实现。

首先，确保已经安装了pandas库。可以使用以下命令进行安装：

pip install pandas

接下来，导入pandas库并创建一个空的DataFrame：

import pandas as pd

df = pd.DataFrame()

然后，创建一个动态输入的列。假设这个列名为"input_column"，可以使用以下代码将数据添加到该列：

input_data = [1, 2, 3, 4, 5]  # 动态输入的数据

df["input_column"] = input_data

接下来，使用IF语句派生另一列。假设要创建的列名为"derived_column"，并且它依赖于"input_column"中的另一个条目。可以使用以下代码实现：

df["derived_column"] = df["input_column"].apply(lambda x: "条件满足的值" if x > 3 else "条件不满足的值")

在上述代码中，使用了lambda函数来定义IF语句的条件。如果"input_column"中的值大于3，则"derived_column"的值为"条件满足的值"，否则为"条件不满足的值"。

最后，可以打印DataFrame来查看结果：

print(df)

完整的代码示例如下：

import pandas as pd

df = pd.DataFrame()

input_data = [1, 2, 3, 4, 5]  # 动态输入的数据

df["input_column"] = input_data
df["derived_column"] = df["input_column"].apply(lambda x: "条件满足的值" if x > 3 else "条件不满足的值")

print(df)

这样就创建了一个包含动态输入的DataFrame，并通过依赖于该列中另一个条目的IF语句派生了另一列。请注意，这只是一个示例，你可以根据实际需求进行修改和扩展。

相关搜索:如何创建一个新列，该列是Pandas Dataframe中相似值组合在一起的另一列的最大值？在R到(ggplot)多个列中创建了一个for循环，其中有一个对应的列(x)，当它看到0并继续到下一列时该如何停止？手机号接验证码手机号注册网址手机号注册网站手机号码数据库手机号群发短信手机域名多少钱手机域名是什么手机域名的价值

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Python科学计算之Pandas

其中，标签可以是数字或者字符串。一个dataframe是一个二维的表结构。Pandas的dataframe可以存储许多种不同的数据类型，并且每一个坐标轴都有自己的标签。...这一语句返回1990年代的所有条目。 ? 索引前几部分为我们展示了如何通过列操作来获得数据。实际上，Pandas同样有标签化的行操作。这些行标签可以是数字或是其他标签。...在上面这个例子中，我们把我们的索引值全部设置为了字符串。这意味着我们不可以使用iloc索引这些列了。这种情况该如何？我们使用loc。 ?...对数据集应用函数有时候你会想以某些方式改变或是操作你数据集中的数据。例如，如果你有一列年份的数据而你希望创建一个新的列显示这些年份所对应的年代。...Pandas对此给出了两个非常有用的函数，apply和applymap。 ? 这会创建一个名为‘year‘的新列。这一列是由’water_year’列所导出的。它获取的是主年份。

2.9K0 0

整理了25个Pandas实用技巧

从剪贴板中创建DataFrame 假设你将一些数据储存在Excel或者Google Sheet中，你又想要尽快地将他们读取至DataFrame中。你需要选择这些数据并复制至剪贴板。...一个字符串划分成多列我们先创建另一个新的示例DataFrame: ? 如果我们需要将“name”这一列划分为三个独立的列，用来表示first, middle, last name呢？...如果我们只想保留第0列作为city name，我们仅需要选择那一列并保存至DataFrame: ? Series扩展成DataFrame 让我们创建一个新的示例DataFrame: ?...但是，一个更灵活和有用的方法是定义特定DataFrame中的格式化（style）。让我们回到stocks这个DataFrame: ? 我们可以创建一个格式化字符串的字典，用于对每一列进行格式化。...我们可以通过链式调用函数来应用更多的格式化： ? 我们现在隐藏了索引，将Close列中的最小值高亮成红色，将Close列中的最大值高亮成浅绿色。这里有另一个DataFrame格式化的例子： ?

2.8K4 0

整理了 25 个 Pandas 实用技巧，拿走不谢！

有很多种实现的途径，我最喜欢的方式是传一个字典给DataFrame constructor，其中字典中的keys为列名，values为列的取值。 ?...现在如果你需要创建一个更大的DataFrame，上述方法则需要太多的输入。...通过多种类型对DataFrame进行过滤让我们先看一眼movies这个DataFrame： ? 其中有一列是genre（类型）: ?...将一个字符串划分成多个列我们先创建另一个新的示例DataFrame: ? 如果我们需要将“name”这一列划分为三个独立的列，用来表示first, middle, last name呢？...比这个函数的输入要小： ? 解决的办法是使用transform()函数，它会执行相同的操作但是返回与输入数据相同的形状： ? 我们将这个结果存储至DataFrame中新的一列： ?

3.2K1 0

整理了25个Pandas实用技巧（下）

多种类型过滤DataFrame 让我们先看一眼movies这个DataFrame： In [60]: movies.head() Out[60]: 其中有一列是genre（类型）: 比如我们想要对该...一个字符串划分成多列我们先创建另一个新的示例DataFrame: 如果我们需要将“name”这一列划分为三个独立的列，用来表示first, middle, last name呢？...我们将会使用str.split()函数，告诉它以空格进行分隔，并将结果扩展成一个DataFrame: 这三列实际上可以通过一行代码保存至原来的DataFrame: 如果我们想要划分一个字符串，但是仅保留其中一个结果列呢...比如说，让我们以", "来划分location这一列：如果我们只想保留第0列作为city name，我们仅需要选择那一列并保存至DataFrame: Series扩展成DataFrame 让我们创建一个新的示例...但是，一个更灵活和有用的方法是定义特定DataFrame中的格式化（style）。让我们回到stocks这个DataFrame: 我们可以创建一个格式化字符串的字典，用于对每一列进行格式化。

2.4K1 0

使用 HyperTools 的正确姿势! | Kaggle 实战教程

DataFrame 的每一行对应着对某一个蘑菇的观察值，每一列反映出一个蘑菇的描述性特征。这里，仅展示了表单的一部分。现在，我们可以通过把数据导入 HyperTools，把高维数据在低维空间表示出来。...如果“菌盖尺寸”这一列包含“大”和“小”标签，这一列会被转为两个二元列，一个针对“大”，另一个针对“小”。 1 代表该特征（“大”或“小”）的存在，0 代表不存在。...（注：详细解释请参考 pandas 文件中的 get_dummies 函数） hyp.plot(data, 'o') ? 在绘制 DataFrame 上，我们实际上创建了一个三维的“蘑菇空间”。...为了用 HyperTools 来准备数据集，我们创建了一个时间/城市矩阵，每一行是接下来每月的气温记录，每一列是不同城市的气温值。...用鼠标旋转该数据图，旋即暴露出的结构很有意思。我们可以按照年份来对线条上色，使其结构更显眼，并帮助我们理解它如何随时间而变化。偏红的线条，意味着时间更久远，偏蓝的线条意味着时间更近。

1.3K9 0

使用 HyperTools 的正确姿势! | Kaggle 实战教程

DataFrame 的每一行对应着对某一个蘑菇的观察值，每一列反映出一个蘑菇的描述性特征。这里，仅展示了表单的一部分。现在，我们可以通过把数据导入 HyperTools，把高维数据在低维空间表示出来。...如果“菌盖尺寸”这一列包含“大”和“小”标签，这一列会被转为两个二元列，一个针对“大”，另一个针对“小”。 1 代表该特征（“大”或“小”）的存在，0 代表不存在。...（注：详细解释请参考 pandas 文件中的 get_dummies 函数） hyp.plot(data, 'o') ? 在绘制 DataFrame 上，我们实际上创建了一个三维的“蘑菇空间”。...为了用 HyperTools 来准备数据集，我们创建了一个时间/城市矩阵，每一行是接下来每月的气温记录，每一列是不同城市的气温值。...现在是压轴戏——在创建静态图形之外，HyperTools 还能创建动图，这有时能显露出数据中的其他模式。

8264 0

开发 | Kaggle实战：这才是使用数据降维&可视化工具 HyperTools 的正确姿势!

/input/mushrooms.csv') data.head() DataFrame 的每一行对应着对某一个蘑菇的观察值，每一列反映出一个蘑菇的描述性特征。这里，仅展示了表单的一部分。...如果“菌盖尺寸”这一列包含“大”和“小”标签，这一列会被转为两个二元列，一个针对“大”，另一个针对“小”。 1 代表该特征（“大”或“小”）的存在，0 代表不存在。...（AI科技评论注：详细解释请参考 pandas 文件中的 get_dummies 函数） hyp.plot(data, 'o') 在绘制 DataFrame 上，我们实际上创建了一个三维的“蘑菇空间...为了用 HyperTools 来准备数据集，我们创建了一个时间/城市矩阵，每一行是接下来每月的气温记录，每一列是不同城市的气温值。...hyp.plot(temps, normalize='across') 用鼠标旋转该数据图，旋即暴露出的结构很有意思。我们可以按照年份来对线条上色，使其结构更显眼，并帮助我们理解它如何随时间而变化。

1.9K5 0

直观地解释和可视化每个复杂的DataFrame操作

每种方法都将包括说明，可视化，代码以及记住它的技巧。 Pivot 透视表将创建一个新的“透视表”，该透视表将数据中的现有列投影为新表的元素，包括索引，列和值。...Unstack 取消堆叠将获取多索引DataFrame并对其进行堆叠，将指定级别的索引转换为具有相应值的新DataFrame的列。在表上调用堆栈后再调用堆栈不会更改该堆栈（原因是存在“ 0 ”）。...作为另一个示例，当级别设置为0（第一个索引级别）时，其中的值将成为列，而随后的索引级别（第二个索引级别）将成为转换后的DataFrame的索引。 ?...默认情况下，合并功能执行内部联接：如果每个DataFrame的键名均未列在另一个键中，则该键不包含在合并的DataFrame中。...因此，它接受要连接的DataFrame列表。如果一个DataFrame的另一列未包含，默认情况下将包含该列，缺失值列为NaN。

13.3K2 0

初学者的10种Python技巧

lambda 是关键字，提供了对表中的值执行操作的快捷方式。...其中第一列是DataFrame索引，第二列是代表单行if输出的系列。 lambda 代表“匿名函数”。...它使我们能够对DataFrame中的值执行操作，而无需创建正式函数-即带有def and return 语句的函数，我们将在稍后介绍。...函数sunny_shelf接受两个参数作为其输入-用于检查“full sun”的列和用于检查“ bach”的列。函数输出这两个条件是否都成立。...＃5 —读取.csv并设置索引假设该表包含一个唯一的植物标识符，我们希望将其用作DataFrame中的索引。我们可以使用index_col参数进行设置。

2.9K2 0

如何把时间序列问题转化为监督学习问题？通俗易懂的 Python 教程

我们可以定义一个由 10 个数字序列组成的伪时间序列数据集，该例子中，DataFrame 中的单个一列如下所示：运行该例子，输出时间序列数据，每个观察要有对应的行指数。...我们可以把处理过的列插入到原始序列旁边。运行该例子，使数据集有了两列。第一列是原始观察，第二列是 shift 过新产生的列。...第二行第二列（输入 X）现实输入值是 0.0，第一列的值是 1 （输出 y）。我们能看到，如果在 shift 2、3 …… 重复该过程，要如何创建能用来预测输出值 y 的长输出序列（X）。...Shift 操作器可以接受一个负整数值。这起到了通过在末尾插入新的行，来拉起观察的作用。下面是例子：运行该例子显示出，新的一列的最后一个值是一个 NaN 值。...函数返回一个单个的值： return: 序列的 Pandas DataFrame 转为监督学习。新数据集创建为一个 DataFrame，每一列通过变量字数和时间步命名。

2.5K7 0

开发 | 如何把时间序列问题转化为监督学习问题？通俗易懂的 Python 教程

我们可以定义一个由 10 个数字序列组成的伪时间序列数据集，该例子中，DataFrame 中的单个一列如下所示：运行该例子，输出时间序列数据，每个观察要有对应的行指数。...我们可以把处理过的列插入到原始序列旁边。运行该例子，使数据集有了两列。第一列是原始观察，第二列是 shift 过新产生的列。...第二行第二列（输入 X）现实输入值是 0.0，第一列的值是 1 （输出 y）。我们能看到，如果在 shift 2、3 ……重复该过程，要如何创建能用来预测输出值 y 的长输出序列（X）。...Shift 操作器可以接受一个负整数值。这起到了通过在末尾插入新的行，来拉起观察的作用。下面是例子：运行该例子显示出，新的一列的最后一个值是一个 NaN 值。...函数返回一个单个的值： return: 序列的 Pandas DataFrame 转为监督学习。新数据集创建为一个 DataFrame，每一列通过变量字数和时间步命名。

1.6K5 0

在所有Spark模块中，我愿称SparkSQL为最强！

并且将要处理的结构化数据封装在DataFrame中，在最开始的版本1.0中，其中DataFrame = RDD + Schema信息。...比如在foreach函数中，将RDD中所有数据写MySQL，那么如果是普通的foreach算子，就会一条数据一条数据地写，每次函数调用可能就会创建一个数据库连接，此时就势必会频繁地创建和销毁数据库连接，...映射下推(Project PushDown) 说到列式存储的优势，映射下推是最突出的，它意味着在获取表中原始数据时只需要扫描查询中需要的列，由于每一列的所有值都是连续存储的，所以分区取出每一列的所有值就可以实现...Row Group里所有需要的列的Cloumn Chunk都读取到内存中，每次读取一个Row Group的数据能够大大降低随机读的次数，除此之外，Parquet在读取的时候会考虑列是否连续，如果某些需要的列是存储位置是连续的...无论是行式存储还是列式存储，都可以在将过滤条件在读取一条记录之后执行以判断该记录是否需要返回给调用者，在Parquet做了更进一步的优化，优化的方法时对每一个Row Group的每一个Column Chunk

1.7K2 0

【Python】这25个Pandas高频实用技巧，不得不服！

有很多种实现的途径，我最喜欢的方式是传一个字典给DataFrame constructor，其中字典中的keys为列名，values为列的取值。...通过多种类型对DataFrame进行过滤我们先看一眼movies这个DataFrame： movies.head() 其中有一列是genre（类型）: movies.genre.unique()...类似地，你可以通过mean()和isna()函数找出每一列中缺失值的百分比。...将一个字符串划分成多个列我们先创建另一个新的示例DataFrame: df = pd.DataFrame({'name':['John Arthur Doe', 'Jane Ann Smith'],...我们回到stocks这个DataFrame: stocks 我们可以创建一个格式化字符串的字典，用于对每一列进行格式化。

6.6K5 0

python数据科学系列：pandas入门详细教程

、切片访问、通函数、广播机制等 series是带标签的一维数组，所以还可以看做是类字典结构：标签是key，取值是value；而dataframe则可以看做是嵌套字典结构，其中列名是key，每一列的series...这里提到了index和columns分别代表行标签和列标签，就不得不提到pandas中的另一个数据结构：Index，例如series中标签列、dataframe中行标签和列标签均属于这种数据结构。...由于该方法默认是按行进行检测，如果存在某个需要需要按列删除，则可以先转置再执行该方法异常值，判断异常值的标准依赖具体分析数据，所以这里仅给出两种处理异常值的可选方法删除，drop，接受参数在特定轴线执行删除一条或多条记录...；sort_values是按值排序，如果是dataframe对象，也可通过axis参数设置排序方向是行还是列，同时根据by参数传入指定的行或者列，可传入多行或多列并分别设置升序降序参数，非常灵活。...2 分组聚合 pandas的另一个强大的数据分析功能是分组聚合以及数据透视表，前者堪比SQL中的groupby，后者媲美Excel中的数据透视表。

15K2 0

Python进阶之Pandas入门(四) 数据清理

引言 Pandas是数据分析中一个至关重要的库，它是大多数据项目的支柱。如果你想从事数据分析相关的职业，那么你要做的第一件事情就是学习Pandas。...第一步是检查我们的DataFrame中的哪些单元格是空的: print (movies_df.isnull()) 运行结果： ?...注意isnull()返回一个DataFrame，其中每个单元格是真还是假取决于该单元格的null状态。...可能会有这样的情况，删除每一行的空值会从数据集中删除太大的数据块，所以我们可以用另一个值来代替这个空值，通常是该列的平均值或中值。让我们看看在revenue_millions列中输入缺失的值。...如果您还记得我们从零开始创建DataFrames时，dict的键最后是列名。现在，当我们选择DataFrame的列时，我们使用方括号，就像访问Python字典一样。

1.8K6 0

爱了！0.052s 打开 100GB 数据，这个开源库火爆了！

打开数据集会生成一个标准的DataFrame并对其进行快速检查：注意，单元执行时间太短了。这是因为显示Vaex DataFrame或列仅需要从磁盘读取前后5行数据。...这将我们引向另一个重点：Vaex只会在需要时遍历整个数据集，并且会尝试通过尽可能少的数据传递来做到这一点。无论如何，让我们从极端异常值或错误数据输入值开始清除此数据集。...一个很好的方法是使用describe方法对数据进行高级概述，其中显示了样本数、缺失值数和每一列的数据类型。如果列的数据类型为数字，则还将显示平均值、标准偏差以及最小值和最大值。...一旦我们通过交互决定要关注的NYC区域，就可以简单地创建一个筛选后的DataFrame：关于上面的代码，最酷的事情是它需要执行的内存量可以忽略不计！...在筛选Vaex DataFrame时不会复制数据，而是仅创建对原始对象的引用，在该引用上应用二进制掩码。用掩码选择要显示的行，并将其用于将来的计算。

8231 0

Pandas 学习手册中文第二版：1~5

启动时，您将看到类似以下内容：输入提示显示In [1]:。每次在 IPython REPL 中输入一条语句时，提示中的数字都会增加。...它还将设置几个选项来控制 Pandas 如何在 Jupyter 笔记本中渲染输出。该代码包含以下内容：第一条语句导入 NumPy 并将库中的项目引用为np.。...第一个是索引，第二个是Series中的数据。输出的每一行代表索引标签（在第一列中），然后代表与该标签关联的值。...这种探索通常涉及对DataFrame对象的结构进行修改，以删除不必要的数据，更改现有数据的格式或从其他行或列中的数据创建派生数据。这些章节将演示如何执行这些强大而重要的操作。...下面的代码创建了一个新的DataFrame，其中的一列包含了四舍五入的价格。

8.3K1 0

0.052秒打开100GB数据？这个Python开源库这样做数据分析

这将我们引向另一个重点：Vaex只会在需要时遍历整个数据集，并且会尝试通过尽可能少的数据传递来做到这一点。无论如何，让我们从极端异常值或错误数据输入值开始清除此数据集。...一个很好的方法是使用describe方法对数据进行高级概述，其中显示了样本数、缺失值数和每一列的数据类型。如果列的数据类型为数字，则还将显示平均值、标准偏差以及最小值和最大值。...一旦我们通过交互决定要关注的NYC区域，就可以简单地创建一个筛选后的DataFrame： ? 关于上面的代码，最酷的事情是它需要执行的内存量可以忽略不计！...出行距离一列中存在极端异常值，这也是研究出行时间和出租车平均速度的动机。这些功能在数据集中尚不可用，但计算起来很简单： ? 上面的代码块无需内存，无需花费时间即可执行！这是因为代码只会创建虚拟列。...你能想象在纽约市被困出租车中超过3个小时吗？无论如何，我们要保持开放的态度，并考虑所有花费时间少于3小时的行程： ? 现在，让我们研究出租车的平均速度，同时选择一个合理的数据范围： ?

1.3K2 0

SQLServer中的CTE通用表表达式

在本期专栏中，我将给出示例并解释它们的使用方法和适用情况。我还将演示 CTE 是如何处理递归逻辑并定义递归 CTE 的运行方式的。...一个方法是创建一个视图，首先收集聚合数据，然后针对该视图编写一个查询。另一个方法是使用派生表针对聚合数据编写一个查询通过将 SQL 语句移到 FROM 子句中并对其进行查询，可实现这一点。...例如，在图 1 中，已经创建了一个视图，并为另一个 T-SQL 语句所使用。然而，当您想要收集数据并且只使用一次的时候，视图未必是最佳解决方案。...要创建派生表，在由括号包围的 FROM 子句中移动 SELECT 语句即可。接着就能像表或视图一样查询或者联接它。图 2 中的代码解决的查询与图 1 所解决的相同，但使用的是派生表而不是视图。...WITH 关键字后面是 CTE 的名称，接着是一个列别名的可选列表。列别名对应于 CTE 内的 SELECT 语句返回的列。可选列别名的后面是 AS 关键字，这是必需的。

3.9K1 0

Scikit-Learn教程：棒球分析 (一)

要创建win标签，您将创建一个函数assign_win_bins，该函数将接受一个整数值（wins）并返回1-5的整数，具体取决于输入值。...Pandas通过将R列除以G列来创建新列来创建新列时，这非常简单R_per_game。现在通过制作几个散点图来查看两个新变量中的每一个如何与目标获胜列相关联。...在一个图的x轴上绘制每场比赛的运行，并在另一个图的x轴上运行。W在每个y轴上绘制列。...您可以添加到数据集的另一个功能是从提供的K-means聚类算法派生的标签sklearn。K-means是一种简单的聚类算法，可根据您指定的k个质心数对数据进行分区。...接下来，使用列表中的列data从dfDataFrame 创建一个新的DataFrame numeric_cols。

3.5K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭