用当前子目录名填充dataframe中的列值

，可以通过以下步骤实现：

首先，需要导入所需的库和模块，例如pandas库用于数据处理和操作。
读取包含子目录名的数据集，并将其存储在一个dataframe中。

import pandas as pd

# 读取数据集
df = pd.read_csv('dataset.csv')

# 创建新列
df['subdirectory'] = ''

使用循环遍历dataframe中的每一行，获取当前子目录名，并将其填充到新列中。

import os

# 遍历每一行
for index, row in df.iterrows():
    # 获取当前子目录名
    subdirectory_name = os.path.basename(os.path.dirname(row['filepath']))
    # 填充到新列中
    df.at[index, 'subdirectory'] = subdirectory_name

最后，可以查看更新后的dataframe，或将其保存到新的文件中。

# 查看更新后的dataframe
print(df)

# 将dataframe保存到新文件中
df.to_csv('updated_dataset.csv', index=False)

这样，dataframe中的列值就被当前子目录名填充了。请注意，以上代码仅为示例，实际应用中可能需要根据具体情况进行适当的修改。

相关·内容

Python 数据处理合并二维数组和 DataFrame 中特定列的值

pandas.core.frame.DataFrame；生成一个随机数数组；将这个随机数数组与 DataFrame 中的数据列合并成一个新的 NumPy 数组。...在这个 DataFrame 中，“label” 作为列名，列表中的元素作为数据填充到这一列中。...print(random_array) print(values_array) 上面两行代码分别打印出前面生成的随机数数组和从 DataFrame 提取出来的值组成的数组。...结果是一个新的 NumPy 数组 arr，它将原始 DataFrame 中 “label” 列的值作为最后一列附加到了随机数数组之后。...运行结果如下：总结来说，这段代码通过合并随机数数组和 DataFrame 中特定列的值，展示了如何在 Python 中使用 numpy 和 pandas 进行基本的数据处理和数组操作。

1100 0

用不等索引填充数值5. 从不同的DataFrame追加列6. 高亮每列的最大值7. 用链式方法重现

# 即便使用了fill_value=0，有些值也会是缺失值，这是因为一些行和列的组合根本不存在输入的数据中 In[47]: df_14.add(df_15, fill_value=0).head(10...从不同的DataFrame追加列 # 读取employee数据，选取'DEPARTMENT', 'BASE_SALARY'这两列 In[48]: employee = pd.read_csv('data...# random_salary中是有重复索引的，employee DataFrame的标签要对应random_salary中的多个标签 In[57]: employee['RANDOM_SALARY'...，用eq方法比较DataFrame的每个值和该列的最大值 In[78]: college_n.eq(college_n.max()).head() Out[78]: ?...# 一些列只有一个最大值，比如SATVRMID和SATMTMID，UGDS_WHITE列却有许多最大值。有109所学校的学生100%是白人。

3K1 0

羡慕 Excel 的高级选择与文本框颜色呈现？Pandas 也可以拥有！！ ⛵

内容覆盖图片本篇后续内容覆盖以下高级功能：突出缺失值突出显示每行/列中的最大值（或最小值）突出显示范围内的值绘制柱内条形图使用颜色渐变突出显示值组合显示设置功能注意：强烈建议大家使用最新版本的...② 突出显示最大值（或最小值）要突出显示每列中的最大值，我们可以使用 dataframe.style.highlight_max() 为最大值着色，最终结果如下图所示。...=1) 图片注意：同样可以使用方法 dataframe.style.highlight_min() 使用适当的参数为行/列中的最小值着色。...如下图所示，在图像中，随着值的增加，颜色会从红色变为绿色。你可以设置 subset=None 将这个显示效果应用于整个Dataframe。...可以定义一个函数，该函数突出显示列中的 min、max 和 nan 值。当前是对 Product_C 这一列进行了突出显示，我们可以设置 subset=None来把它应用于整个Dataframe。

2.8K3 1

Pandas数据处理1、DataFrame删除NaN空值(dropna各种属性值控制超全)

删除NaN空值在数据操作的时候我们经常会见到NaN空值的情况，很耽误我们的数据清理，那我们使用dropna函数删除DataFrame中的空值。...实际上能处理的有3个函数，我们用dropna来删除这帮空值。...定义了填充空值的方法， pad / ffill表示用前面行/列的值，填充当前行/列的空值， backfill / bfill表示用后面行.../列的值，填充当前行/列的空值。...如果method未被指定，在该axis下，最多填充前 limit 个空值（不论空值连续区间是否间断） downcast：dict, default is None，字典中的项为，为类型向下转换规则。

3.9K2 0

Python-pandas的fillna()方法-填充空值

大家好，又见面了，我是你们的朋友全栈君。 0.摘要 pandas中fillna()方法，能够使用指定的方法填充NA/NaN值。...定义了填充空值的方法， pad / ffill表示用前面行/列的值，填充当前行/列的空值， backfill / bfill表示用后面行/列的值，填充当前行/列的空值。 axis：轴。...如果method被指定，对于连续的空值，这段连续区域，最多填充前 limit 个空值（如果存在多段连续区域，每段最多填充前 limit 个空值）。...如果method未被指定，在该axis下，最多填充前 limit 个空值（不论空值连续区间是否间断） downcast：dict, default is None，字典中的项为，为类型向下转换规则。...(data=a) print(d) # 用0填补空值 print(d.fillna(value=0)) # 用前一行的值填补空值 print(d.fillna(method='pad',axis=0

11.7K1 1

最全面的Pandas的教程！没有之一!

以及用一个字典来创建 DataFrame： ? 获取 DataFrame 中的列要获取一列的数据，还是用中括号 [] 的方式，跟 Series 类似。...同时你可以用 .loc[] 来指定具体的行列范围，并生成一个子数据表，就像在 NumPy里做的一样。比如，提取 'c' 行中 'Name’ 列的内容，可以如下操作： ?...重置 DataFrame 的索引如果你觉得当前 DataFrame 的索引有问题，你可以用 .reset_index() 简单地把整个表的索引都重置掉。...比如，我们需要找到所有 Levels 中，Num = 22 的行： ? 清洗数据删除或填充空值在许多情况下，如果你用 Pandas 来读取大量数据，往往会发现原始数据中会存在不完整的地方。...因此，我们可以选择用 .dropna() 来丢弃这些自动填充的值，或是用.fillna() 来自动给这些空值填充数据。比如这个例子： ?

25.9K6 4

数据分析索引总结（下）Pandas索引技巧

, 同样可以实现获取原始df的子df的目的。...bfill表示用所在索引1206的后一个有效行填充，ffill为前一个有效行。...(df[0:5][['Weight','Height']],method='bfill') 注意是用1105这个索引在df.temp中的前边或后边的值进行填充， df_temp.reindex_like...，例如需要保留每组的第一个值： df.drop_duplicates('Class') 上边有些类似于mysql中按某列groupby之后,还能选择其他的非分组列。...，这在抽样理论中很常见 df.sample(n=3,weights=df['Math']).head() 以某一列为权重，这在抽样理论中很常见--本质上是以这一列的列值为权重 df.sample(n=

2.8K2 0

填补Excel中每日的日期并将缺失日期的属性值设置为0：Python

从上图可以看到，第一列（紫色框内）的日期有很多缺失值，例如一下子就从第001天跳到了005天，然后又直接到了042天。...我们希望，基于这一文件，首先逐日填补缺失的日期；其次，对于这些缺失日期的数据（后面四列），就都用0值来填充即可。最后，我们希望用一个新的.csv格式文件来存储我们上述修改好的数据。 ...接下来，我们使用pd.to_datetime方法将df中的时间列转换为日期时间格式，并使用set_index方法将时间列设置为DataFrame的索引。 ...接下来，使用reindex方法对DataFrame进行重新索引，以包含完整的日期范围，并使用0填充缺失值。...随后，即可将修改后的DataFrame保存到输出文件中，使用to_csv方法，并设置index=False以避免保存索引列。运行上述代码，即可得到如下图所示的结果文件。

2202 0

Pandas中的这3个函数，没想到竟成了我数据处理的主力

导读学Pandas有一年多了，用Pandas做数据分析也快一年了，常常在总结梳理一些Pandas中好用的方法。...②下面再来一个稍微复杂一点的案例，注意到年龄age列当前数据类型是小数，需要将其转换为整数，同时还有0.9167这种过小的年龄，所以要求接受一个函数，支持接受指定的最大和最小年龄限制，当数据中超出此年龄范围的统一用截断填充...，同时由于原数据集中age列存在缺失值，还需首先进行缺失值填充。...进行向量化填充外，另两个参数需要指定，在apply中即通过args传入。...，其中前者对应apply的接收函数处理一行或一列，后者对应接收函数处理每个分组对应的子DataFrame，最后根据作用对象类型设计相应的接收函数，从而完成个性化的数据处理。

2.4K1 0

Pandas知识点-算术运算函数

两个DataFrame相加，如果DataFrame的形状和索引不完全一样，只会将两个DataFrame中行索引和列索引对应的数据相加，生成一个形状能兼容两个DataFrame的新DataFrame，在没有运算结果的位置填充空值...fillna(value): 运算出结果后，将所有空值的位置都填充成指定值。在算术运算函数中，可以使用fill_value参数，在运算前先填充数据。 ?...使用fill_value参数填充数据后再进行运算，如果两个DataFrame中的数据都是填充值，则此位置的结果为空值，运算原理如下图。 ? 五、两个Series算术运算 1....可以使用fillna()函数对运算结果中的空值进行填充。 ? 可以使用fill_value参数先填充数据再进行运算。...与DataFrame不同的是，使用fill_value参数先填充数据再进行运算时，结果中不会有空值。因为Series是一维数据，对Series填充时，不存在两个Series都是填充值的行索引。

2K4 0

Pandas全景透视：解锁数据科学的黄金钥匙

DataFrame的一列就是Series，Series可以转化为DataFrame，调用方法函数to_frame()即可 Series 是 pandas 中的一种数据结构，可以看作是带有标签的一维数组。...定义了填充空值的方法， pad / ffill表示用前面行/列的值，填充当前行/列的空值； backfill / bfill表示用后面行/列的值，填充当前行/列的空值。axis：轴。...0或’index’，表示按行删除；1或’columns’，表示按列删除。inplace：是否原地替换。布尔值，默认为False。如果为True，则在原DataFrame上进行操作，返回值为None。...如果method被指定，对于连续的空值，这段连续区域，最多填充前 limit 个空值（如果存在多段连续区域，每段最多填充前 limit 个空值）。...如果method未被指定，在该axis下，最多填充前 limit 个空值（不论空值连续区间是否间断）downcast：dict, default is None，字典中的项为，为类型向下转换规则。

1011 0

Pandas知识点-缺失值处理

在我们判断某个自定义的缺失值是否存在于数据中时，用列表的方式传入就可以了。...bfill 和 backfill 表示用缺失值的后一个值填充，axis的用法以及找不到填充值的情况同 ffill 和 pad 。...limit: 表示填充执行的次数。如果是按行填充，则填充一行表示执行一次，按列同理。在缺失值填充时，填充值是自定义的，对于数值型数据，最常用的两种填充值是用该列的均值和众数。...DataFrame的众数也是一个DataFrame数据，众数可能有多个(极限情况下，当数据中没有重复值时，众数就是原DataFrame本身)，所以用mode()函数求众数时取第一行用于填充就行了。...pad(axis=0, inplace=False, limit=None): 用缺失值的前一个值填充。 ffill(): 同pad()。 bfill(): 用缺失值的后一个值填充。

4.8K4 0

如何快速学会Python处理数据？（5000字走心总结）

02 问题说明现在工作中面临一个批量化文件处理的问题：就是要把每个二级文件下csv文件合并到一个数据表里，同时要在最终的数据表里增加两列，一列是一级文件目录名称，另一列是二级文件目录名称。...总共有105个一级文件目录每个一级文件下有若干个二级文件每个二级文件下有若干个csv格式的数据当工作中，碰到这样的问题时，我用最笨拙的方法——人工，一个一个文件整理，但是效率比较低，可能需要一个人一天的工作量...03 声明变量变量是Python语言中一个非常重要的概念，其作用就是为Python程序中的某个值起一个名字。类似于"张三"、"李四"一样的名字。...for i in name: #第一层循环，读取一级文件目录名称 for j in name1: #第二层循环，读取二级子文件目录名称 for t in name3: #第三层循环...pd.read_csv('C:\\Users\\ivan\\Desktop\\数据.csv') DataFrame索引、切片我们可以根据列名来选取一列，返回一个Series，同时也可以对这一列的数据进行操作

1.9K2 0

数据清洗指南完整分享

01-启动阶段 import os import pandas as pd import numpy as np # 显示当前工作路径 os.getcwd() # 罗列当前路径下的所有文件 os.listdir...data = pd.read_excel(data_path+'data.xlsx') 03-数据结构初探 # 查看DataFrame每个字段的空值情况，数据类型 df.info() # 查看DataFrame...的形状 df.shape # 查看DataFrame的列名 df.columns # 查看字段的枚举值数量 df["type"].nunique() # 查看字段的枚举值 df["type"].unique...(axis=1, how='all') ## 特殊值替代空值 ## ################## # 空值全部填充为0 df.fillna(0) # 修改指定位置的值 df.at[1, "...sepal_length"]= 9999 # 用字符串替代空值 df.fillna("data missing") # 用均值填充 df.fillna(df.mean()) # 用指定列的均值来填充指定列

8742 1

谜一样的空值? pandas.fillna 妙招拨云见日

这是 pandas 快速上手系列的第 6 篇文章，本篇详细介绍了pandas.fillna() 填充缺失值（NaN）的各种妙招，包括用常数值填充缺失值、用前一个值或后一个值填充、用列的均值、不同列使用不同值填充等方法...fillna() 是 Pandas 中常用的处理缺失值 (NaN) 的函数。它可以用指定的值或插值方法来填充 DataFrame 或 Series 中的缺失值。...3.0 3 4.0 0.0 用前一个值填充缺失值，则第一行的 NaN 会被跳过填充，设置 method='ffill' In [44]: # 用前一个值填充缺失值 ...: df_filled...') ...: print(df_filled) A B 0 1.0 2.0 1 2.0 2.0 2 4.0 3.0 3 4.0 NaN 用列的均值填充缺失值 In...,下面是 A 列空值用0填充，B 列的空值用 1 填充 In [49]: df.fillna({'A': 0, 'B': 1}) Out[49]: A B 0 1.0 1.0 1

2810 0

这份数据清洗checklist，让开发过程更加高效

，让我们在开发过程中更加得心应手！ ?...data = pd.read_excel(data_path+'data.xlsx') 03-数据结构初探 # 查看DataFrame每个字段的空值情况，数据类型 df.info() # 查看DataFrame...的形状 df.shape # 查看DataFrame的列名 df.columns # 查看字段的枚举值数量 df["type"].nunique() # 查看字段的枚举值 df["type"].unique...(axis=1, how='all') ## 特殊值替代空值 ## ################## # 空值全部填充为0 df.fillna(0) # 修改指定位置的值 df.at[1, "...sepal_length"]= 9999 # 用字符串替代空值 df.fillna("data missing") # 用均值填充 df.fillna(df.mean()) # 用指定列的均值来填充指定列

6981 0

基于随机森林方法的缺失值填充

本文中主要是利用sklearn中自带的波士顿房价数据，通过不同的缺失值填充方式，包含均值填充、0值填充、随机森林的填充，来比较各种填充方法的效果 ?...缺失值越少，所需要的准确信息也越少填补一个特征，先将其他特征值的缺失值用0代替，这样每次循环一次，有缺失值的特征便会减少一个图形解释假设数据有n个特征，m行数据 ?...上面 fillc = df.iloc[:, i] # 某个需要填充的列，索引为i # 没有被选中填充（!...= i], pd.DataFrame(y_full)], axis=1) # 新的特征矩阵df中，对含有缺失值的列，进行0的填补 # 检查是否有0 pd.DataFrame(df_0...T中的非空值 ytest = fillc[fillc.isnull()] # 被选中填充的特征矩阵T中的空值 Xtrain = df_0[ytrain.index, :] # 新特征矩阵上

7.2K3 1

Python数据分析笔记——Numpy、Pandas库

2、DataFrame (1)概念： DataFrame是一个表格型的数据结构，含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。...（3）获取DataFrame的值（行或列）通过查找columns值获取对应的列。（下面两种方法）通过索引字段ix查找相应的行。（4）对列进行赋值处理。对某一列可以赋一个标量值也可以是一组值。...对于缺失值除使用fill_value的方式填充特定值以外还可以使用method=ffill（向前填充、即后面的缺失值用前面非缺失值填充）、bfill（向后填充，即前面的缺失值用后面的非缺失值填充）。...obj.rank() (2)DataFrame数据结构的排序和排名按索引值进行排列，一列或多列中的值进行排序，通过by将列名传递给sort_index. 5、缺失数据处理（1）滤出缺失数据使用data.dropna...也可以给fillna函数一个字典，就可以实现对不同的列填充不同的值。 Df.fillna({1:0.5,3:-1})——1列的缺失值用0.5填充，3列的缺失值用-1填充。

6.4K8 0

十分钟入门 Pandas

,填充方法：pad/ffill-前向填充、bfill/backfill-向后填充值、nearest-从最近索引值填充 df1 = df1.reindex_like(df2) print('reindex_like...(),为DataFrame中的每一行返回一个产生一个命名元祖的迭代器，元祖的第一个元素将是行的相应索引值，剩余的值是行值 print('itertuples:') for row in dataFrame.itertuples...# 5、split(' ') 用给定的模式拆分每个字符串。 # 6、cat(sep=' ') 使用给定的分隔符连接系列/索引元素。...# 17、islower() 检查系列/索引中每个字符串中的所有字符是否小写，返回布尔值 # 18、isupper() 检查系列/索引中每个字符串中的所有字符是否大写，返回布尔值 # 19、isnumeric...() 检查系列/索引中每个字符串中的所有字符是否为数字，返回布尔值。

3.7K3 0

pandas库的简单介绍（2）

3、 DataFrame数据结构 DataFrame表示的是矩阵数据表，每一列可以是不同的值类型（数值、字符串、布尔值等）。...3.1 DataFrame的构建 DataFrame有多种构建方式，最常见的是利用等长度的列表或字典构建（例如从excel或txt中读取文件就是DataFrame类型）。...（*2）指定列顺序和索引列、删除、增加列指定列的顺序可以在声明DataFrame时就指定，通过添加columns参数指定列顺序，通过添加index参数指定以哪个列作为索引；移除列可以用del frame...在DataFrame中，reindex可以改变行索引、列索引，当仅传入一个序列，会默认重建行索引。...fill_value 前向或后向填充时缺失数据的代替值

2.3K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云