前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python基础-文件批量操作

Python基础-文件批量操作

原创
作者头像
凑齐六个字吧
发布2024-07-26 08:32:25
700
发布2024-07-26 08:32:25
1、获得目录下面所有文件的列表
代码语言:javascript
复制
#%%
from pathlib import Path
print(Path.cwd())
# /Users/zaneflying

# 创建Path实例
folder = Path("/Users/zaneflying/Desktop/practice/PC/")
for file in folder.iterdir(): #iterdir显示所有的子目录或者文件
    print(file.name)
# pathway.csv
# complete_matrix_output CTRPv2.txt
# .DS_Store
# practice.py
# GBM Counts_matrix.csv
# Autophagy.xlsx

for file in folder.rglob("*.py"): #rglob()函数:递归遍历所有满足条件的文件
    print(file.name)
# practice.py

Path功能十分强大,里边有很多函数可以选择。

Path.cwd() : 获取当前工作目录;f.exists():判断某个实例是否存在; f.is_dir():判断该路径是否是目录; f.is_file():判断该路径是否是文件; f.stat().st_size: 得到某个文件的大小;f.absolute(): 获得绝对路径; f.parent(): 获取路径的上级路径; f.name: 获取文件名;f.stem: 获取文件前缀;f.suffix: 获取文件后缀。

2、筛选及复制文件

第一步:设置目标路径;第二步:筛选所需文件;第三步:复制所需文件(用到shutil函数)。

代码语言:javascript
复制
#%%
# 移动文件位置
from pathlib import Path
import  shutil #用于复制文件

new_folder = Path("/Users/zaneflying/Desktop/practice/PC1/")
# 创建文件夹
if not new_folder.exists(): 
    new_folder.mkdir()

# 把PC文件夹中以.py末尾的文件复制到PC1中
raw_folder = Path("/Users/zaneflying/Desktop/practice/PC/")
for file in raw_folder.rglob("*.csv"):
    shutil.copy(file,new_folder)
3、文件批量重命名

第一步:设计重命名规则,比如“dataset”+递增数字+“.csv”; 第二步:获取需要命名的文件,使用filepath.rglob(“*.csv”);第三步:依次对文件重命名

代码语言:javascript
复制
#%%
from pathlib import Path

filepath = Path("/Users/zaneflying/Desktop/practice/PC1/")
filelist = filepath.rglob("*.csv")

for index, file in enumerate(filelist): # enumerate可以统计文件的索引顺序
    name = "testdata" + str(index + 1) + ".csv" # str可以把数字变成字符串
    file.rename(filepath/name) # 在原本的路径下生成文件,需要把原路径链接到name上
4、文件批量读写、简单的拼接及关联合并
代码语言:javascript
复制
#%%
#批量合并

import pandas as pd
from pathlib import Path

filepath = Path("/Users/zaneflying/Desktop/practice/PC1/")
filelist = filepath.rglob("*.csv")

dataFrames = []

for file in filelist :
    df = pd.read_csv(file)
    dataFrames.append(df)
    
mergeData = pd.concat(dataFrames, ignore_index=True) #简单的纵向拼接
# 以下是pd.concat中的重要参数 
# objs:需要合并的 DataFrame 或 Series 对象序列(列表或字典)。
# axis:沿着哪个轴进行合并,0 表示按行(垂直)合并,1 表示按列(水平)合并。默认为 0。
# ignore_index:如果为 True,则忽略原始对象的索引,重新生成一个新的索引。默认为 False。
# join:决定如何处理其他轴上的索引,默认是 outer(外连接),可选 inner(内连接)。
# keys:用于创建层次化索引。
# 若使用df1.append(df2)只能是纵向拼接

#定义输出文件名
output_file = filepath / "merge_data.csv"
mergeData.to_csv(output_file,index = False)

:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟

- END -

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、获得目录下面所有文件的列表
  • 2、筛选及复制文件
  • 3、文件批量重命名
  • 4、文件批量读写、简单的拼接及关联合并
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档