开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Python Regex对文件名的各个部分进行重新排序:从名称中删除重复项并拆分组

Python Regex对文件名的各个部分进行重新排序: 从名称中删除重复项并拆分组

回答：在Python中，可以使用正则表达式（Regex）对文件名的各个部分进行重新排序，以删除重复项并拆分组。

首先，我们需要导入Python的re模块，它提供了用于处理正则表达式的功能。

import re

接下来，假设我们有一个文件名字符串变量filename，我们想要对其进行重新排序。可以使用re.sub()函数来实现这个目的。

filename = "filename_part1_part2_part1_part3_part2"

首先，我们可以使用正则表达式来匹配文件名中的各个部分。假设我们的文件名部分以"part"开头，后面跟着一个数字。可以使用正则表达式"part\d+"来匹配这种模式。

parts = re.findall(r"part\d+", filename)

接下来，我们可以使用Python的集合（set）来删除重复的部分。

unique_parts = set(parts)

然后，我们可以使用re.sub()函数将原始文件名中的重复部分替换为我们得到的唯一部分。

new_filename = filename
for part in unique_parts:
    new_filename = re.sub(part, "", new_filename)

最后，我们可以使用re.split()函数将新文件名分割为各个部分。

split_filename = re.split(r"_", new_filename)

这样，我们就可以得到一个重新排序、删除重复项并拆分为组的文件名。

总结： Python的正则表达式（Regex）可以用于对文件名的各个部分进行重新排序。使用re模块的findall()函数可以找到文件名中满足特定模式的部分，使用set()函数可以删除重复的部分，使用re.sub()函数可以替换重复部分，使用re.split()函数可以将文件名拆分为各个部分。这样，我们可以得到一个完全重新排序并删除重复项的文件名。

示例代码如下：

import re

def reorder_filename(filename):
    parts = re.findall(r"part\d+", filename)
    unique_parts = set(parts)
    new_filename = filename
    for part in unique_parts:
        new_filename = re.sub(part, "", new_filename)
    split_filename = re.split(r"_", new_filename)
    
    return split_filename

filename = "filename_part1_part2_part1_part3_part2"
reordered_filename = reorder_filename(filename)
print(reordered_filename)

输出：

['filename', 'part1', 'part2', 'part3']

推荐的腾讯云相关产品：腾讯云对象存储（COS）腾讯云产品链接：https://cloud.tencent.com/product/cos

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

正则表达式（四）：Java regex

split 函数 Pattern 类中 split 函数提供对指定内容进行分割的功能，返回分割得到的字符串数组。...group(int group) 返回指定序号分组匹配内容 group(String name) 返回指定名称分组匹配内容 lookingAt() 重新判断正则是否与给定内容的起始部分匹配并返回 replaceAll...当指定 find 函数的起始位置后，会重新从指定的位置开始进行查询。 group 函数 group 函数有三种形式： 1. 当无参数时返回整个正则表达式匹配内容 2....如果正则匹配内容的起始部分，则重新从内容的起始部分开始查询匹配内容，相当于执行了 find(0) 函数示例： import java.util.regex.Matcher; import java.util.regex.Pattern...无参时面向的是整个正则表达式匹配结果；参数为分组序号时，面向的是指定序号分组匹配的部分；参数为分组名称时，面向的是指定名称分组匹配的部分。

1K2 0

基于linux命令提取文件夹内特定文件路径

最近需要实现自动化搜寻特定文件夹下的特定文件，并且需要分别保存文件路径与文件名。算然使用python的walk能够实现，但是感觉复杂了些。于是想看看linux自带的命令是否能完成这项工作。...-name ‘*.py’进行查找，得出的结果是包含路劲的 ./test/test.py ./test/regex.py ..../MongoDB/cnt_fail.py 我们只需要文件名的话可以使用linux提供的命令basename 利用basename将find的所有搜索结果进行处理我们需要使用find的参数-exec...目标二：获得所有py文件路径，去重复，删除开头的“./”字符 linux也有获取文件路径的命令dirname 略微修改之前的命令能够显示所有文件路径 find ..../MongoDB 可以看到路径存在重复，linux去除重可以利用sort再添加-u参数，-u参数用于去除排序结果中的重复项我们需要把上一个命令的输出传递给sort作为输入，很自然想到了管道管道命令操作符是

5.1K3 1

正则表达式

，也可以用来匹配特定规律的模式输出文件名。...（即加个括号），并进行重新排序,以前默认的123 改成231，后使用re.sub进行位置替换 pattern_ed=r'(\d{4})-(\d{2})-(\d{2})' sub_order =r'\2/...\3/\1' # 重新排序 print(re.sub(pattern_ed,sub_order,log)) '01/16/2018 09：14：35 reading EC DATA\n 01/16...01/26/2018 19：23：55 predict the wind speed\n 01/27/2018 06：09：45 save and plot\n\n\n' 实际上，我们还可以对各个分组命名...中的子模式. 例如之前说的 {} 是用来表示前面一个字符出现指定次数. 但如果在 {} 前加入特征标群则表示整个标群内的字符重复 N 次.

6104 0

python df 列替换_如何用Python做数据分析，没有比这篇文章更详细的了（图文详情）...

类似与 Excel 中删除重复项后的结果。 ...“删除重复项”的功能，可以用来删除数据表中的重复值。...默认 Excel 会保留最先出现的数据，删除后面重复出现的数据。删除重复项 Python 中使用 drop_duplicates 函数删除重复值。...drop_duplicates()函数删除重复值，从结果中可以看到第一位的 beijing 被保留，最后出现的 beijing 被删除。 ...Where 函数用来对数据进行判断和分组，下面的代码中我们对 price 列的值进行判断，将符合条件的分为一组，不符合条件的分为另一组，并使用 group 字段进行标记。

4.4K0 0

.NET基础加强笔记

写索引的时候，系统会将this变为Item关键字，如果在类中自己重新定义一个Item会报错。...list.Add(p1); list.Add(p2); list.Sort();//对集合中的对象排序 foreach (var item...path) 得到文件路径的文件名部分 7....类型元数据(描述在代码中定义的每一类型和成员,二进制形式) 程序集元数据（程序集清单、版本号、名称等） IL代码(这些都被装在exe或dll中) 资源文件。每个程序集都有自己的名称、版本等信息。...5.ps:添加类库，在解决方案里面添加，就像新建一个项目一样 6.通过Assembly类进行读取类库的内容并对提取的内容进行操作 Assemblyass= Assembly.LoadFile(

1.1K2 0

常用简单命令_bash笔记2

"node_modules" -prune \) -o \( -type f -print \) xargs xargs命令把从stdin接到的数据重新格式化，作为参数提供给其它命令，紧跟在管道操作符之后...，开子shell执行括号里的命令，不是前面的条件分组，不要转义括号 tr(translate) 对来自标准输入的字符进行替换，删除和压缩，用来做字符串处理 # 大小写转换 echo 'Ho Hoho...内容每行按字典序排序，并去重 sort file.txt | uniq # 或者 sort -u file.txt 默认按字典序序升序排序，-n按数值排序，-r降序： # 如果字母数字都有，字母在前 sort...filename:$filename # 提取扩展名 ext=${file##*.} echo ext:$ext 用法如下： # 从var的值中删掉%右侧通配符所匹配的字符串，从右边向左匹配 ${var...%.*} # %%贪婪匹配，会找出最长串，%匹配最短串 ${var%.*}# 从var的值中删掉#右侧通配符所匹配的字符串，从左向右匹配 ${var#*.} # 对应的贪婪匹配 ${var##*.}

5501 0

正则表达式介绍

这是正则表达式的一个例子！先决条件本指南不假设任何先验知识。示例将使用 Python 编码，但既不假设也不需要掌握编程语言。欢迎您在浏览器中阅读该指南或下载该指南并运行示例/使用它们进行操作。...匹配重复贪婪删除多余的空格字符组电话号码 v1 更多 re 函数 search 结合 match findall 匹配计数特殊字符电话号码 v2 分组电话号码 v3 正则表达式的玩具项目...使用 Python re 要检查我们的正则表达式是否运行良好并让您有机会直接进行实验，我们将使用 Python 的 re 模块来处理正则表达式。..., s).group())) '' 'a' '' 'aaaaa' 删除多余的空格现在我们知道了重复，我将告诉你关于 sub 函数的信息，我们将使用它来解析一段文本并删除所有存在的额外空格。...因此，正则表达式的功能是组。通过对正则表达式的某些部分进行分组，您可以执行诸如使用重复运算符之类的操作，然后检索其信息。要进行分组，只需要使用 () 括号。

4.9K0 0

爬虫入门指南(2)：如何使用正则表达式进行数据提取和处理

查询数据：使用SELECT语句从表格中检索数据。指定所需的列和表格名称。你还可以使用WHERE子句添加筛选条件。...删除数据：使用DELETE FROM语句从表格中删除数据。指定表格名称和删除条件。...例如： DELETE FROM users WHERE age < 18; 这将从"users"表格中删除所有age列小于18的行。条件查询：使用WHERE子句来添加条件，对查询结果进行筛选。...排序：使用ORDER BY子句对查询结果进行排序。指定要排序的列和排序顺序（升序ASC或降序DESC）。...例如： SELECT * FROM users ORDER BY age DESC; 这将按照age列的降序对"users"表格中的行进行排序。这里只是对常用的SQLite语法进行了介绍。

2901 0

大数据ETL开发之图解Kettle工具（入门到精通）

，并生成新的字段执行结果： 3.3.7 排序记录&去除重复记录去除重复记录是去除数据流里面相同的数据行。...但是此控件使用之前要求必须先对数据进行排序，对数据排序用的控件是排序记录，排序记录控件可以按照指定字段的升序或者降序对数据流进行排序。因此排序记录+去除重复记录控件常常配合组队使用。...任务：利用excel输入控件读取input目录下的06_去除重复记录.xlsx，然后对里面重复的数据进行按照id排序并去重原始数据：执行结果： 3.3.8 唯一行（哈希值）唯一行...（哈希值）就是删除数据流重复的行。...3.8.1 分组分组控件的功能类似于GROUP BY，可以按照指定的一个或者几个字段进行分组，然后其余字段可以按照聚合函数进行合并计算。注意，在进行分组之前，数据最好先进行排序。

14.6K10 23

《利用Python进行数据分析·第2版》第7章数据清洗和准备7.1 处理缺失数据7.2 数据转换7.3 字符串操作7.4 总结

当进行数据清洗以进行分析时，最好直接对缺失数据进行分析，以判断数据采集的问题或缺失数据可能导致的偏差。...3 two 3 4 one 3 5 two 4 这两个方法默认会判断全部列，你也可以指定部分列进行重复项判断。...7.3 字符串操作 Python能够成为流行的数据处理语言，部分原因是其简单易用的字符串和文本处理功能。大部分文本运算都直接做成了字符串对象的内置方法。...), ('steve', 'gmail', 'com'), ('rob', 'gmail', 'com'), ('ryan', 'yahoo', 'com')] sub还能通过诸如\1、\2之类的特殊符号访问各匹配项中的分组...中还有许多的正则表达式，但大部分都超出了本书的范围。

5.3K9 0

从Excel到Python：最常用的36个Pandas函数

#更改列名称 df.rename(columns={'category': 'category-size'}) ? 6.删除重复值 Excel的数据目录下有“删除重复项”的功能 ?...4.数据分组 Excel中可以通过VLOOKUP函数进行近似匹配来完成对数值的分组，或者使用“数据透视表”来完成分组 Python中使用Where函数用来对数据进行判断和分组 #如果price列的值>3000...还可以对多个字段的值进行判断后对数据进行分组，下面的代码中对city列等于beijing并且price列大于等于4000的数据标记为1。...#对category字段的值依次进行分列，并创建数据表，索引值为df_inner的索引列，列名称为category和size pd.DataFrame((x.split('-') for x in df_inner...2.按位置提取(iloc) 使用iloc函数按位置对数据表中的数据进行提取，这里冒号前后的数字不再是索引的标签名称，而是数据所在的位置，从0开始。

11.5K3 1

挑战30天学完Python：Day5数据类型-列表list

列表可以通过赋值语句进行快速拆包。...Remove 使用 remove() 方法对list指定项进行移除。...sort() ：此排序方法将列表项按升序重新排序，并修改原始列表。如果方法参数reverse等于true，它将按降序排列列表项。...使用方法 sort() 对其list进行排序。使用 reverse() 降序排序。切片方式获取it_companies的前三项。切片方式获取it_companies的后三项。...切片方式获取位于列表中间的几项。从列表中移除第一个公司。从列表中移除中间的一家公司。从列表中移除最右一家公司。从列表中移除所有公司。删除/销毁 it_companies 列表。

1892 0

SQL Server 2005 正则表达式使模式匹配和数据提取变得更容易

首先，它不区分大小写而且在查询中使用排序来执行测试会使其无规则可循。其次，它并未对包含在过程名称中的实际实体名称执行任何测试。...数据提取正则表达式的分组功能可用于从字符串中提取数据。...此决策实际取决于优化枚举器之前如何使用函数以及应如何对函数进行大量测试。图 2 中的代码表示枚举器。跟踪各个匹配在返回的匹配集中的位置时，MatchNode 类在字符串中封装各个匹配。...此函数还可用于未以逗号分隔的列表。也可处理以空格、分号、制表符、回车或任何其他可识别字符分隔的列表。 ? 在匹配项中进行数据提取类似于返回匹配项，我们还可以从每个匹配项中提取数据。...由于我们还必须在每个匹配项中循环访问组，因此分组是唯一略微复杂的操作。在图 4 中，GroupNode 类与 MatchNode 类一样，除了它还包括其所代表的组的名称。

6.4K6 0

Python | Python交互之mongoDB交互详解

修改输出文档的结构，如重命名、增加、删除字段、创建计算结果 $sort：将输出文档排序后输出 $limit：限制聚合管道返回的文档数 $skip：跳过指定数量的文档，并返回余下的文档 $...push：在结果文档中插入值到一个数组中 $first：根据资源文档的排序获取第一个文档数据 $last：根据资源文档的排序获取最后一个文档数据聚合之$group group:将文档进行分组以便于统计数目...skip:跳过指定数量的文档数,返回剩下的文档举个栗子： #查询age大于20 #按照hometown分组，并计数 #按照计数升序排序 #跳过前一个文档,返回第二个 db.xianyu.aggregate...，结果中就有几个键分组依据需要放到_id后面取不同的字段的值需要使用$,$gender,$age 取字典嵌套的字典中的值的时候$_id.country 能够同时按照多个键进行分组 {$group:{...，重点部分还是mongo高级查询以及聚合管道，一定要review几遍才记得住，本篇是python数据库交互的最后一篇，希望对你有所帮助。

8K3 0

Python 元组

同样，在后面一行中，一个 % 运算符就把 passport 元组里的元素对应到了 print 函数的格式字符串空档中。这两个都是对元组拆包的应用。...可以交换变量值 b, a = a, b 可以用 * 运算符拆开对象 t = (20, 8) divmod(*t) 在元组拆包中使用 * 也可以帮助我们把注意力集中在元组的部分元素上。...只要这个接受元组的嵌套结构符合表达式本身的嵌套结构，Python 就可以作出正确的对应。...__rmul__(n) √ √ n * s，反向拼接 * s.pop([p]) √ 删除最后或者是（可选的）位于 p 的元素，并返回它的值 s.remove(e) √ 删除 s 中的第一次出现的 e...__setitem__(p,e) √ s[p] = e，把元素 e 放在位置p，替代已经在那个位置的元素 s.sort([key],[reverse]) √ 就地对 s 中的元素进行排序，可选的参数有键

6833 0

2018-7-16python中四种组合数据类型和pycharm的安装和使用

创建python文件：鼠标右键在选择的文件夹上点击：new-> python file，输入文件的名称，直接回车，创建完成！...中，鼠标右键点击->Debug 文件名称->调试程序 debug调试的方法：控制调试进度：可以逐行步进[一行一行执行] 逐行步进：下面debug调试界面上边一行有一个上坡到下坡的蓝色箭头，就是一行一行步进...，python中~提供的是列表[不说数组] 列表的声明：列表一般用中括号声明：[] name=[] 声明空列表 jobs=list() 声明空列表列表可以进行的操作：增加、删除.../remove 列表不能防止别人通过代码对列表中的数据进行修改一旦其他人对列表数据进行改动[append/insert/..]...一个数据在元组中的位置，外部有一个默认的函数sorted可以针对元组进行排序，排序注意：使用系统默认排序，但是必须保证排序的数据他们的数据类型是一致的！

1.1K5 0

如何友好的把Python和Bash结合在一起

使用bash和其他类似的shell，可以使用许多强大的功能，例如管道，文件名通配符以及从称为脚本的文件中读取命令的功能。让我们看一个真实的示例来演示命令行的功能。...在此处的示例中，cat names.txt的输出传递到sort命令中。sort命令的输出是按字母顺序重新排列文件的每一行。随后将其传递给uniq命令，该命令将删除所有重复的名称。...让我们以本文前面已解决的问题为基础。除了已经完成的工作之外，让我们找出某个用户已登录系统的次数。uniq命令仅删除重复项，但不提供有关有多少重复项的信息。...接下来要做的是按顺序显示最常使用该系统的用户。这可以在Python级别完成，但是让我们使用核心UNIX实用程序已经提供的实用程序来实现它。以前，我使用sort命令对字母进行排序。...如果命令提供了-rn标志，它将按降序对行进行数字排序。

9961 0

JSON神器之jq使用指南指北

null可以添加到任何值，并返回其他值不变。减法：- 除了对数字进行普通算术减法外，该- 运算符还可用于数组以从第一个数组中删除第二个数组元素的所有出现。...目前，大多数在无穷大、NaN 和次正规数上进行的算术运算都不会引发错误。 sort, sort_by(path_expression) 这些sort函数对其输入进行排序，该输入必须是一个数组。...max_by(path_exp)min_by(.foo)foo unique,unique_by(path_exp) 该unique函数将一个数组作为输入，并按排序顺序生成一个包含相同元素的数组，并删除重复项...对于相同数量的函数参数，每个重新定义都会替换先前的重新定义，但仅适用于重新定义之后的函数（或主程序）的引用。另请参阅下面有关范围界定的部分。...如果您习惯于使用 Python、Java、Ruby、Javascript 等语言进行编程，那么您可以将其想象为 jq 在执行分配之前对每个对象进行了完整的深度复制（出于性能考虑，它实际上并没有这样做，但这是一般的想法

28.5K3 0

mongo创建索引及索引相关方法

，如果没有索引，MongoDB在读取数据时必须扫描集合中的每个文件并选取那些符合查询条件的记录。...{ratings:1}) db.survey.find({ratings:2}).explain() 对数组建立索引的代价是非常高的，他实际上是会对数组中的每一项都单独建立索引，就相当于假设数组中有十项...MongoDB 提供的两种从集合中删除索引的方法如下： # 删除单个索引 db.collection.dropIndex("") db.getCollection('chongqing').dropIndex...如果未指定，MongoDB的通过连接索引的字段名和排序顺序生成一个索引名称。 dropDups Boolean **3.0+版本已废弃。...**在建立唯一索引时是否删除重复记录,指定 true 创建唯一索引。

3.7K2 0

我愿称 Java8 中的 Stream API 为 Java 之神！

Stream API 与 InputStream 和 OutputStream 是完全不同的概念，Stream API 是对 Java 中集合操作的增强，可以利用它进行各种过滤、排序、分组、聚合等操作。...比如要从数据库中获取所有年龄大于20岁的用户的名称，并按照用户的创建时间进行排序，用一条 SQL 语句就可以搞定，不过使用 Java 程序实现就会显得有些繁琐，这时候可以使用流： List<String...，数据变得越来越多样化，很多时候我们会面对海量数据，并对其做一些复杂的操作（比如统计，分组），依照传统的遍历方式（for-each），每次只能处理集合中的一个元素，并且是按顺序处理，这种方法是极其低效的...需要注意的是，流只能遍历一次，遍历结束后，这个流就被关闭掉了。如果要重新遍历，可以从数据源（集合）中重新获取一个流。...，这些方法分别为： filter()：对流的元素过滤 map()：将流的元素映射成另一个类型 distinct()：去除流中重复的元素 sorted()：对流的元素排序 forEach()：对流中的每个元素执行某个操作

3222 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭