Python删除非字母字符，但有例外

在Python中删除字符串中的非字母字符，同时保留特定的例外字符，可以通过使用正则表达式来实现。以下是一个示例代码，展示了如何实现这一功能：

import re

def remove_non_alpha_except_exceptions(text, exceptions):
    # 构建一个正则表达式，匹配所有非字母和非例外字符
    pattern = f"[^a-zA-Z{''.join(exceptions)}]"
    # 使用re.sub函数替换匹配到的字符为空字符串
    cleaned_text = re.sub(pattern, '', text)
    return cleaned_text

# 示例使用
text = "Hello, World! This is a test. 123 #Python."
exceptions = "#."  # 保留的例外字符
cleaned_text = remove_non_alpha_except_exceptions(text, exceptions)
print(cleaned_text)  # 输出: HelloWorldThisisatest.#Python

基础概念

正则表达式（Regular Expression）：是一种强大的文本处理工具，用于搜索、替换、检查符合特定模式的字符串。
字符类（Character Class）：在正则表达式中用于匹配一组字符中的任意一个，例如 [a-z] 匹配所有小写字母。

类型与应用场景

类型：正则表达式可以用于各种编程语言，包括Python、Java、JavaScript等。
应用场景：
- 数据清洗和预处理。
- 日志文件分析。
- 用户输入验证。
- 文本搜索和替换。

遇到的问题及解决方法

问题：如果正则表达式中包含特殊字符（如 . 或 *），它们会被解释为正则表达式的元字符，而不是普通字符。 解决方法：在正则表达式中，对特殊字符进行转义，例如使用 \. 来匹配实际的点号。

示例：

text = "Hello.World.This.is.a.test."
exceptions = "."
pattern = f"[^a-zA-Z\\{exceptions}]"
cleaned_text = re.sub(pattern, '', text)
print(cleaned_text)  # 输出: HelloWorldThisisatest.

通过这种方式，可以灵活地处理字符串中的非字母字符，同时保留所需的例外字符。

Python删除非字母字符，但有例外

我很难在一个包含大量非字母字符的大文本上进行数据分析。我试着用 string = filter(str.isalnum, string) 但我的文本中也有我想保留的"@"。如何为像"@"这样的字符创建异常？

浏览 36提问于2019-12-10得票数 1

4回答

删除非字母数字字符，但有一些例外

我怎么能对这些做例外处理呢？

浏览 5提问于2013-07-22得票数 0

回答已采纳

5回答

标题-字符串中仅以空格(或字符串的开头/结尾)为边界的大小写单词

、、、

我需要对字符串应用标题大小写，但有一些例外。ucwords(strtolower("NEW APPLE IPHONE X 64GB CVX-Dk46"))NEW APPLE IPHONE X 64GB

浏览 11提问于2019-01-31得票数 0

2回答

正则表达式:删除非字母数字，但有一个例外

、

要删除所有非字母数字字符，正则表达式应为但是如果我想保持下划线不变呢？

浏览 1提问于2013-04-11得票数 13

回答已采纳

1回答

按具有特殊字符的列对sqlite进行排序的问题

、、

我正在尝试根据包含字符串数据(如"Max“、"123”、“*”)和一些特殊字符(如)的column.The列对表数据进行排序。我用来按字母顺序对数据进行排序的查询如下： COLUMN_NAME_FIRST_NAME+ " COLLATE NOCASE ASC"); 运行此查询后，我得到的数据排序正确，但有一个例外。在排序的表中，我

浏览 1提问于2014-11-05得票数 0

1回答

科特林，为什么函数被废弃了？

、

最近，我想使用大写()函数。当我这样做时，出现了一个警告：

浏览 4提问于2022-10-20得票数 -1

回答已采纳

1回答

不允许双下划线的Regex，除非它位于单词的末尾，后面跟着'x‘符号

、

我需要一个正则表达式，它不允许单词中的双下划线，但有一个例外:如果它在末尾，然后是x-则字符串是有效的。符号秩序不起作用。例如：Foo__bar_x = INVALID 字符串可以包含多个单独的下划线和字母数字符号。

浏览 0提问于2018-10-24得票数 1

回答已采纳

2回答

删除列表中的项目

、、

orange'] 如果我想删除非字母字符并列出以下列表：我该怎么做呢？我使用的是python 3。

浏览 3提问于2013-12-03得票数 0

1回答

如何定义令牌化规则

、

我想标记字符串，例如：转入：您可以注意到，空格分隔令牌，非字母数字字符不与字母数字字符分组，还有另一个例外：括在括号内的所有东西都被视为一个整体。我不确定是否应该使用<em

浏览 2提问于2013-08-24得票数 3

回答已采纳

2回答

为什么Java.io.File有一个删除非空目录的限制？

、、

根据这个Java java.io.File delete()方法有一个删除非空目录的限制。(但有很多解决办法)。另一方面，Python运行在自己的虚拟机中(类似于JVM)，称为Interpreter。并且它有一个删除这些目录的方法。但是，我想，这不是主要原因，为什么会有例外。编辑：为什么像"rm -rf“这样的低级别系统调用和Java代码之间没有层？

浏览 15提问于2014-06-09得票数 0

3回答

替换除python以外的非字母数字字符

、、

在perl中，s/[^\w:]//g将替换除:以外的所有非字母数字字符。在python中，我使用的是re.sub(r'\W+', '',mystring)，它确实删除了除_下划线之外的所有非字母数字。有什么办法来表示例外，我不想替换像=和这样的符号。@#\'\"$()]‘、'’、mystring‘替换所有不需要的字符)，但是，我无法预测所有字符可能出现在mystring中

浏览 4提问于2015-01-14得票数 14

回答已采纳

4回答

如何在Python中缩短字符串(但有几个例外)？

、、

我想要缩短Python中的字符串，但不幸的是我不知道如何做到这一点。因此，更准确地说:字符串看起来像这样，例如："Em"、"Bsus4"或"F7"。我想缩短它，以便只有第一个字母在那里，但现在我的问题来了:第一个字母后面的字母"m"和"is"不应该缩短。示例： "Em"变成了"Em"。 "Bsus4"变成了"B"

浏览 97提问于2020-10-09得票数 1

回答已采纳

4回答

如何使用for循环比较两个字符串？

我需要比较本地部分当前字母与有效字符的列表。所以本质上，我是在问如何检查当前本地部分中的字母是否等同于整个有效字符列表中的字母。如果是有效字符，本地部分将转到其字符串中的下一个字母，并遍历有效字符列表，以查看是否也是有效字符，以此类推，直到到达@符号，除非没有有效字符。我对python相当陌生，所以我不知道嵌套for循环是如何工作的。

浏览 0提问于2015-01-27得票数 1

回答已采纳

2回答

为什么不在Python3中'encode("utf-8"，'ignore').decode("utf-8")‘剥离非utf 8字符？

、、、、

我使用的是Python 3.7和Django 2.0。我想从字符串中剔除非UTF-8字符，该字符是通过读取此CSV文件获得的。我试过了..。web_site = row['website'].strip().encode("utf-8", 'ignore').decode("utf-8")web_site: "wbez.org<

浏览 2提问于2020-02-19得票数 0

1回答

如何使用Python中的德语umlaut字符

、、

我有一个文本文件与德语短语在其中，我试图删除非字母字符，而不删除umlaut字符。我已经看到了其他类似的问题，但这些解决方案似乎都不适合我。Python似乎认为umlaut字符在某些情况下是两个字符，但是print函数工作得很好：>>> print(ch)>>> print(len(ch))2 >>> print(list(ch))

浏览 1提问于2017-10-18得票数 0

回答已采纳

1回答

“坏角色范围”例外吗？

错误：Exception Location: /usr/lib/python2.6/re.py in _compile, line 245我完全不知道这意味着什么。

浏览 1提问于2009-10-06得票数 2

回答已采纳

14回答

如何在可能包含数字的字符串中大写第一个字母

、、

我想使用Python读取文件并将字符串中的第一个字母大写，但有些字符串可能首先包含数字。11hello world"我希望这是："11Hello world"我试过以下几点，但只有当字母位于第一个位置时

浏览 0提问于2018-11-01得票数 9

回答已采纳

3回答

从这样的列表开始： sentences = ["da quando è esplosa l'epidemia, ci sono stati -- i dati ufficiali sottostimano il fenomeno -- 92.522 morti, 2.725.106 cittadini colpiti dal virus, in questo momento 2.074 sono i ricoverati in terapia intensiva", 'ci sono 259 morti tra gli operatori sanitari e

浏览 0提问于2021-02-20得票数 1

回答已采纳

1回答