简单粗暴的正则表达式笔记

原创

刘大猫

发布于 2024-12-03 21:21:53

9310

文章被收录于专栏：JAVA相关JAVA相关

@TOC

一、正则

正则表达式是用来描述具有一定特征的字符串的特殊字符串。 Regular Expression。

正则表达式本身也是一个字符串，类似于“元数据”的概念，相当于查找结构信息。正则表达式，又称规则表达式。

符号	描述
.	匹配除换行符 \n 之外的任何单字符。要匹配 . ，请使用 \.
*	匹配前面的子表达式零次或多次。要匹配字符，请使用 \
	至少一个
\d	表示数字0-9
\D	匹配一个非数字字符。等价于 ^0-9
\w	表示任意字母、数字、_
\W	^\w，表示非字母、数字、_
（）	标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符，请使用 $ 和 $
\s	表示任意空白（空格、空、tab、换行符...）
\S	^\s，表示非空白（空格、空、tab、换行符...）
^	匹配输入字符串的开始位置，除非在方括号[]表达式中使用，当该符号在方括号表达式中使用时，表示不接受该方括号表达式中的字符集合。要匹配 ^ 字符本身，请使用 \^
$	匹配输入字符串的结尾位置
?	匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 ? 字符，请使用 \?
\	将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如， 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\"，而 '\(' 则匹配 "("
\|	指明两项之间的一个选择。要匹配 \|，请使用 \\|
{n}	n 是一个非负整数。匹配确定的 n 次
{n,}	n是一个非负整数。至少匹配n 次
{n,m}	m 和 n 均为非负整数，其中 n <= m。最少匹配 n 次且最多匹配 m 次
[]	匹配中括号集合中的任意一个字符
\b	匹配一个单词边界。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
(?=pattern)	先行断言，断言自身出现的位置的后面能匹配表达式exp。例如：如果我们想要匹配一个单词，这个单词中有一个字母a，a后面不是字母b，就像apple，hallo，但不能是absolute，那么写法为：\ba-za(?!b)a-z\b
(?!pattern)	先行断言，断言自身出现的位置的后面不能匹配表达式exp。
(?<=pattern)	后行断言，断言自身出现的位置的前面能匹配表达式exp。
(?<!pattern)	后行断言，断言自身出现的位置的前面不能匹配表达式exp。

1.入门

1)、匹配 match

==所谓的匹配，匹配子串即可。==

2)、作用

==验证、查找、替换、分割==

2、字符集

默认情况下区分大小写。

1)、普通字符

非特殊含义以外的字符，如 a b 中国尚学堂

2)、元字符与转义

==14 个元字符: { } \ ^ $ . * + ? |→ 特殊含义==

转义字符: +字母 \d 0-9 \ \ \s空白符 \w –>字母数字_ (没有中文)

3)、字符类

a)、自定义

由[]组，只匹配一个，需要注意以下四个:

^: 如果在第一个位置，表示取反的含义。

-表示一个区间即范围

] 最后一个位置为:结束

\ 转义

.==在字符类中不是代表任意的字符，代码自身 .的含义。

如果需要表示原有的含义，挪到位置或者\ 。==

b)、默认|标准字符类

3. 量词

匹配的过程中，需要指定次数。

0 个及以上
1 个及以上 ? –>0 或 1 个 {n}n 次 ,非负数 {n,}大于等于 n 次 {n,m} –>大于等于 n 小于等于 m 次4. 贪婪模式在匹配次数不定时如* {n,} +，匹配字符越多越好，默认模式即”贪婪模贪婪模式 greedy(匹配字符越多越好，可回溯) “回溯”指,可以从最后往前面找 ?懒惰模式 lazy reluctant (匹配字符越少越好，可回溯) +独占模式 possessive(匹配字符越多越好,不可回溯) 用的较少

.*o –>贪婪模式
.{2,}o–>贪婪模式
.{2,}?o –>懒惰模式
.{2,}+o –>独占模式，不可回溯 没有匹配到内容。

5.边界

1)、边界不占用宽度，只是一个界限。

2)、 ^ ：开始 \b：单词边界 \B：非单词边界 $：结束

^：多行代表每行头单行代表整个字符串的开始

$: 多行代表每行尾单行代表字符串的结尾

\b 匹配前面或后面的不是\w

\B 匹配前面或后面的是\w

6. 选择符与分组

1)、选择符

| → 优先级低 ,满足匹配则停止，不会查找更优的方案

hellohe

he|hello –>只匹配 he,不匹配 hello

hello|ehe 匹配 he 与 hello

2)、分组

() 组，提高优先级，内部存在缓存，==可以使用缓存即反向引用。==

必须认识组编号，为( 的位置

(")test\1 –> “第 1 个左括号中

((")test)\2 –> “第 2 个左括号中

非捕获组:(?:xxx) ：不缓存组

3)、模式修改符

==(?ism )*(?-ism)

i： insensitive 使正则表达式对大小写不敏感； (重点)==

s： singleline 开启“单行模式”，即点号“ .”匹配新行符；

m： multiline 开启“多行模式”，即“ ^”和“ $”匹配新行符的前面和后面的位置。

Select
select
select
SELECT * from

(?i)select(?-i) 不区分大小写。

7. 零宽断言(难点)

前瞻（ Lookahead）后顾（ Lookbehind）

问题：什么是断言？

答案：断言用于查找某些内容或内容所在的位置，该内容或内容所在位置应满足一定的条件。

二、简单正则案例练习

案例1：匹配11位手机号，要求：第一位数字为1，第二位数字是34578中的一个，接下来后9位都是0到9的数字

@Test
public void regular3() {
    String regular = "^1[34578]\\d{9}$";
    String str1 = "15221621619";
    String str2 = "11221621619";
    System.out.println("手机号str1校验:" + Pattern.compile(regular).matcher(str1).find());  //手机号str1校验:true
    System.out.println("手机号str2校验:" + Pattern.compile(regular).matcher(str2).find());  //手机号str2校验:false
}

案例2：匹配QQ号，要求：第一个数不可能是0，目前qq最多是10位数字，最少5位

@Test
public void regular4() {
    String regular = "^[1-9][0-9]{4,9}";
    String str3 = "924382";
    String str4 = "0101";
    System.out.println("QQ号str3校验:" + Pattern.compile(regular).matcher(str3).find());  //QQ号str3校验:true
    System.out.println("QQ号str4校验:" + Pattern.compile(regular).matcher(str4).find());  //QQ号str4校验:false
}

案例3：采用“零宽断言”需求：在字符串 ‘北京市(朝阳区)(西城区)(海淀区)’ 中，取出没有被()包裹的字符北京市

需求：在字符串 ‘北京市(朝阳区)(西城区)(海淀区)’ 中，取出没有被()包裹的字符北京市

你可能有疑问，如果我正则写成这个样子.*(?=()，为什么结果就不对？这个正则结果是：北京市(朝阳区)(西城区)

答案：

代表匹配除了换行和行结束符的任意字符

代表匹配任意次数，保证我们得到的是北京市而不是市这个单字 ? 代表对多个连续的值，要么匹配0次，要么匹配1次，最多匹配一次

上面说了，?在这个表达式里，表示要么不匹配，要么最多匹配一次，这就是非贪婪模式

而不添加?，表达式以贪婪模式运行。什么是贪婪模式？就是尽可能多的去匹配，匹配到了还去匹配，贪得无厌，一直匹配到字符串的末尾

因为字符串中有三个(，贪婪模式下会一直匹配到字符串结尾，就会得到“北京市(朝阳区)(西城区)”这个结果。

@Test
public void regular5() {
    String regular = ".*?(?=\\()";
    String str5 = "北京市(朝阳区)(西城区)(海淀区)";
    Matcher matcher = Pattern.compile(regular).matcher(str5);
    if (matcher.find()) System.out.println("采用‘零宽断言‘，对str5提取想要内容:" + matcher.group());  //采用‘零宽断言‘，对str5提取想要内容:北京市
    }

三.常用类

1.正则

java.util.regex Pattern Matcher String

查找、替换、分割、组的使用

1)、 Pattern

2)Matcher(匹配器)

3)、字符串与正则

三.附件

Eclipse和JS的2种使用正则方法:

Eclipse使用正则:
//第一种使用方法matches(正则)    公式:str.matches(reg) 
		String reg="\\d";
		String str="lksdafks2dkjf2lkds4sjdflksd6lkdj";
		System.out.println(str.matches(reg));
		//replace 识别正则表达式的时候默认替换第一个满足正则的内容,如果想要替换多个,使用replaceAll
		System.out.println(str.replaceAll("\\d", "S")); 把所有数字替换成S
		//切割字符串
		System.out.println(Arrays.toString(str.split("\\d")));
		
//第二种使用方法Pattern 表示正则语法的类
		Pattern regex=Pattern.compile(reg);
		//获取匹配器对象  公式: regex.matcher(str)
		Matcher macher=regex.matcher(str);
		//查找是否有满足条件的内容,继续向下查找
		System.out.println(macher.find());
		System.out.println(macher.find());






js中使用正则:
<!--
        js中使用正则:
            match  匹配
                可以是第一个满足的内容--数组
                可以是所有满足的内容--数组  --g 代表全局变量
                如果没有满足条件的返回null
            test 判断是否满足 true,false
--> 

<script>
        var str="ab1cadac";
        var str2='A3441';
        //全局匹配,获取多个能满足正则语法的数组形式的内容

        //隐式定义正则形式  使用/xxxx/
        var reg1=/^[A-Z]\d{5}$/;
        //显示定义正则    使用new RegExp(‘’)
        var reg2=new RegExp('\\d');
        
        var arr=str2.match(reg1);//第一种方法使用match,  公式: str2.match(reg1)
        console.log(arr);

        console.log(reg1.test(str2)); //第二种方法使用test,  公式: reg1.test(str2)
    </script>

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

智慧城市