正则表达式

整理自B站 廖雪峰老师的正则表达式课程。

正则表达式的概述

什么是正则表达式?

正则表达式可以用字符串来描述规则,并用来匹配字符串。

正则表达式是字符串。

用字符描述规则,匹配字符。

用正则表达式的好处:

一个正则表达式就是一个描述规则的字符串。

只需要编写正确的规则,就可以让正则表达式引擎去判断目标字符串是否符合规则。

正则表达式是一套标准,可以用于任何语言。

jdk的内置正则表达式引擎:java.util.regex

匹配方向:

从左到右按规则匹配

匹配规则:

&:精确匹配:“a\&c” 精确匹配ac

.
来匹配任意一个字符。 “a.c” abc aac acc等

\d: 来匹配数字: “00\d”

\w :可以匹配一个字母,数字或下划线:“java\w” 不能匹配#和空格。

\s: 可以匹配一个空格字符。“a\sb”

\D:可以匹配任意一个非数字的符号(包括#)。”00\D”

\W: 非字母,数字下划线;“java\w” 可能是 java_

\S: 可以匹配一个非空白字符:”A\SB“ 可以是A&B ABB 不能是”A B“

*: 可以匹配任意0次或多次字符

+:可以匹配至少1字符。

?: 可以匹配 零个或一个字符 。“A?B” 可以是A和B的任意字符。

{n} : 表示匹配n个字符。”\d{6}” 匹配6个数字

{n,m}:表示匹配n到m个字符。“\d{3,5}”表示匹配3到5个数字

{n,}:至少n个字符。

复杂的匹配规则:

加上

^(开头)和$(结尾)
会变得严谨,java默认只能做单行匹配,可以不加。

[…]可以匹配范围内的字符:”[abc]1” 表示abc中的一个 a1 b1 c1;

[a-f]1 表出a到f中的一个和1结合;

[a-f0-9_]{6}
下划线和字母数字间没有顺序

[^…]:匹配[…]内除外的所有字符

AB|CD: AB或CD

learn\s(AB|CD): learn (空格)AB或者learn (空格)CD

案例:匹配5到10位的qq号

 public static boolean isValidQQ(String s){
return s.matches("^[1-9]\\d{4,9}$");
}

分组匹配规则

(…)
可以用来分组:

https://img-1259177572.cos.ap-nanjing.myqcloud.com/picGo/img/hoquriqidevgzebcdaui.png

https://img-1259177572.cos.ap-nanjing.myqcloud.com/picGo/img/tiqudmhwhkmadfs.png

String.matches vs Pattern.mather

实际上是一样的,string的matches内部调用的就是pattern.mather

反复使用一个正则表达式进行快速匹配效率低下

可以把正则表达式字符串编译成pattern对象

 Pattern pattern = Pattern.compile("^\\d{3,4}\\-\\d{6,8}$");
pattern.mather("010-12345678").matches(); //true

//获取Match的对象:
Matcher matcher = Pattern.matcher(String s);
matcher.matches(); //true or false

使用Matcher.group(n)快速提取子串

https://img-1259177572.cos.ap-nanjing.myqcloud.com/picGo/img/kysutiquziirsdf.png

 String s = "010-123456";

Pattern pattern = Pattern.compile("^(0\\d{2,3})-([1-9]\\d{5,7})");
Matcher matcher = pattern.matcher(s);
if(matcher.matches()){
String s0=matcher.group(0); //表示获取全部字符。
String s1=matcher.group(1);
String s2=matcher.group(2);
System.out.println(s1);
System.out.println(s2);
}

贪婪匹配和非贪婪匹配

正则表达式的贪婪匹配

默认是贪婪匹配,就是在匹配时尽可能多地向后匹配。

https://img-1259177572.cos.ap-nanjing.myqcloud.com/picGo/img/tjljpipzdelizijxgodsdsf.png

非贪婪匹配

https://img-1259177572.cos.ap-nanjing.myqcloud.com/picGo/img/yswfhkuixmfztjljpipzfsf.png

 String s="9999";
Pattern pattern = Pattern.compile("^(\\d??)(9*)$");
Matcher m = pattern.matcher(s);
if(m.matches()){
String s1 = m.group(1);
String s2 = m.group(2);
System.out.println(s1);
System.out.println(s2);
}

提取,搜索及替换

提取的例子

String[] String.split(String regex);

 String s = "a#b;;c,  1234;5;";
String[] str = s.split("[\\,\\#\\s+\\;]+");
for (String s1 : str) {
System.out.println(s1);

搜索的例子

Matcher.find();

 public static void main(String[] args) {
String s = "the good things hello";
Pattern p = Pattern.compile("the",Pattern.CASE_INSENSITIVE); //忽略大小写
\\ \\w+ 提取每一个单词 \\w*o\\w* 带有o的单词
Matcher m = p.matcher(s);
while (m.find()){
String sub = s.substring(m.start(),m.end());
System.out.println(sub);
}
}

替换

String.replaceAll();

 public static void main(String[] args) {
String s = "the quick brown fox jumps over the lazy dog.";
String s1 = s.replaceAll("\\s+", " ");
System.out.println(s1);

//再将s1的内容加粗体处理
String s2 = s1.replaceAll("(\\w+)", "<b>$1</b>");
System.out.println(s2);
}

标签: Java

添加新评论