正则表达式入门教程

介绍

正则表达式就是记录文本规则的代码。

在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要。比如找出一段文本中所有的数字。

如果你想查找某个目录下的所有的 PPT 的话，你会搜索 *.pptx 。在这里，* 会被解释成任意的字符串。

和通配符类似，正则表达式也是用来进行文本匹配的工具，只不过比起通配符，它能更精确地描述你的需求——当然，代价就是更复杂。

元字符

hi

匹配含有 hi 的字符串，包括 him，high，history。

\bhi\b

精确查找，只匹配 hi。

\b 是一个元字符，代表单词的开始和结束，它匹配一个位置。

0\d\d-\d\d\d\d\d\d\d\d

\d 匹配数字。

这个式子可以化简为

0\d{2}-\d{8}

第一个表示数字重复两次，第二个表示重复八次。

\D [^\d] 匹配非数字字符。

. 匹配任意字符

\w 匹配字母数字下划线

\ba\w*\b

首先匹配 a 开头，\w 匹配字母数字下划线或汉字，* 表示 * 之前的可以任意使用任意次（注意可以是0次）。

\d+

匹配任意个数字 + 表示匹配 1 次或任意次，注意至少要 1 次。

\b\w{6}\b

匹配 6 个字符的字符串。

\d{4,10}

匹配 4 到 10 个字符串，包括 4 和 10。

字符转义

如果你想查找元字符本身，比如 *，- ，那么你可以用一个反斜杠 + 查找的元字符，如果想查找 \ ,那么就是 \\ 。

重复

字符类

如果想要匹配没有预定义元字符的字符集合，比如 1 3 5，或者 aeiou，那么应该怎么办呢？

[aeiou] [135]

试一下更复杂的表达式

\(?0\d{2}[) -]?\d{8}

拆除一部分一部分分析。

\(?0\d{2}

表示左小括号 ( 出现 1 次或 0 次，然后是一个 0，再加 2 个数字，

[) -]?

再加上右括号空格减号中的 1 个，这个出现的次数是 1 次或 0 次。

\d{8}

最后再加上 8 个数字。可以匹配

(012)12345678
012)12345678
(012 12345678
(012-12345678
01212345678

分枝条件

有时候我们需要多种条件，比如有三位区号，但是我也要四位区号。类似 if ，else if。

分支条件指的是有几种规则，只要满足任意一个规则，那么就可以匹配。

\(0\d{3}\)[- ]?\d{8}|0\d{3}[- ]?\d{8}

| 将两个表达式隔开，一个一个分析。

有括号的以 0 开头四位区号，第二个没括号。

匹配分支时，从左到右，左边满足就不会管右边。

分组

我们已经学过数字和字符的重复，比如 \d{3}, 3 个数字，那么我们也可以对表达式进行重复。

通过小括号来指定子表达式，然后可以指定子表达式的重复次数。

(\d{1,3}\.){3}\d{1,3}

简单 ip 地址匹配表达式，\d{1,3} 匹配 1 到 3 位数字，\. 匹配符号 . ,被小括号包括，说明是个分组，后面的 {3} 表示分组重复的次数。

不过这个表达式不够严谨，会匹配到不存在的 ip 地址。比如 666.666.666.666。

正确的匹配 ip 表达式

((2[0-4]\d|25[1-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[1-5]|[01]?\d\d?)

依然一个一个看，ip地址的数字范围是[0,255]。可划分为:

[0,9]
[10,99]
[100,199]
[200,249]
[250,255]

[01]?\d\d?

匹配 [0,199]

2[0-4]\d

匹配 [200,249]

25[1-5]

匹配 [250,255]

反义

后向引用

后向引用用于重复搜索

(\d)\d\1

第一个 \d 是一个匹配数字捕获分组，第二个普通的匹配数字，\1 是匹配捕获分组中的字符。

结果就是匹配类似 303 575这种字符串。

\b(\w+)\b\s+\1\b

(\w+) 是一个分组，匹配一个单词，\1表示的前面出现过的分组 1 的内容。

\s+ 匹配一个或多个空格。

也可以自己给分组起个名称。

(?\w+)

那么 first 就是分组的名称了，反向引用就是

\k

零宽断言

零宽断言用于指定一个位置, 用于查找在某些内容(但并不包括这些内容)之前或之后的东西.

\w+(?=ing)

匹配以 ing 结尾的前面部分（不包括 ing）。

(?<=sin)\w+

匹配 sin 开头的单词的后半部分，不包括 sin。

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

正则表达式入门教程

介绍

元字符

字符转义

重复

字符类

分枝条件

分组

反义

后向引用

零宽断言

About

Releases

Packages

stevenling/learn-regular-expression

Folders and files

Latest commit

History

Repository files navigation

正则表达式入门教程

介绍

元字符

字符转义

重复

字符类

分枝条件

分组

反义

后向引用

零宽断言

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages