前几天在CSDN论坛遇到这样一个问题。
我要通过正则分别取出下面 与 之间的字符串
1、在 与 之间的字符串是没法固定的,是随机自动生成的
2、其中 与 的数量也是没法固定的,也是随机自动生成的
** 这里是不固定的字符串1 **
** 这里是不固定的字符串2 **
** 这里是不固定的字符串3 **
有朋友给出这样的正则“(?<=)([sS]*?)(?=)”,看下匹配结果。
复制代码 代码如下:
string test = @" ** 这里是不固定的字符串1 **
** 这里是不固定的字符串2 **
** 这里是不固定的字符串3 ** ";
MatchCollection mc = Regex.Matches(test, @"(?<=)([sS]*?)(?=)");
foreach (Match m in mc)
{
richTextBox2.Text += m.Value + "n---------------n";
}
/*--------输出--------
** 这里是不固定的字符串1 **
---------------
** 这里是不固定的字符串2 **
---------------
** 这里是不固定的字符串3 **
---------------
*/
为什么会是这样的结果,而不是我们期望的如下的结果呢?
/*--------输出--------
** 这里是不固定的字符串1 **
---------------
** 这里是不固定的字符串2 **
---------------
** 这里是不固定的字符串3 **
---------------
*/
这涉及到逆序环视的匹配原理,以及贪婪与非贪婪模式应用的一些细节,下面先针对逆序环视的匹配细节展开讨论,然后再回过头来看下这个问题。
2 逆序环视匹配原理
关于环视的一些基础讲解和基本匹配原理,在正则基础之——环视这篇博客里已有所介绍,只不过当时整理得比较匆忙,没有涉及更详细的匹配细节。这里仅针对逆序环视展开讨论。
逆序环视的基础知识在上面博文中已介绍过,这里简单引用一下。
表达式
说明
(?<=Expression)
逆序肯定环视,表示所在位置左侧能够匹配Expression
(?
逆序否定环视,表示所在位置左侧不能匹配Expression
对于逆序肯定环视(?<=Expression)来说,当子表达式Expression匹配成功时,(?<=Expression)匹配成功,并报告(?<=Expression)匹配当前位置成功。
对于逆序否定环视(?
2.1 逆序环视匹配行为分析
2.1.1 逆序环视支持现状
目前支持逆序环视的语言还比较少,比如当前比较流行的脚本语言JavaScript中就是不支持逆序环视的。个人认为不支持逆序环视已成为目前JavaScript中使用正则的最大限制,一些使用逆序环视很轻松搞定的输入验证,却要通过各种变通的方式来实现。
需求:验证输入由字母、数字和下划线组成,下划线不能出现在开始或结束位置。
对于这样的需求,如果支持逆序环视,直接“^(?!_)[a-zA-Z0-9_]+(?
而另一些流行的语言,比如Java中,虽然支持逆序环视,但只支持固定长度的子表达式,量词也只支持“?”,其它不定长度的量词如“*”、“+” 、“{m,n}”等是不支持的。
源字符串:
需求:取得div标签的内容,不包括div标签本身
Java代码实现:
复制代码 代码如下:
import java.util.regex.*;
String test = "
String reg = "(?<=
Matcher m = Pattern.compile(reg).matcher(test);
while(m.find())
{
System.out.println(m.group());
}
/*--------输出--------
a test
*/
但是如果源字符串变一下,加个属性变成“
为什么在很多流行语言中,要么不支持逆序环视,要么只支持固定长度的子表式呢?先来分析一下逆序环视的匹配原理吧。
2.1.2 Java中逆序环视匹配原理分析
不支持逆序环视的自不必说,只支持固定长度子表达式的逆序环视如何呢。
源字符串:
正则表达式:(?<=
需要明确的一点,无论是什么样的正则表达式,都是要从字符串的位置0处开始尝试匹配的。
首先由“(?<=
正则引擎传动装置向右传动,由位置1处开始尝试匹配,同样匹配失败,直到位置5处,向左查找5个字符,满足条件,此时把控制权交给“(?<=
后续的匹配过程请参考正则基础之——环视和正则基础之——NFA引擎匹配原理。
那么对于量词“?”又是怎么样一种情况呢,看一下下面的例子。
源字符串:cba
正则表达式:(?<=(c?b))a
复制代码 代码如下:
String test = "cba";
String reg = "(?<=(c?b))a";
Matcher m = Pattern.compile(reg).matcher(test);
while(m.find())
{
System.out.println(m.group());
System.out.println(m.group(1));
}
/*--------输出--------
a
*/
可以看到,“c?”并没有参与匹配,在这里,“?”并不具备贪婪模式的作用,“?”只提供了一个分支的作用,共记录了两个分支,一个分支需要从当前位置向前查找一个字符,另一个分支需要从当前位置向前查找两个字符。正则引擎从当前位置,尝试这两种情况,优先尝试的是需要向前查找较少字符的分支,匹配成功,则不再尝试另一个分支,只有这一分支匹配失败时,才会去尝试另一个分支。
复制代码 代码如下:
String test = "dcba";
String reg = "(?<=(dc?b))a";
Matcher m = Pattern.compile(reg).matcher(test);
while(m.find())
{
System.out.println(m.group());
System.out.println(m.group(1));
}
/*--------输出--------
a
dcb
*/
虽然有两个分支,但向前查找的字符数可预知的,所以只支持“?”时并不复杂,但如果再支持其它不定长度量词,情况又如何呢?
2.1.3 .NET中逆序环视匹配原理
.NET的逆序环视中,是支持不定长度量词的,在这个时候,匹配过程就变得复杂了。先看一下定长的是如何匹配的。
复制代码 代码如下:
string test = "
Regex reg = new Regex(@"(?<=
Match m = reg.Match(test);
if (m.Success)
{
richTextBox2.Text += m.Value + "n";
}
/*--------输出--------
a test
*/
从结果可以看到,.NET中的逆序环视在子表达式长度固定时,匹配行为与Java中应该是一样的。那么不定长量词又如何呢?
复制代码 代码如下:
string test = "cba";
Regex reg = new Regex(@"(?<=(c?b))a");
Match m = reg.Match(test);
if (m.Success)
{
richTextBox2.Text += m.Value + "n";
richTextBox2.Text += m.Groups[1].Value + "n";
}
/*--------输出--------
a
cb
*/
可以看到,这里的“?”具备了贪婪模式的特性。那么这个时候是否会有这样的疑问,它的匹配过程仍然是从当前位置向左尝试,还是从字符串开始位置向右尝试匹配呢?
复制代码 代码如下:
string test = "
Match m = reg.Match(test);
if (m.Success)
{
richTextBox2.Text += m.Value + "n";
richTextBox2.Text += m.Groups[1].Value + "n";
}
/*--------输出--------
a
从结果可看出,在逆序环视中有不定量词的时候,仍然是从当前位置,向左尝试匹配的,否则Groups[1]的内容就是“
复制代码 代码如下:
string test = "e
Match m = reg.Match(test);
if (m.Success)
{
richTextBox2.Text += m.Value + "n";
richTextBox2.Text += m.Groups[1].Value + "n";
}
/*--------输出--------
a
可以看到,采用贪婪模式以后,虽然尝试到“c”前面的“<”时已经可以匹配成功,但由于是贪婪模式,还是要继续尝试匹配的。直到尝试到开始位置,取最长的成功匹配作为匹配结果。
2.2 匹配过程
再来理一下逆序环视的匹配过程吧。
源字符串:
正则表达式:(?<=
首先由“(?<=
正则引擎传动装置向右传动,由位置1处开始尝试匹配,同样匹配失败,直到位置5处,向左查找5个字符,满足条件,此时把控制权交给“(?<=
正则引擎传动装置向右传动,由位置6处开始尝试匹配,同样匹配失败,直到位置16处,此时的当前位置指的就是位置16,把控制权交给“(?<=
总结正则表达式“(?<=SubExp1) SubExp2”的匹配过程:
1、 由位置0处向右尝试匹配,直到找到一个满足“(?<=SubExp1) ”最小长度要求的位置x;
2、 从位置x处向左查找满足“SubExp1”最小长度要求的位置y;
3、 由“SubExp1”从位置y开始向右尝试匹配;
4、 如果“SubExp1”为固定长度或非贪婪模式,则找到一个成功匹配项即停止尝试匹配;
5、 如果“SubExp1”为贪婪模式,则要尝试所有的可能,取最长的成功匹配项作为匹配结果。
6、 “(?<=SubExp1) ”成功匹配后,控制权交给后面的子表达式,继续尝试匹配。
需要说明的一点,逆序环视中的子表达式“SubExp1”,匹配成功时,匹配开始的位置是不可预知的,但匹配结束的位置一定是位置x。
3 问题分析与总结
3.1 问题分析
那么再回过头来看下最初的问题。
复制代码 代码如下:
string test = @" ** 这里是不固定的字符串1 **
** 这里是不固定的字符串2 **
** 这里是不固定的字符串3 ** ";
MatchCollection mc = Regex.Matches(test, @"(?<=)([sS]*?)(?=)");
foreach (Match m in mc)
{
richTextBox2.Text += m.Value + "n---------------n";
}
/*--------输出--------
** 这里是不固定的字符串1 **
---------------
** 这里是不固定的字符串2 **
---------------
** 这里是不固定的字符串3 **
---------------
*/
其实真正让人费解的是这里的逆序环视的匹配结果,为了更好的说明问题,改下正则。
string test = @" ** 这里是不固定的字符串1 **
复制代码 代码如下:
** 这里是不固定的字符串2 **
** 这里是不固定的字符串3 ** ";
MatchCollection mc = Regex.Matches(test, @"(?<=())([sS]*?)(?=)");
for(int i=0;i
richTextBox2.Text += "第" + (i+1) + "轮成功匹配结果:n";
richTextBox2.Text += "Group[0]:" + m.Value + "n";
richTextBox2.Text += "Group[1]:" + m.Groups[1].Value + "n---------------n";
}
/*--------输出--------
第1轮成功匹配结果:
Group[0]: ** 这里是不固定的字符串1 **
Group[1]:
---------------
第2轮成功匹配结果:
Group[0]:
** 这里是不固定的字符串2 **
Group[1]: ** 这里是不固定的字符串1 **
---------------
第3轮成功匹配结果:
Group[0]:
** 这里是不固定的字符串3 **
Group[1]: ** 这里是不固定的字符串2 **
---------------
*/
对于第一轮成功匹配结果应该不存在什么疑问,这里不做解释。
第一轮成功匹配结束的位置是第一个“”前的位置,第二轮成功匹配尝试就是从这一位置开始。
首先由“(?<=)”取得控制权,向左查找6个字符后开始尝试匹配,由于“<”会匹配失败,所以会一直尝试到位置0处,这时“”要匹配成功,匹配的结束位置必须是第一个“”前的位置,所以“>”是匹配失败的,这一位置整个表达式匹配失败。
正则引擎传动装置向右传动,直到第一个“”后的位置,“”匹配成功,匹配开始位置是位置0,匹配结束位置是第一个“”后的位置,“”匹配到的内容是“ ** 这里是不固定的字符串1 ** ”,其中“[sS]*?”匹配到的内容是“color="#008000"> ** 这里是不固定的字符串1 ** 接下来的第三轮成功匹配,匹配过程与第二轮基本相同,只不过由于使用的是非贪婪模式,所以“”在匹配到“ ** 这里是不固定的字符串2 ** ”时匹配成功,就结束匹配,不再向左尝试匹配了。
接下来看下贪婪模式的匹配结果。
复制代码 代码如下:
string test = @" ** 这里是不固定的字符串1 **
** 这里是不固定的字符串2 **
** 这里是不固定的字符串3 ** ";
MatchCollection mc = Regex.Matches(test, @"(?<=())([sS]*?)(?=)");
for(int i=0;i
richTextBox2.Text += "第" + (i+1) + "轮成功匹配结果:n";
richTextBox2.Text += "Group[0]:" + m.Value + "n";
richTextBox2.Text += "Group[1]:" + m.Groups[1].Value + "n---------------n";
}
/*--------输出--------
第1轮匹配结果:
Group[0]: ** 这里是不固定的字符串1 **
Group[1]:
---------------
第2轮匹配结果:
Group[0]:
** 这里是不固定的字符串2 **
Group[1]: ** 这里是不固定的字符串1 **
---------------
第3轮匹配结果:
Group[0]:
** 这里是不固定的字符串3 **
Group[1]: ** 这里是不固定的字符串1 **
** 这里是不固定的字符串2 **
---------------
*/
仅仅是一个字符的差别,整个表达式的匹配结果没有变化,但匹配过程差别却是很大的。
那么如果想得到下面这种结果要如何做呢?
/*--------输出--------
** 这里是不固定的字符串1 **
---------------
** 这里是不固定的字符串2 **
---------------
** 这里是不固定的字符串3 **
---------------
*/
把量词修饰的子表达式的匹配范围缩小就可以了。
复制代码 代码如下:
string test = @" ** 这里是不固定的字符串1 **
** 这里是不固定的字符串2 **
** 这里是不固定的字符串3 ** ";
MatchCollection mc = Regex.Matches(test, @"(?is)(?<=(]*>))(?:(?!?fontb).)*(?=)");
for(int i=0;i
richTextBox2.Text += "第" + (i+1) + "轮匹配结果:n";
richTextBox2.Text += "Group[0]:" + mc[i].Value + "n";
richTextBox2.Text += "Group[1]:" + mc[i].Groups[1].Value + "n---------------n";
}
/*--------输出--------
第1轮匹配结果:
Group[0]: ** 这里是不固定的字符串1 **
Group[1]:
---------------
第2轮匹配结果:
Group[0]: ** 这里是不固定的字符串2 **
Group[1]:
---------------
第3轮匹配结果:
Group[0]: ** 这里是不固定的字符串3 **
Group[1]:
---------------
*/
3.2 逆序环视应用总结
通过对逆序环视的分析,可以看出,逆序环视中使用不定长度的量词,匹配过程很复杂,代价也是很大的,这也许也是目前绝大多数语言不支持逆序环视,或是不支持在逆序环视中使用不定长度量词的原因吧。
在正则应用中需要注意的几点:
1、 不要轻易在逆序环视中使用不定长度的量词,除非确实需要;
2、 在任何场景下,不只是逆序环视中,不要轻易使用量词修饰匹配范围非常大的子表达式,小数点“.”和“[sS]”之类的,使用时尤其要注意。
相关推荐
- 正则表达式与HTML5新元素
- 正则表达式日常收集整理(简单且实用)
- 在实际例子中学习正则表达式(高效率)
- 常用正则表达式匹配代码介绍
- 教你轻松记住JS正则表达式
- PHP正则表达式抓取某个标签的特定属性值的方法
- 正则表达式常用用法汇总
- jQuery如何用正则表达式验证手机号、身份证号、中文名称
- python 正则表达式学习小结
- java正则表达式四种常用的处理方式(匹配、分割、替代、获取)
- 正则表达式性能优化方法(高效正则表达式书写)
- 正则表达式、分组、子匹配(子模式)、非捕获子匹配(子模式)
- 使用正则表达式 exec 获取字符串中的汉字
- 正则表达式单行、多行模式简介(使用说明)
- 详解表单验证正则表达式实例(推荐)
- JavaScript 中的正则表达式(推荐)
- JavaScript正则表达式上之基本语法(推荐)
- JavaScript正则表达式下之相关方法
- 正则表达式 运算符优先级介绍
- 正则表达式——匹配规则介绍