正则表达式匹配非字母-正则表达式的贪婪匹配(.)和非贪婪匹配(.?)

发布时间：2018-02-11 所属栏目：网络编程

一 : 正则表达式的贪婪匹配(.*)和非贪婪匹配(.*?)

.*?
正则引擎默认是贪婪的，当出现"*"时,它会尽量去匹配尽可能长的字符串

一个用于修正以上问题的可能方案是用"*"的惰性代替贪婪性。（www.61k.com）你可以在"*"后面紧跟一个问号"?"来达到这一点
这告诉正则引擎，尽可能少的重复上一个字符

二 : PHP 正则表达式效率贪婪、非贪婪与回溯分析(推荐)

先扫盲一下什么是正则表达式的贪婪，什么是非贪婪？或者说什么是匹配优先量词，什么是忽略优先量词？

好吧，我也不知道概念是什么，来举个例子吧。

某同学想过滤之间的内容，那是这么写正则以及程序的。

 $str = preg_replace('%<script>.+?</script>%i','',$str);//非贪婪

看起来，好像没什么问题，其实则不然。若

 $str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>';

那么经过上面的程序处理，其结果为

 $str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>'; $str = preg_replace('%<script>.+?</script>%i','',$str);//非贪婪 print_r($str); //$str 输出为 <script>alert(document.cookie)</script>

仍然达不到他想要的效果。上面的就是非贪婪，也有的叫惰性。其标志非贪婪的标识为量数元字符后面加? ，比如 +?、*?、??(比较特殊，以后的BLOG中，我会写到)等。即标识非贪婪，如果不写?就是贪婪。比如

 $str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>'; $str = preg_replace('%<script>.+</script>%i','',$str);//非贪婪 print_r($str); //$str 输出为 <script 只有这些了，好像还是不太合适，哈，您知道如何重写那个正则吗？

以上为贪婪，非贪婪的区别介绍。下面，聊下贪婪、非贪婪引起的回溯问题。先看个小例子。

正则表达式为w*(d+)，字符串为cfc456n，那么，这个正则匹配的$1是多少？？

如果您回答是 456,那么，恭喜你，回答错了，其结果不是456，而是6，您知道为什么吗？

CFC4N来解释一下，当正则引擎用正则w*(d+)去匹配字符串cfc456n时，会先用w*去匹配字符串cfc456n，首先，w*会匹配字符串cfc456n的所有字符，然后再交给d+去匹配剩下的字符串，而剩下的没了，这时，w*规则会不情愿的吐出一个字符，给d+去匹配，同时，在吐出字符之前，记录一个点，这个点，就是用于回溯的点，然后d+去匹配n，发现并不能匹配成功，会再次要求w*再吐出一个字符，w*会先再次记录一个回溯的点，再吐出一个字符。这时，w* 匹配的结果只有cfc45了，已经吐出6n了，d+再去匹配6，发现匹配成功，则会通知引擎，匹配成功了，就直接显示出来了。所以，(d+)的结果是6，而不是456。

当上面的正则表达式改为 w*?(d+)（注意，此处为非贪婪），字符串仍然为cfc456n，那么，这时候，正则匹配的$1是多少？？

甲同学回答：结果是 456。

嗯，是的，正确，是456，CFC4N弱弱的问下，为什么是456 呢？

我在来解释一下为什么是456

正则表达式有条规则，是量词优先匹配，所以w*?会先去匹配字符串cfc456，由于w*?是非贪婪，正则引擎会用表达式w+?每次仅匹配一个字符串,然后再将控制权交给后面的d+去匹配下一个字符，同时，记录一个点，用于在匹配不成功的时候，返回这里，再次匹配，也就是回溯点。由于w后面是量词是*，*表示0到无数次，所以，首先是0次，也就是w*?匹配个空，记录回溯点，将控制权交给d+,d+去匹配cfc456n的第一个字符c,然后，匹配失败，于是乎，接着讲控制权交给w*?去匹配cfc456n的c，w*?匹配c成功，由于是非贪婪，所以，他每次只匹配一个字符，记录回溯点，然后再将控制权交给d+匹配f,接着，d+匹配f再失败，再把控制权给w*?，w*?再匹配c,记录回溯点（这时w*?匹配结果是cfc了），再把控制权给d+，d+去匹配4，匹配成功，然后，由于量词是+，就是1到无数次，所以，接着往后匹配，再匹配5，成功，再接着，再匹配6，成功，再接着，继续匹配操作，下一个字符是n，匹配失败，这时，d+会吧控制权交出去。由于d+后面已经没有正则表达式了，所以，整个正则表达式宣告匹配完成，其结果就是 cfc456, 其中第一组结果是456。亲爱的同学，您明白刚刚的题目的结果，为什么是456了吗？

好了，您是否从上面的例子了解了贪婪，非贪婪的匹配原理了？那您是否明白您在什么时候需要使用贪婪，非贪婪去处理您的字符串了？

鸟哥的文章里讲到针对表达式、程序为

 $reg = "/<script>.*?</script>/is"; $str = "<script>********</script>"; //长度大于100014 $ret = preg_repalce($reg, "", $str); //返回NULL

其原因就是回溯太多了，直到造成耗尽栈空间爆栈。

再来看个例子。

字符串

 $str = '<script>123456</script>';

正则表达式为

 $strRegex1 = '%<script>.+</script>%'; $strRegex2 = '%<script>.+?</script>%'; $strRegex3 = '%<script>(?:(?!</script>).)+</script>%';

以上所述是小编给大家介绍的PHP 正则表达式效率贪婪、非贪婪与回溯分析，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对61阅读网站的支持！

三 : 正则表达式贪婪与非贪婪模式

之前做程序的时候看到过正则表达式的贪婪与非贪婪模式，今天用的时候就想不起来了，现在这里总结一下，以备自己以后用到注意。(www.61k.com]

1.什么是正则表达式的贪婪与非贪婪匹配

如：String str="abcaxc";

Patter p="ab*c";

贪婪匹配:正则表达式一般趋向于最大长度匹配，也就是所谓的贪婪匹配。如上面使用模式p匹配字符串str，结果就是匹配到：abcaxc(ab*c)。

非贪婪匹配：就是匹配到结果就好，就少的匹配字符。如上面使用模式p匹配字符串str，结果就是匹配到：abc(ab*c)。

2.编程中如何区分两种模式

默认是贪婪模式；在量词后面直接加上一个问号？就是非贪婪模式。

量词：{m,n}：m到n个

*：任意多个

+：一个到多个

？：0或一个

3.程序实例

使用Snort的规则一条规则的一部分作为匹配文本，匹配出其中的content部分。

1 import java.util.regex.Matcher; 2 import java.util.regex.Pattern; 3 4 public class RegularTest { 5 6 public static void main(String[] arg){ 7 String text="(content:"rcpt to root";pcre:"word";)"; 8 String rule1="content:".+""; //贪婪模式 9 String rule2="content:".+?""; //非贪婪模式10 11 System.out.println("文本："+text);12 System.out.println("贪婪模式："+rule1);13 Pattern p1 =Pattern.compile(rule1);14 Matcher m1 = p1.matcher(text);15 while(m1.find()){16 System.out.println("匹配结果："+m1.group(0));17 }18 19 System.out.println("非贪婪模式："+rule2);20 Pattern p2 =Pattern.compile(rule2);21 Matcher m2 = p2.matcher(text);22 while(m2.find()){23 System.out.println("匹配结果："+m2.group(0));24 }25 }26 }

执行结果：

pcre是什么正则表达式贪婪与非贪婪模式

4.注意

在linux C 下面没有编译成功使用？号的非贪婪模式。

网上的一句话：the ? only works for Perl-based regexp, not for POSIX...

四 : JavaScript正则表达式的贪婪匹配和非贪婪匹配

所谓贪婪匹配就是匹配重复字符是尽可能多的匹配，比如：

 "aaaaa".match(/a+/); //["aaaaa", index: 0, input: "aaaaa"]

非贪婪匹配就是尽可能少的匹配，用法就是在量词后面加上一个“？”，比如：

 "aaaaa".match(/a+?/); //["a", index: 0, input: "aaaaa"]

但是非贪婪匹配有时候和我们期待的并不一样，比如：

 "aaab".match(/a+b/); ["aaab", index: 0, input: "aaab"] "aaab".match(/a+?b/); ["aaab", index: 0, input: "aaab"]

在我们期待的情况下非贪婪匹配应该是匹配"ab"才对但是结果却和贪婪匹配时一样的。
在《权威指南》中有这么一句话：正则表达式的模式匹配总是会寻找字符串中第一个可能匹配的位置。
个人对这句话的理解是：上例中正则表达式会先找到第一个字符a，因为a后面连接的字符有可能形成匹配，这是正则表达式就认定这个位置的字符了，然后开始往后进行匹配，如果像第一个例子中那样非贪婪匹配，匹配到第一个a就结束了，但是第二个例子中还要匹配b所以不得不接着往下匹配直到匹配到b为止结束。

总结

以上所述是小编给大家介绍的JavaScript正则表达式的贪婪匹配和非贪婪匹配，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对61阅读网站的支持！

本文标题：正则表达式匹配非字母-正则表达式的贪婪匹配(.*)和非贪婪匹配(.*?)
本文地址： http://www.61k.com/1129435.html

上一篇：世纪佳缘网会员登录-世纪佳缘网会员登录
下一篇：甲骨文作文-四川甲骨文作文原文