java正则表达式经过编译后的表现模式

    作者:课课家教育更新于: 2016-02-18 16:26:16

    大神带你学编程,欢迎选课

      在做 Crawler的时候,本来是准备用正则的,但是看jsoup很好用,就没有学,刚刚在做古诗提取的时候,又要用到正则表达式,还是学了算了。

    java正则表达式正则表达式经过编译后的表现模式。_java正则表达_课课家

      正则表达式的语法可以参考:

      http://www.runoob.com/regexp/regexp-syntax.html

      java正则表达式主要是关于java.util.regex中的两个类:

      1.Pattern:正则表达式经过编译后的表现模式。

      2.Matcher:一个Matcher对象是一个状态机,它依据Pattern对象做为匹配模式对字符串展开匹配检查。

      两者的关系是,Matcher在Pattern给定的模式控制下进行字符串匹配工作。

      在正式开始正则表达式学习前,先要理解捕获组的概念。

      一.捕获组的概念

      捕获组就是将正则表达式中子表达式匹配的内容,保存到内存中,并以数字的编号或者显示命令的组里,方便后面的引用。主要分为两种,其语法如下:

      (1)普通捕获组:(expression)

      大多数语言都支持,这也是我们学习的重点。

      (2)命名捕获组:(?expression)

      暂不分析。

      要注意的是,除这两种语法外,其它的语法都不是捕获组。

      捕获组的编号:从左到右计算其开括号 "(" 来进行编号,且从1开始,因为编号0是正则表达式整体。

      例子:

      匹配格式为yyyy-mm-dd的日期。

      private static void study1(){

      String line = "2016-02-15";

      String pattern = "(\\\\d{4})-(\\\\d{2}-(\\\\d\\\\d))";

      //([0-9])=(//d)

      //pattern对象是一个正则表达式的编译表示

      Pattern r = Pattern.compile(pattern);

      //Matcher对象是对输入字符串进行解释和匹配操作的引擎。

      Matcher m = r.matcher(line);

      System.out.println("group:"+ m.groupCount());

      if (m.find()){

      System.out.println("Found value: "+ m.group(0));//all

      System.out.println("Found Value: "+ m.group(1));//(\\\\d{4})

      System.out.println("Found value: "+ m.group(2));//(\\\\d{2})

      System.out.println("Found value: "+ m.group(3));//(\\\\d\\\\d)

      }else {

      System.out.println("No match");

      输出结果为

      group:3

      Found value: 2016-02-15

      Found Value: 2016

      Found value: 02-15

      Found value: 15

      二.Pattern类的使用

      用于创建一个正则表达式,也可以说是一个匹配模式,其构造方法是私有的,但可以通过Pattern.compile(regex)简单工厂方法来创建一个正则表达式。

      例子:查看regex参数

      Pattern pattern = Pattern.compile("\\\\w+");

      System.out.println(pattern.toString());

      System.out.println(pattern.pattern());

      结果

      返回的都是正则表达式的字符串形式。

      (1)pattern.split(Charsequence input)

      用于分隔字符串,并返回一个String [ ],是否String.split(String regex) 就是通过这个实现的呢?

      Pattern pattern = Pattern.compile("\\\\d");

      String [] strArray =pattern.split("我的QQ是:456456我的电话是:0532214我的邮箱是:aaa@aaa.com");

      for (String aftersplit: strArray){

      System.out.println(aftersplit);

      结果为:

      str[0]="我的QQ是:" str[1]="我的电话是:" str[2]="我的邮箱是:aaa@aaa.com"

      (2) Pattern.matcher(String regex,CharSequence input)

      静态方法,用于快速匹配字符串,适用于只匹配一次,且匹配全部字符串。

      例子:

      Pattern.matches("\\\\d+","2223");//返回true

      Pattern.matches("\\\\d+","2223aa");//返回false,需要匹配到所有字符串才能返回true,这里aa不能匹配到

      Pattern.matches("\\\\d+","22bb23");//返回false,需要匹配到所有字符串才能返回true,这里bb不能匹配到

      (3)Pattern.matcher(CharSequence input)

      Matcher出现了,这个方法返回一个Matcher,其没有公共构造方法(私有的),只能通过 Pattern.matcher得到。

      上面我们看到,Pattern只能做一此简单的匹配,要得到更强大的正则匹配,则要用到Matcher,Matcher提供了对正则表达式分组与多次匹配的支持。

      例子:

      Pattern p = Pattern.compile("\\\\d+");

      Matcher m = p.matcher("22bb33");

      System.out.println(m.pattern());

      System.out.println(m.toString());

      结果为

      java.util.regex.Matcher[pattern=\\d+ region=0,6 lastmatch=]

      可以看到,matcher.toString()会返匹配的情况。

      (4)Matcher.matches()/Matcher.lookingAt()/Matcher.find()

      Matcher类提供三个匹配操作方法,它们都返回boolean类型,匹配成功时返回 true。

      matches()

      对整个字符串进行匹配,只有整个字符串都匹配了才返回true。

      Pattern p = Pattern.compile("\\\\d+");

      Matcher m = p.matcher("22bb33");

      System.out.println(m.matches());

      Matcher m2 = p.matcher("2233");

      System.out.println(m2.matches());

      返回结果

      false, true

      我们可以发现,下面的两种代码等价:

      Pattern.matches(String regex,CharSequence input)

      Pattern.compile(regex).matcher(input).matches()

      lookingAt()

      对前面的字符串进行匹配,只有匹配到的字符串在最前面才返回true。

      Pattern p = Pattern.compile("\\\\d+");

      Matcher m = p.matcher("22bb33");

      System.out.println(m.lookingAt()); //ture

      Matcher m2 = p.matcher("aa2233");

      System.out.println(m2.lookingAt());//flase

      find()

      匹配到的字符串可以在任何位置。

      Pattern p=Pattern.compile("\\\\d+");

      Matcher m=p.matcher("22bb23");

      m.find();//返回true

      Matcher m2=p.matcher("aa2223");

      m2.find();//返回true

      Matcher m3=p.matcher("aa2223bb");

      m3.find();//返回true

      Matcher m4=p.matcher("aabb");

      m4.find();//返回false

      (5)Matcher.start()/Matcher.end()/Matcher.group()

      在使用matches()/lookingAt(),find()执行匹配操作后,就可以利用上面的三个方法得到更详细的信息。

      start():返回匹配到的子字符串在字符串中的索引的位置。

      end():返回匹配到的子字符串的最后一个字符在字符串中的位置。

      group():返回匹配到的子字符串。

      Pattern p = Pattern.compile("\\\\d+");

      Matcher m = p.matcher("aaaa2222bb");

      m.find();//

      System.out.println(m.start());//4

      System.out.println(m.end()); //8

      System.out.println(m.group());//2222

      Matcher m2 = p.matcher("2222bb");

      m2.lookingAt();

      System.out.println(m2.start());//0

      System.out.println(m2.end()); //4

      System.out.println(m2.group());//222

      Matcher m3 = p.matcher("222");

      m3.matches();

      System.out.println(m3.start());//0

      System.out.println(m3.end()); //3

      System.out.println(m3.group());//222

      下面再说说正则表达式分组的使用,start(),end(),group(),它们都有加入参数int index的重载方法,用于分组操作。

      例子:

      Pattern p = Pattern.compile("([a-z]+)(\\\\d+)");//2 grouPS

      Matcher m = p.matcher("aaa2223bb444");

      System.out.println(m.groupCount());//2

      while (m.find()){

      System.out.println("====one match");

      //all

      System.out.print(m.start(0)+",");//0,

      System.out.print(m.end(0)+","); //7

      System.out.println(m.group(0)); //aaa2223

      //group 1

      System.out.print(m.start(1)+",");//0

      System.out.print(m.end(1)+","); //3

      System.out.println(m.group(1)); //aaa

      //goup 2

      System.out.print(m.start(2)+",");//3

      System.out.print(m.end(2)+","); //7

      System.out.println(m.group(2));//2223

      输出

      ====one match

      0,7,aaa2223

      0,3,aaa

      3,7,2223

      ====one match

      7,12,bb444

      7,9,bb

      9,12,444

      源码显示,无参数时是直接调用的参数为0的值,要注意的是,只有匹配成功时才可以使用start,end,group。

      最后一个例子,查找字符串中的数字:

      Pattern p = Pattern.compile("\\\\d+");

      Matcher m = p.matcher("我的QQ是:456456 我的电话是:0532214 我的邮箱是:aaa123@aaa.com");

      while (m.find()){

      System.out.println(m.group());

课课家教育

未登录

1