ruby regular

shelaine

浏览: 177033 次
性别:
来自: 武汉

最近访客更多访客>>

mingletxt

fh63045

lansuiyun

jcj_2012

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

ruby

1. 一般规则:

/a/ 匹配字符a。

/\?/ 匹配特殊字符?。特殊字符包括^, $, ? , ., /, \, [, ], {, }, (, ), +, *.

. 匹配任意字符，例如/a./匹配ab和ac

/[ab]c/ 匹配ac和bc,[]之间代表范围。例如：/[a-z]/ , /[a-zA-Z0-9]/

/[^a-zA-Z0-9]/ 匹配不在该范围内的字符串

/[\d]/ 代表任意数字

/[\w]/ 代表任意字母，数字或者_

/[\s]/ 代表空白字符，包括空格，TAB和换行

/[\D]/，/[\W]/，/[\S]/ 均为上述的否定情况

2. 高级规则:

? 代表0或1个字符。/Mrs?\.?/匹配"Mr"，"Mrs"，"Mr."，"Mrs."

“*” 代表0或多个字符。/Hello*/匹配"Hello",“HelloJack”

+ 代表1或多个字符。/a+c/匹配："abc"，"abbdrec"等等

/\d{3}/ 匹配3个数字

/\d{1,10}/ 匹配1-10个数字

/\d{3,}/ 匹配3个数字以上

/([A-Z]\d{4})/ 匹配首位是大写字母，后面4个是数字的字符

3. 下面我们就来具体看几个例子吧:

/Mrs?\.?/

上面匹配的是：M后面是字符r, 后面是0或1个字符s, 在后面是0或1个字符"." , 匹配Mr、Mrs、Mr.、Mrs.

/<\s*\/\s*p\s*>/

上面可以匹配:

</p>, </ p>,</p >,< /p>

4. 贪婪量词和不贪婪量词

量词*(零个或多个)和+(一个或多个)是贪婪的，它们会匹配尽可能多的字符,我们可以在*和+后面加一个?，使它成为非贪婪量词

irb(main):001:0> string = "abcdefGhigkGmnGop"

=> "abcdefGhigkGmnGop"

irb(main):002:0> match = /.+G/.match(string) #+会贪婪的匹配

=> #<MatchData "abcdefGhigkGmnG">

irb(main):003:0> match[0]

=> "abcdefGhigkGmnG"

irb(main):004:0> lmatch = /.+?G/.match(string) #+?不会贪婪的匹配,找到一个就停止

=> #<MatchData "abcdefG">

irb(main):004:0> lmatch = /.+?G/.match(string) #+?不会贪婪的匹配,找到一个就停止

=> #<MatchData "abcdefG">

irb(main):005:0> lmatch[0]

=> "abcdefG"

5. 锚

锚是指必须满足一定的条件，才能继续匹配

^ 行首

$ 行尾

\A 字符串的开始

\z 字符串的结尾

\Z 字符串的结尾(不包括最后的换行符)

\b 单词边界

irb(main):001:0> string = "&&&Join@@@@"

=> "&&&Join@@@@"

irb(main):002:0> match = /\b\w+\b/.match(string)

=> #<MatchData "Join">

irb(main):003:0> match[0]

=> "Join"

6. 前视断言

前视断言表示想要知道下一个指定的是什么，但并不匹配

1. 肯定的前视断言（？=）

irb(main):001:0> string = "123 456 789.032"

=> "123 456 789.032"

irb(main):002:0> match = /\d+(?=\.)/.match(string)

=> #<MatchData "789">

irb(main):003:0> match[0]

=> "789"

假设我们想要匹配一个数的序列，该序列以一个圆点结束，但并不想把圆点作为模式匹配的一部分

2. 否定的前视断言(?!)

irb(main):004:0> string = "123 456 789.032"

=> "123 456 789.032"

irb(main):005:0> match = /\d+(?!\.)/.match(string)

=> #<MatchData "123">

irb(main):006:0> match[0]

=> "123"

7. 修饰语

修饰语位于正则表达式最结束正则表达式的正斜杠的后面

1. i 使正则表达式对大小写不敏感,看个例子

irb(main):001:0> string = "AbCdefG"

=> "AbCdefG"

irb(main):002:0> match = /abc/i.match(string)

=> #<MatchData "AbC">

irb(main):003:0> match[0]

=> "AbC"

irb(main):004:0> match = /abc/.match(string)

=> nil

2. m 使得正则表达式可以和任何字符匹配，包括换行符，通常情况下圆点通配符不匹配换行符我们来看个稍微复杂点的

irb(main):001:0> string = <<EOF #定义一个多行的字符串

irb(main):002:0" <div id="xx">

irb(main):003:0" <p></p>

irb(main):004:0" </div>

irb(main):005:0" EOF

=> "<div id=\"xx\">\n<p></p>\n</div>\n"

irb(main):006:0> match = /<div.+<\/div>/m.match(string) #加上m就可以匹配多行

=> #<MatchData "<div id=\"xx\">\n<p></p>\n</div>">

irb(main):007:0> match[0]

=> "<div id=\"xx\">\n<p></p>\n</div>"

irb(main):008:0> match = /<div.+<\/div>/.match(string) #不加上m就匹配不到

=> nil

8. 现有如下格式字符串:

str = “”www.google.com">I love ruby"

现要使str变为I love ruby怎么做？

就是获得去掉a标签后的内容.请看下面:

irb(main):001:0> str = '<a href="www.google.com">I love ruby</a>'

=> "<a href=\"www.google.com\">I love ruby</a>"

irb(main):002:0> str.sub(/<a.*?>(.*?)<\/a>/,'\1')

=> "I love ruby"

9. 还有gsub的用法:

irb(main):001:0> a = "i love ruby"

=> "i love ruby"

irb(main):002:0> a.gsub(/ruby/,'java')

=> "i love java"

irb(main):002:0> a.gsub(/ruby/,'java')

=> "i love java"

10. 本节的结束，我们来看一个变态的gsub夹杂这scan的用法:

str = "<li>a</li>" + "<li>1</li>" + "<li>2</li>" + "<li>3</li>" + "<li>b</li>" + "<li>c</li>" + "<li>d</li>"

result = str.gsub(/<li>.+?<\/li>/) do |match|

del = false

match.scan(/<li>(\d+)<\/li>/) do |num|

del = true

end

if del

else

match

end

p result #"<li>a</li><li>b</li><li>c</li><li>d</li>" 可以看到带数字的li被干掉了.不可思议！

** 常用和不常用的Ruby正则表达式

1. 1> 用户注册名

/^[a-z0-9_-]{3,16}$/

以字母开头, 包含字母,数字,_,-的3-16个字符

2> 用户密码

/^[a-z0-9_-]{6,18}$/

跟第一个一样，除了字符数

3> 十六进制数

/^#?([a-f0-9]{6}|[a-f0-9]{3})$/

以#开头或者不以#开头, 后面跟 6个字符(a-f或者0-9) 或者 3个字符(a-f或者0-9)

4> 匹配一个Slug(啥叫Slug?看看上面地址栏里的那一陀)

/^[a-z0-9-]+$/

很简单，多个字母(a-z),数字(0-9),和-组成的字符

5> 匹配Email地址,这个用途太广泛了

/^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$/

6> 匹配Url

/^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/

7> 匹配IP地址

num = /\d|[01]?\d\d|2[0-4]\d|25[0-5]/

exp = /^(#{num}\.){3}#{num}$/

num是每个数字串的匹配模式, exp就是最终的RegExp了,下面是演示:

irb(main):001:0> num = /\d|[01]?\d\d|2[0-4]\d|25[0-5]/

=> /\d|[01]?\d\d|2[0-4]\d|25[0-5]/

irb(main):002:0> exp = /^(#{num}\.){3}#{num}$/

=> /^((?-mix:\d|[01]?\d\d|2[0-4]\d|25[0-5])\.){3}(?-mix:\d|[01]?\d\d|2[0-4]\d|25[0-5])$/

irb(main):003:0> exp.match("192.168.1.22")

=> #<MatchData "192.168.1.22" 1:"1.">

8> 匹配时间/日期类型（yyyy.mm.dd hh:mm:ss)

yyyy = /[1-9]\d\d\d/

mm = /0?[1-9]|1[12]/

dd = /0?[1-9]|[12]\d|3[01]/

hh = /[01]?[1-9]|2[0-4]/

MM = /[0-5]\d/

ss = /[0-5]\d/

date_time = /^(#{yyyy}\.#{mm}\.#{dd}) (#{hh}:#{MM}:#{ss})$/

date_time =~ '2008.8.27 22:12:10' # 0

date_time =~ '2008.8.27 22:12:60' # nil

上面的已经解释的很清楚了,我还是觉得一个一个串拼起来比较清楚

9> 解决一个问题, 给了一个ip地址：192.168.1.1，想要转为Array: [192,168,1,1]

irb(main):001:0> "192.168.1.1".scan(/(\d+)\.?/)

=> [["192"], ["168"], ["1"], ["1"]]

irb(main):002:0> "192.168.1.1".scan(/(\d+)\.?/).flatten

=> ["192", "168", "1", "1"]

irb(main):003:0> "192.168.1.1".scan(/(\d+)\.?/).flatten.map{|n| n.to_i }

=> [192, 168, 1, 1]

irb(main):001:0> "192.168.1.1".split(".").map{|x| x.to_i}

=> [192, 168, 1, 1]

# thanks Hooopo for this

======================================================================================================================

正则表达式用于字符串处理、表单验证等场合，实用高效。现将一些常用的表达式收集于此，以备不时之需。

匹配中文字符的正则表达式： [\u4e00-\u9fa5]

评注：匹配中文还真是个头疼的事，有了这个表达式就好办了

匹配中文字符的正则表达式： [\u4e00-\u9fa5]

评注：匹配中文还真是个头疼的事，有了这个表达式就好办了

匹配双字节字符(包括汉字在内)：[^\x00-\xff]

评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）

匹配空白行的正则表达式：\n\s*\r

评注：可以用来删除空白行

匹配HTML标记的正则表达式：<(\S*?)[^>]*>.*?|<.*? />

评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力

匹配首尾空白字符的正则表达式：^\s*|\s*$

评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式

匹配Email地址的正则表达式：\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*

评注：表单验证时很实用

匹配网址URL的正则表达式：[a-zA-z]+://[^\s]*

评注：网上流传的版本功能很有限，上面这个基本可以满足需求

匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

评注：表单验证时很实用

匹配国内电话号码：\d{3}-\d{8}|\d{4}-\d{7}

评注：匹配形式如 0511-4405222 或 021-87888822

匹配腾讯QQ号：[1-9][0-9]{4,}

评注：腾讯QQ号从10000开始

匹配中国邮政编码：[1-9]\d{5}(?!\d)

评注：中国邮政编码为6位数字

匹配身份证：\d{15}|\d{18}

评注：中国的身份证为15位或18位

匹配ip地址：\d+\.\d+\.\d+\.\d+

评注：提取ip地址时有用

匹配特定数字：

^[1-9]\d*$　　 //匹配正整数

^-[1-9]\d*$ 　 //匹配负整数

^-?[1-9]\d*$　　 //匹配整数

^[1-9]\d*|0$　 //匹配非负整数（正整数 + 0）

^-[1-9]\d*|0$　　 //匹配非正整数（负整数 + 0）

^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$　　 //匹配正浮点数

^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$　 //匹配负浮点数

^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$　 //匹配浮点数

^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$　　 //匹配非负浮点数（正浮点数 + 0）

^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$　　//匹配非正浮点数（负浮点数 + 0）

评注：处理大量数据时有用，具体应用时注意修正

匹配特定字符串：

^[A-Za-z]+$　　//匹配由26个英文字母组成的字符串

^[A-Z]+$　　//匹配由26个英文字母的大写组成的字符串

^[a-z]+$　　//匹配由26个英文字母的小写组成的字符串

^[A-Za-z0-9]+$　　//匹配由数字和26个英文字母组成的字符串

^\w+$　　//匹配由数字、26个英文字母或者下划线组成的字符串

评注：最基本也是最常用的一些表达式

// 手机号验证

function isRightMobileNumber(s){

var patrn=/^0?1(4\d|3\d|5[012356789]|8[012356789])\d{8}$/;

if (!patrn.exec(s)) return false

return true

}

#Ruby

分享到：

【转】Python定期从SVN更新文件 | ruby字符串的处理

2012-11-30 17:17
浏览 920
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

ruby regular

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

ruby regular

评论

发表评论

相关推荐

结合ruby写的一个校验工具

ruby小体会

ruby字符串的处理

ruby中替换

ruby中怎么用svn查看项目版本？？

rspec 范例

Ruby中打印日志：Logger的使用

Ruby对时间的处理函数

Ruby类型转换函数及示例

watir 关闭alert对话框

watir 关闭打开的新窗口

watir testUnit单元测试

watir frames元素交互方式

watir form内元素交互方式

watir text_field输入框交互方式

watir select元素交互方式

watir checkbox复选框和radio单选交互方式

watir button交互方法

ruby和watir学习常用网站整理

watir link链接元素交互方式

最近访客更多访客>>