python 正则表达式

本贴最后更新于 748 天前,其中的信息可能已经斗转星移
"""
正则表达式
"""
"""
re.match 函数
原形:match(pattern, string, flags=0)
pattern:匹配的正则表达式
string:要匹配的字符串
flags:标志位,用于控制正则表达式的匹配方式,值如下:
re.I    忽略大小写
re.L    做本地户识别
re.M    多行匹配,影响^和¥
re.S    是.匹配包括换行符在内的所有字符
re.U    根据Unicode字符集解析字符,影响\W   \w  \B  \b
re.X    使我们以更灵活的格式理解正则表达式
参数:
功能:尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,返回None
"""
# www.baidu.com
import re

a = re.match('www', 'www.baidu.com')
print(re.match('www', 'www.baidu.com'))  # <re.Match object; span=(0, 3), match='www'>
print(re.match('www', 'ww.baidu.com'))  # None
print(re.match('www', 'baidu.wwwcom'))  # None
print(re.match('www', 'wwW.baidu.com'))  # None
print(re.match('www', 'wwW.baidu.com', flags=re.I))  # <re.Match object; span=(0, 3), match='wwW'>
print(a.span())  # (0, 3)
print('------------------------------------------------------------------------------')

# 扫描整个字符串,返回从起始位置成功的匹配
"""
re.search()函数
原形:search(pattern, string, flags=0)
pattern:匹配的正则表达式
string:要匹配的字符串
flags:标志位,用于控制正则表达式的匹配方式,值如下:
功能:扫描整个字符串,并返回第一个成功的匹配
"""
print(re.search('sunck', 'good man is sunck!sunck is nice'))  # <re.Match object; span=(12, 17), match='sunck'>

"""
re.findall()函数
原形:findall(pattern, string, flags=0)
pattern:匹配的正则表达式
string:要匹配的字符串
flags:标志位,用于控制正则表达式的匹配方式,值如下:
功能:扫描整个字符串,并返回第一个成功的匹配
"""
print(re.findall('sunck', 'good man is sunck!sunck is nice'))  # ['sunck', 'sunck']

print('----------------------------------匹配单个字符与数字-----------------------------------')
"""
r
.               匹配除换行符以外的任意字符
[0123456789]    匹配单个数字,[]是字符集合,表示匹配方括号中所包含的任意一个字符
[sunck]         匹配's' ‘u' 'n' 'c' 'k'中任意一个字符
[a-z]           匹配任意小写字母
[A-Z]           匹配任意大写字母
[0-9]           匹配任意数字
[0-9a-zA-Z]     匹配任意字母和数字
[0-9a-zA-Z_]    匹配任意字母和数字和下划线
[^sunck]        匹配除了's' 'u' 'n' 'c' 'k'这几个字母以外的所有字符,中括号的^称为脱字符,表示不匹配集合中的字符
[^0-9]          匹配所有的非数字字符
\d              匹配数字,效果通[0-9]
\D              匹配非数字字符,效果同[^0-9]
\w              匹配数字、字母和下划线,效果同[0-9a-zA-Z_]
\W              匹配非数字,字母和下划线,效果同[^0-9a-zA-Z_]
\s              匹配任意的空白字符(空格、回车、换页、制表符、)[ \f\n\t\r]
\S              匹配任意的非空白符[^ \f\n\t\r]

"""
print(re.search('.', 'sunck is a good man'))  # <re.Match object; span=(0, 1), match='s'>
print(re.search('[0123456789]', 'sunck is a good man 6'))  # <re.Match object; span=(20, 21), match='6'>
print(re.findall('.', '.abc.s/dedf$%Ew-ty#@!*()'))      # ['.', 'a', 'b', 'c', '.', 's', '/', 'd', 'e', 'd', 'f', '$', '%', 'E', 'w', '-', 't', 'y', '#', '@', '!', '*', '(', ')']

print('----------------------------------锚字符(边界字符)-----------------------------------')
"""
^               行首匹配,和在[]里的^不是一个意思
$               行尾匹配
\A              匹配字符串开始,它和^的区别是,\A只匹配整个字符串的开头,即使在re.Mm模式下也不会匹配其他行的行首
\Z              匹配字符串结束,它和$的区别是,\Z只匹配整个字符串的结束,即使在re.Mm模式下也不会匹配其他行的行尾
\b              匹配一个单词的边界,也就是指单词和空格间的位置
\B              匹配非单词的边界
"""
b = re.search('boy$', 'sunck is a good boy')
print(re.search('^sunck', 'sunck is a good boy'))   # <re.Match object; span=(0, 5), match='sunck'>
print(re.search('^sunck$', 'sunck is a good boy'))  # None
print(re.search('boy$', 'sunck is a good boy'))     # <re.Match object; span=(16, 19), match='boy'>
print(b.span())                                     # (16, 19)
print(re.findall('^sunck', 'sunck is a good boy\nsunck is a bad man',re.M)) # ['sunck', 'sunck']
print(re.findall('\Asunck', 'sunck is a good boy\nsunck is a bad man'))     # ['sunck']

print(re.search(r'er\b','server is server '))
print('----------------------------------匹配多个字符-----------------------------------')
"""
说明:下方的x,y,z均为假设的普通字符吗,不是正则表达式的元字符

(xyz)           匹配小括号内的xyz(作为一个整体去匹配)
x?              匹配0个或者1个x,非贪婪匹配(尽可能少的匹配)
x*              匹配0个或者多个x,贪婪匹配(尽可能多的匹配)
.*              匹配0个或者任意多个字符(换行符除外)
x+              匹配至少一个x,贪婪匹配
x{n}            匹配确定的n个x(n是一个非负整数)
x{n,}           匹配至少n个x
x{n,m}          匹配至少n个x,最多m个x,n<=m
x|y             匹配x或y,|表示或
"""
print(re.findall(r'(sunck)','sunckgood is a godo man,sunck is a boy')) # ['sunck', 'sunck']
print(re.findall(r'(.*)','sunckgood is a godo man,sunck is a boy'))
print(re.findall(r'(a.*)','aaaaaabaacaaaa'))
print(re.findall(r'(a*)','aaaaaabaacaaaa'))
print(re.findall(r'(a+)','aaaaaabaacaaaa'))
print(re.findall((r'a{2}'),'aaaaaabaacaaaa'))
print(re.findall((r'a{3,}'),'aaaaaabaacaaaa'))
print(re.findall((r'a{3,6}'),'aaaaaabaacaaaa'))
print(re.findall(r'((s|S)unck)','sunck is Sunck'))
print(re.findall(r'(^sunckgood is a godo man,sunck is a boy.*)$','sunckgood is a godo man,sunck is a boy'))
print('----------------------------------特殊-----------------------------------')
"""
说明:下方的x,y,z均为假设的普通字符吗,不是正则表达式的元字符

x?  +?  *?  最小匹配,通常都是尽可能多的匹配,可以使用这种方式来解决贪婪匹配

"""
# /* part1 */ /* part2 */
print(re.findall(r'(//*.*/*/)','/* part1 */ /* part2 */'))      # ['/* part1 */ /* part2 */']
print(re.findall(r'(//*.*?/*/)','/* part1 */ /* part2 */'))     # ['/* part1 */', '/* part2 */']
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    536 引用 • 672 回帖
  • 正则表达式

    正则表达式(Regular Expression)使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。

    31 引用 • 94 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 链滴

    链滴是一个记录生活的地方。

    记录生活,连接点滴

    131 引用 • 3639 回帖
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    396 引用 • 3416 回帖
  • 导航

    各种网址链接、内容导航。

    37 引用 • 168 回帖 • 1 关注
  • jQuery

    jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery,是非常受欢迎的 JavaScript 库。

    63 引用 • 134 回帖 • 741 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    164 引用 • 407 回帖 • 528 关注
  • Mobi.css

    Mobi.css is a lightweight, flexible CSS framework that focus on mobile.

    1 引用 • 6 回帖 • 697 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 56 关注
  • 30Seconds

    📙 前端知识精选集,包含 HTML、CSS、JavaScript、React、Node、安全等方面,每天仅需 30 秒。

    • 精选常见面试题,帮助您准备下一次面试
    • 精选常见交互,帮助您拥有简洁酷炫的站点
    • 精选有用的 React 片段,帮助你获取最佳实践
    • 精选常见代码集,帮助您提高打码效率
    • 整理前端界的最新资讯,邀您一同探索新世界
    488 引用 • 383 回帖 • 5 关注
  • jsDelivr

    jsDelivr 是一个开源的 CDN 服务,可为 npm 包、GitHub 仓库提供免费、快速并且可靠的全球 CDN 加速服务。

    5 引用 • 31 回帖 • 45 关注
  • gRpc
    10 引用 • 8 回帖 • 54 关注
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖
  • CloudFoundry

    Cloud Foundry 是 VMware 推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。

    5 引用 • 18 回帖 • 153 关注
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • 创业

    你比 99% 的人都优秀么?

    82 引用 • 1398 回帖 • 1 关注
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 604 关注
  • Angular

    AngularAngularJS 的新版本。

    26 引用 • 66 回帖 • 511 关注
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    941 引用 • 1458 回帖 • 151 关注
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖 • 2 关注
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 1 关注
  • FFmpeg

    FFmpeg 是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。

    22 引用 • 31 回帖 • 3 关注
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 319 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖 • 10 关注
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    103 引用 • 294 回帖
  • 周末

    星期六到星期天晚,实行五天工作制后,指每周的最后两天。再过几年可能就是三天了。

    14 引用 • 297 回帖
  • CentOS

    CentOS(Community Enterprise Operating System)是 Linux 发行版之一,它是来自于 Red Hat Enterprise Linux 依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定的服务器以 CentOS 替代商业版的 Red Hat Enterprise Linux 使用。两者的不同在于 CentOS 并不包含封闭源代码软件。

    238 引用 • 224 回帖 • 1 关注
  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    205 引用 • 357 回帖
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    11 引用 • 5 回帖 • 565 关注