python 正则表达式

本贴最后更新于 1081 天前,其中的信息可能已经斗转星移
""" 正则表达式 """ """ re.match 函数 原形:match(pattern, string, flags=0) pattern:匹配的正则表达式 string:要匹配的字符串 flags:标志位,用于控制正则表达式的匹配方式,值如下: re.I 忽略大小写 re.L 做本地户识别 re.M 多行匹配,影响^和¥ re.S 是.匹配包括换行符在内的所有字符 re.U 根据Unicode字符集解析字符,影响\W \w \B \b re.X 使我们以更灵活的格式理解正则表达式 参数: 功能:尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,返回None """ # www.baidu.com import re a = re.match('www', 'www.baidu.com') print(re.match('www', 'www.baidu.com')) # <re.Match object; span=(0, 3), match='www'> print(re.match('www', 'ww.baidu.com')) # None print(re.match('www', 'baidu.wwwcom')) # None print(re.match('www', 'wwW.baidu.com')) # None print(re.match('www', 'wwW.baidu.com', flags=re.I)) # <re.Match object; span=(0, 3), match='wwW'> print(a.span()) # (0, 3) print('------------------------------------------------------------------------------') # 扫描整个字符串,返回从起始位置成功的匹配 """ re.search()函数 原形:search(pattern, string, flags=0) pattern:匹配的正则表达式 string:要匹配的字符串 flags:标志位,用于控制正则表达式的匹配方式,值如下: 功能:扫描整个字符串,并返回第一个成功的匹配 """ print(re.search('sunck', 'good man is sunck!sunck is nice')) # <re.Match object; span=(12, 17), match='sunck'> """ re.findall()函数 原形:findall(pattern, string, flags=0) pattern:匹配的正则表达式 string:要匹配的字符串 flags:标志位,用于控制正则表达式的匹配方式,值如下: 功能:扫描整个字符串,并返回第一个成功的匹配 """ print(re.findall('sunck', 'good man is sunck!sunck is nice')) # ['sunck', 'sunck'] print('----------------------------------匹配单个字符与数字-----------------------------------') """ r . 匹配除换行符以外的任意字符 [0123456789] 匹配单个数字,[]是字符集合,表示匹配方括号中所包含的任意一个字符 [sunck] 匹配's' ‘u' 'n' 'c' 'k'中任意一个字符 [a-z] 匹配任意小写字母 [A-Z] 匹配任意大写字母 [0-9] 匹配任意数字 [0-9a-zA-Z] 匹配任意字母和数字 [0-9a-zA-Z_] 匹配任意字母和数字和下划线 [^sunck] 匹配除了's' 'u' 'n' 'c' 'k'这几个字母以外的所有字符,中括号的^称为脱字符,表示不匹配集合中的字符 [^0-9] 匹配所有的非数字字符 \d 匹配数字,效果通[0-9] \D 匹配非数字字符,效果同[^0-9] \w 匹配数字、字母和下划线,效果同[0-9a-zA-Z_] \W 匹配非数字,字母和下划线,效果同[^0-9a-zA-Z_] \s 匹配任意的空白字符(空格、回车、换页、制表符、)[ \f\n\t\r] \S 匹配任意的非空白符[^ \f\n\t\r] """ print(re.search('.', 'sunck is a good man')) # <re.Match object; span=(0, 1), match='s'> print(re.search('[0123456789]', 'sunck is a good man 6')) # <re.Match object; span=(20, 21), match='6'> print(re.findall('.', '.abc.s/dedf$%Ew-ty#@!*()')) # ['.', 'a', 'b', 'c', '.', 's', '/', 'd', 'e', 'd', 'f', '$', '%', 'E', 'w', '-', 't', 'y', '#', '@', '!', '*', '(', ')'] print('----------------------------------锚字符(边界字符)-----------------------------------') """ ^ 行首匹配,和在[]里的^不是一个意思 $ 行尾匹配 \A 匹配字符串开始,它和^的区别是,\A只匹配整个字符串的开头,即使在re.Mm模式下也不会匹配其他行的行首 \Z 匹配字符串结束,它和$的区别是,\Z只匹配整个字符串的结束,即使在re.Mm模式下也不会匹配其他行的行尾 \b 匹配一个单词的边界,也就是指单词和空格间的位置 \B 匹配非单词的边界 """ b = re.search('boy$', 'sunck is a good boy') print(re.search('^sunck', 'sunck is a good boy')) # <re.Match object; span=(0, 5), match='sunck'> print(re.search('^sunck$', 'sunck is a good boy')) # None print(re.search('boy$', 'sunck is a good boy')) # <re.Match object; span=(16, 19), match='boy'> print(b.span()) # (16, 19) print(re.findall('^sunck', 'sunck is a good boy\nsunck is a bad man',re.M)) # ['sunck', 'sunck'] print(re.findall('\Asunck', 'sunck is a good boy\nsunck is a bad man')) # ['sunck'] print(re.search(r'er\b','server is server ')) print('----------------------------------匹配多个字符-----------------------------------') """ 说明:下方的x,y,z均为假设的普通字符吗,不是正则表达式的元字符 (xyz) 匹配小括号内的xyz(作为一个整体去匹配) x? 匹配0个或者1个x,非贪婪匹配(尽可能少的匹配) x* 匹配0个或者多个x,贪婪匹配(尽可能多的匹配) .* 匹配0个或者任意多个字符(换行符除外) x+ 匹配至少一个x,贪婪匹配 x{n} 匹配确定的n个x(n是一个非负整数) x{n,} 匹配至少n个x x{n,m} 匹配至少n个x,最多m个x,n<=m x|y 匹配x或y,|表示或 """ print(re.findall(r'(sunck)','sunckgood is a godo man,sunck is a boy')) # ['sunck', 'sunck'] print(re.findall(r'(.*)','sunckgood is a godo man,sunck is a boy')) print(re.findall(r'(a.*)','aaaaaabaacaaaa')) print(re.findall(r'(a*)','aaaaaabaacaaaa')) print(re.findall(r'(a+)','aaaaaabaacaaaa')) print(re.findall((r'a{2}'),'aaaaaabaacaaaa')) print(re.findall((r'a{3,}'),'aaaaaabaacaaaa')) print(re.findall((r'a{3,6}'),'aaaaaabaacaaaa')) print(re.findall(r'((s|S)unck)','sunck is Sunck')) print(re.findall(r'(^sunckgood is a godo man,sunck is a boy.*)$','sunckgood is a godo man,sunck is a boy')) print('----------------------------------特殊-----------------------------------') """ 说明:下方的x,y,z均为假设的普通字符吗,不是正则表达式的元字符 x? +? *? 最小匹配,通常都是尽可能多的匹配,可以使用这种方式来解决贪婪匹配 """ # /* part1 */ /* part2 */ print(re.findall(r'(//*.*/*/)','/* part1 */ /* part2 */')) # ['/* part1 */ /* part2 */'] print(re.findall(r'(//*.*?/*/)','/* part1 */ /* part2 */')) # ['/* part1 */', '/* part2 */']
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    556 引用 • 674 回帖
  • 正则表达式

    正则表达式(Regular Expression)使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。

    31 引用 • 94 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 2 关注
  • App

    App(应用程序,Application 的缩写)一般指手机软件。

    91 引用 • 384 回帖
  • sts
    2 引用 • 2 回帖 • 225 关注
  • MySQL

    MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。

    693 引用 • 537 回帖
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 78 关注
  • Rust

    Rust 是一门赋予每个人构建可靠且高效软件能力的语言。Rust 由 Mozilla 开发,最早发布于 2014 年 9 月。

    58 引用 • 22 回帖 • 1 关注
  • 正则表达式

    正则表达式(Regular Expression)使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。

    31 引用 • 94 回帖
  • Swift

    Swift 是苹果于 2014 年 WWDC(苹果开发者大会)发布的开发语言,可与 Objective-C 共同运行于 Mac OS 和 iOS 平台,用于搭建基于苹果平台的应用程序。

    36 引用 • 37 回帖 • 545 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖
  • 996
    13 引用 • 200 回帖 • 2 关注
  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    169 引用 • 1527 回帖
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    946 引用 • 1460 回帖
  • 创造

    你创造的作品可能会帮助到很多人,如果是开源项目的话就更赞了!

    183 引用 • 1010 回帖
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    409 引用 • 3587 回帖
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    12 引用 • 5 回帖 • 633 关注
  • 小说

    小说是以刻画人物形象为中心,通过完整的故事情节和环境描写来反映社会生活的文学体裁。

    31 引用 • 108 回帖
  • Mac

    Mac 是苹果公司自 1984 年起以“Macintosh”开始开发的个人消费型计算机,如:iMac、Mac mini、Macbook Air、Macbook Pro、Macbook、Mac Pro 等计算机。

    167 引用 • 595 回帖
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 4 关注
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    15 引用 • 7 回帖
  • wolai

    我来 wolai:不仅仅是未来的云端笔记!

    2 引用 • 14 回帖
  • Logseq

    Logseq 是一个隐私优先、开源的知识库工具。

    Logseq is a joyful, open-source outliner that works on top of local plain-text Markdown and Org-mode files. Use it to write, organize and share your thoughts, keep your to-do list, and build your own digital garden.

    7 引用 • 69 回帖
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    345 引用 • 739 回帖 • 1 关注
  • OpenResty

    OpenResty 是一个基于 NGINX 与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。

    17 引用 • 56 关注
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    586 引用 • 3538 回帖
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 6 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 1 关注
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖