Python 正则表达式常用方法示例汇总

RE 模块的方法

RE 正则表达式写法（词组整体出现次数的写法）

相比常规的正则表达式，词组的写法是添加?:这个特殊标志
最外围（）是需要截取的字符串
此问题参考网站

>>>pattern_index=re.compile(r'((?:qsyn\-)?logstash[\-a-z0-9\.]+)') ### 用来匹配带有qsyn- 和不带qsyn- 的字符串
>>>pattern_index.findall("green  open   qsyn-logstash-logs-2018.12.20     zdmqszKURqGmnfUxr6CkwQ   ")
['qsyn-logstash-logs-2018.12.20']
>>>pattern_index.findall("green  open   logstash-logs-2018.12.20     zdmqszKURqGmnfUxr6CkwQ   ")
['logstash-logs-2018.12.20']
>>>pattern_index=re.compile(r'((?:qsyn\-)?logstash[\-a-z0-9\.]+)0')
>>>pattern_index.findall("green  open   logstash-logs-2018.12.20     zdmqszKURqGmnfUxr6CkwQ   ")
['logstash-logs-2018.12.2']  ####  注意表达式的区别，并且外围（） 的区别

re.compile(pattern) ## 将正则表达式pattern 编译成 pattern对象
parttern=re.compile(r'[0-9]+\.com$')

## match (默认从头部开始匹配，除非特殊指定起始位置)返回 字符串对象
a=parttern.match('123.com') ## match 匹配以后返回 字符串对象
print a
<_sre.SRE_Match object at 0x10cd838b8>
a.group()
'123.com'
## 不区分大小写 和 分组示例
pattern=re.compile(r"([a-z]+) ([a-z]+)",re.I) ### 不区分大小写；分组
m=pattern.match("hello wWWWd")
m.group()
'hello wWWWd'
m.group(1)
'hello'
m.group(2)
'wWWWd'
m.span(0)    # 返回匹配成功的整个子串的索引
(0, 11)


## search 较match比较，可以匹配任意位置，匹配一次成功后则完成;注意以下区别
m=pattern.match("123hello worLD")
print m
None
m=pattern.search("123hello worLD")
print m
<_sre.SRE_Match object at 0x10d038250>

findall 方法：以列表形式查找所有匹配的结果，如果有则返回列表

finditer 方法：类似于 findall，不过返回的是 iter 迭代对象

m=pattern.findall("123hello worLD 23423ECH WORLDBEST")
print m
[('hello', 'worLD'), ('ECH', 'WORLDBEST')
pattern2=re.compile(r"[a-z]+",re.I)
n=pattern2.findall("123hello worLD 23423ECH WORLDBES")
print n
['hello', 'worLD', 'ECH', 'WORLDBES']
### find iter
t=pattern2.finditer("123hello worLD 23423ECH WORLDBES")
for i in t:
    print i.group()
    
hello
worLD
ECH
WORLDBES

t=pattern2.finditer("123hello worLD 23423ECH WORLDBES")
for i in t:
    print i
    
<_sre.SRE_Match object at 0x10cd83988>
<_sre.SRE_Match object at 0x10cd839f0>
<_sre.SRE_Match object at 0x10cd83988>
<_sre.SRE_Match object at 0x10cd839f0>

split 方法：可以理解成取反，即将匹配到的字符串的分隔符（分割字符串）以列表的形式返回.常用于多个分隔符分割字符串时使用。

p=pattern2.split("123hello worLD 23423ECH WORLDBES")
print p
['123', ' ', ' 23423', ' ', '']
n=pattern2.findall("123hello worLD 23423ECH WORLDBES")
print n
['hello', 'worLD', 'ECH', 'WORLDBES'
>>>print test
a-b-c.d.e.f.g
>>>print re.split(r"[.\-]",test)
['a', 'b', 'c', 'd', 'e', 'f', 'g']

sub 方法：用于替换，shell 中的 sed

sub(repl, string[, count]) :

pattern3=re.compile(r"[0-9]+")
s="hello123world456"
p=pattern3.sub("AAAAAA",s) ## 用AAAAAA 替换所有匹配到的
print p
helloAAAAAAworldAAAAAA
def fun(m):
    return "hi"+m.group()
p=pattern3.sub(fun,s)  ## 利用def 的 fun函数将匹配到的结果进行处理后替换。注意group() 的使用
print p
hellohi123worldhi456
p=pattern3.sub(fun,s,1)  ## 只匹配一次
print p
hellohi123world456

subn 方法：与 sub 的方法行为类似，也用于替换:返回一个元组（字符串，匹配次数）

p=pattern3.subn("AAAAAA",s)
print p
('helloAAAAAAworldAAAAAA', 2)
p=pattern3.subn(fun,s)
print p
('hellohi123worldhi456', 2)
p=pattern3.subn(fun,s,1)
print p
('hellohi123world456', 1)

DUTCTF 2015 RE50

实验吧平台升级维护中从 FLAG 上来看，应该是 DUTCTF 的原题，中等难度。50 分也不高。 [图片] 首先搜索字符串，找到 flag 字样，然后上溯到函数头。之后对这段汇编代码进行分析，等效的伪代码是： char str1[0x32]; //ebp - 0x64 char str2[0x32] = 'kow' ..

Python 的内置函数列表

函数名详细简介 abs [链接] 计算绝对值 aiter [链接] 获取异步可迭代对象的迭代器 all [链接] 判断可迭代对象内容是否全部为真值 anext [链接] 获取异步迭代器的下一数据项 any [链接] 判断可迭代对象内容是否存在真值 ascii [链接] 转换为字符串，非 ASCII 字符将被转义 b ..

微信 / 支付宝账单整理二合一

每周/月手动整理账单比较麻烦，索性用 ai 写一个小工具，懒人党的福音~~ 效果如下： [图片] 使用方法双击账单整理工具.exe 运行程序选择导入微信账单.xlsx 选择导入支付宝账单.csv 提示选择保存的位置一会就生成好了整理后的二合一账单文件 [图片] 【可选项】可以配合 ledger.xlsx 复式记 ..

Dify 插件开发入门指南：在现有插件上改造出一个自己的插件

Dify 插件开发的官方文档非常详细，但对于初学者来说，可能会觉得有些复杂，不知道从何入手。本文将通过一个实战案例，带你一步步了解如何在现有插件仓库的基础上进行修改，开发出属于自己的插件。一、开发包准备首先参考官方文档中《获取 Dify Plugin 开发包》部分，安装好开发包即可。暂时不需要运行，安装到环境里就 ..

Python 包与环境管理简史：从混乱到优雅

Python 诞生三十余年，但在它的生态里，如何优雅地管理依赖和环境始终是一条漫长的探索之路。从 2004 年 easy_install 的横空出世，到今天集大成的 uv，无数开发者在“依赖地狱”与“环境隔离”之间寻找平衡。这篇文章想和你一起回顾过去二十年里 Python 依赖与环境管理工具的迭代，也分享我个人在这 ..

PyPI 包名的命名规则与 pip 的兼容性机制——为什么 pip install sCIKit.-_LEarN 也能成功

前言最近我在使用 pip install 命令安装包时，偶然发现在包名中使用下划线和使用连字符都可以成功安装，而且安装的确实是同一个包。这就激发了我的好奇心，难道 pip install 命令中下划线和连字符是等效的？于是我就去网上搜索了一下，并整理了相关资料写成这篇博文。 PyPI 包名规则 PyPA 编写的 [链 ..

人工智能生成合成内容标识方法解析：文件隐式标识的 Python 实践

前言 2025 年 9 月 1 日起，《人工智能生成合成内容标识办法》正式实行，AI 生成合成内容必须添加标识。与之相应的国家标准《网络安全技术人工智能生成合成内容标识方法》（GB45438—2025）也已经版本，其中说明了不同文件格式应当添加什么标识。具体来说，人工智能生成合成内容标识包含显式标识和隐式标识二种方式 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于