Python-CookBook：37、文本分词

　问题

我们有一个字符串，想从左到右将它解析为标记流（stream of tokens）。

　解决方案

假设有如下的字符串文本：


text = 'foo = 23 + 42 * 10'

要对字符串做分词处理，需要做的不仅仅只是匹配模式。我们还需要有某种方法来识别出模式的类型。例如，我们可能想将字符串转换为如下的序列对：


tokens = [('NAME', 'foo'), ('EQ','='), ('NUM', '23'), ('PLUS','+'),
          ('NUM', '42'), ('TIMES', '*'), ('NUM', 10')]

要完成这样的分词处理，第一步是定义出所有可能的标记，包括空格。这可以通过正则表达式中的命名捕获组来实现，示例如下：


import re
NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)'
NUM = r'(?P<NUM>\d+)'
PLUS = r'(?P<PLUS>\+)'
TIMES = r'(?P<TIMES>\*)'
EQ     = r'(?P<EQ>=)'
WS     = r'(?P<WS>\s+)'

master_pat = re.compile('|'.join([NAME, NUM, PLUS, TIMES, EQ, WS]))

在这些正则表达式模式中，形如?P这样的约定是用来将名称分配给该模式的。这个我们稍后会用到。

接下来我们使用模式对象的 scanner()方法来完成分词操作。该方法会创建一个扫描对象，在给定的文本中重复调用 match()，一次匹配一个模式。下面这个交互式示例展示了扫描对象是如何工作的：


text = 'foo = 23 + 42 * 10'
import re
#tokens = [('NAME', 'foo'), ('EQ','='), ('NUM', '23'), ('PLUS','+'),
#          ('NUM', '42'), ('TIMES', '*'), ('NUM', 10')]
NAME=r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)'
NUM=r'(?P<NUM>\d+)'
PLUS=r'(?P<PLUS>\+)'
TIMES=r'(?P<TIMES>\*)'
EQ=r'(?P<EQ>=)'
WS=r'(?P<WS>\s+)'

master_pat=re.compile('|'.join([NAME,NUM,PLUS,TIMES,EQ,WS]))
scanner=master_pat.scanner('foo = 42')
sm=scanner.match()
print(sm,sm.lastgroup,sm.group())

sm=scanner.match()
print(sm,sm.lastgroup,sm.group())

sm=scanner.match()
print(sm,sm.lastgroup,sm.group())

sm=scanner.match()
print(sm,sm.lastgroup,sm.group())

sm=scanner.match()
print(sm,sm.lastgroup,sm.group())

输出：


<re.Match object; span=(0, 3), match='foo'> NAME foo
<re.Match object; span=(3, 4), match=' '> WS  
<re.Match object; span=(4, 5), match='='> EQ =
<re.Match object; span=(5, 6), match=' '> WS  
<re.Match object; span=(6, 8), match='42'> NUM 42

要利用这项技术并将其转化为代码，我们可以做些清理工作然后轻松地将其包含在一个生成器函数中，示例如下：


from collections import namedtuple
import re

NAME=r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)'
NUM=r'(?P<NUM>\d+)'
PLUS=r'(?P<PLUS>\+)'
TIMES=r'(?P<TIMES>\*)'
EQ=r'(?P<EQ>=)'
WS=r'(?P<WS>\s+)'

master_pat=re.compile('|'.join([NAME,NUM,PLUS,TIMES,EQ,WS]))

Token=namedtuple('Token',['type','value'])
def generate_tokens(pat,text):
    scanner=pat.scanner(text)
    for m in iter(scanner.match,None):
        yield Token(m.lastgroup,m.group())

for tok in generate_tokens(master_pat,'foo = 42'):
    print(tok)

输出：


Token(type='NAME', value='foo')
Token(type='WS', value=' ')
Token(type='EQ', value='=')
Token(type='WS', value=' ')
Token(type='NUM', value='42')

如果想以某种方式对标记流做过滤处理，要么定义更多的生成器函数，要么就用生成器表达式。例如，下面的代码告诉我们如何过滤掉所有的空格标记。


tokens = (tok for tok in generate_tokens(master_pat, text)
          if tok.type != 'WS')
		for tok in tokens:
   			 print(tok)

　讨论

对于更加高级的文本解析，第一步往往是分词处理。要使用上面展示的扫描技术，有几个重要的细节需要牢记于心。第一，对于每个可能出现在输入文本中的文本序列，都要确保有一个对应的正则表达式模式可以将其识别出来。如果发现有任何不能匹配的文本，扫描过程就会停止。这就是为什么有必要在上面的示例中指定空格标记（WS）。

这些标记在正则表达式（即 re.compile('|'.join([NAME, NUM, PLUS, TIMES, EQ, WS]))）中的顺序同样也很重要。当进行匹配时，re 模块会按照指定的顺序来对模式做匹配。因此，如果碰巧某个模式是另一个较长模式的子串时，就必须确保较长的那个模式要先做匹配。示例如下：


LT = r'(?P<LT><)'
LE = r'(?P<LE><=)'
EQ = r'(?P<EQ>=)'

master_pat = re.compile('|'.join([LE, LT, EQ])) # Correct
# master_pat = re.compile('|'.join([LT, LE, EQ])) # Incorrect

第 2 个模式是错误的（注释掉的那一行），因为这样会把文本'<='匹配为 LT（'<'）紧跟着 EQ（'='），而没有匹配为单独的标记 LE（'<='），这与我们的本意不符。

最后也最重要的是，对于有可能形成子串的模式要多加小心。例如，假设有如下两种模式：


PRINT = r'(P<PRINT>print)'
NAME  = r'(P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)'

master_pat = re.compile('|'.join([PRINT, NAME]))

for tok in generate_tokens(master_pat, 'printer'):
    print(tok)

# Outputs :
# Token(type='PRINT', value='print')
# Token(type='NAME', value='er')

对于更加高级的分词处理，我们应该去看看像 PyParsing 或 PLY 这样的包。有关 PLY 的例子将在下一节中讲解。

如果让你推荐陌生人独自在无机自习室学习的书，你会推荐哪本，为什么？

条件无机自习室：不能使用智能设备、不能讨论，仅纸笔陌生人：你不确定对方的智识水平学习：该陌生人希望能够学点什么所以不希望是娱乐消遣类书籍时长：周末一天的三个时段（预计总天数为 7 天、21 小时）上午 09:00-12:00 下午 14:00-17:00 晚上 18:30-21:30 类别偏好：自然科学、历史 ..

在更大的“信息时代变革”背景范畴下，讨论这些来源对“数字经济的全球性与分散性”的看法

[链接] 在更大的“信息时代变革”背景范畴下，《主权个人》这部著作对“数字经济的全球性与分散性”展现了深刻的见解。该书的核心观点是，信息时代的技术变革正在从根本上重塑经济活动的组织方式，使其超越国界，并日益呈现出分散化的特点。首先，《主权个人》强调了数字经济的全球性。书中指出，计算能力的持续发展和互联网的普及使得商业 ..

计算机学习书单

数据结构与算法《代码随想录》，校招必备算法书《大话数据结构》，豆瓣评分 7.9 《算法图解》，豆瓣评分 8.5 《剑指 offer》，豆瓣评分 8.3 《数据结构与算法分析：C 语言描述》，豆瓣评分 8.9 《数据结构与算法分析：Java 语言描述》，豆瓣评分 8.3 《算法（第 4 版）》，豆瓣评分 9.4 《算 ..

About Book Translation

书籍来源我会发布一些翻译后的书籍或文章，其中部分是开源书籍与论文，部分是 Amazon 书籍[链接]。开源书籍或论文来源 [链接] [链接] 一些奇怪但合法的来源。 Amazon 书籍来源 [链接] 翻译书籍一般使用 [链接] 中的 [链接] 插件配合 Google 或有道进行翻译。部分会使用自己的翻译引擎来翻 ..

实践《自学是门手艺》有感

链滴社区真是个好地方，大家都是对各自领域有所钻研的人，并且热爱分享，作为潜水族，常常能发掘到别人掉落的宝藏。前面 AChuan 大佬分享的《自学是门手艺》，研读之后感悟颇深，对我这段时间的学习起到鼓励和斧正的效用。书中提到的几个概念我很受用。一个是「工作证明（PoW）」：怎么证明你学习过？你得用一些实际成果来展示学 ..

阅读书单

笔记作者出版社出版日期状态备注海外投资税务筹划王素荣机械工业出版社 2018-03-01 阅读中华为供应链管理实践袁建东人民邮电出版社有限公司 2023-08-01 已读完价值为纲：华为公司财经管理纲要黄卫伟中信出版集团 2017-09-01 已读完一本书看透股权节税李利威机械工业出版 ..

书籍推荐——《自学是门手艺》

我的出发点是把编程当作一个自学的例子，重点在于学会如何自学，并且通过实践真的习得一个起初你觉得不是刚需，学会之后发现干脆离不开的、不可或缺的技能。另外，这本书的目标里有更重要的另外一个：“让你有能力靠自己能够理解所有的官方文档” —— 书里不用讲官方标准库里的每个模块、每个函数究竟如何使用，因为那些在官方文档里定义得非 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

Python-CookBook：37、文本分词

问题

解决方案

讨论

相关帖子

如果让你推荐陌生人独自在无机自习室学习的书，你会推荐哪本，为什么？

在更大的“信息时代变革”背景范畴下，讨论这些来源对“数字经济的全球性与分散性”的看法

计算机学习书单

About Book Translation

实践《自学是门手艺》有感

阅读书单

书籍推荐——《自学是门手艺》

欢迎来到这里！

　问题

　解决方案

　讨论