Python-CookBook:31、文本过滤和清理

本贴最后更新于 1779 天前,其中的信息可能已经事过境迁

 问题

某些无聊的脚本小子在 Web 页面表单中填入了“pýtĥöñ”这样的文本,我们想以某种方式将其清理掉。

 解决方案

文本过滤和清理所涵盖的范围非常广泛,涉及文本解析和数据处理方面的问题。在非常简单的层次上,我们可能会用基本的字符串函数(例如 str.upper()和 str.lower())将文本转换为标准形式。简单的替换操作可通过 str.replace()或 re.sub()来完成,它们把重点放在移除或修改特定的字符序列上。也可以利用 unicodedata.normalize()来规范化文本。

然而我们可能想更进一步。比方说也许想清除整个范围内的字符,或者去掉音符标志。要完成这些任务,可以使用常被忽视的 str.translate()方法。为了说明其用法,假设有如下这段混乱的字符串:

s='pytĥon\fis\tawesome\r\n'
print(s)

输出:

pytĥonis	awesome

第一步是清理空格。要做到这步,先建立一个小型的转换表,然后使用 translate()方法:

remap={
    ord('\t'):' ',
    ord('\f'):' ',
    ord('\r'):None,
}
a=s.translate(remap)

print(a)

输出:

pytĥon is awesome

可以看到,类似\t 和\f 这样的空格符已经被重新映射成一个单独的空格。回车符\r 已经完全被删除掉了。

可以利用这种重新映射的思想进一步构建出更加庞大的转换表。例如,我们把所有的 Unicode 组合字符都去掉:

import unicodedata
import sys
cmb_chars=dict.fromkeys(c for c in range(sys.maxunicode) if unicodedata.combining(chr(c)))

s='pytĥon\fis\tawesome\r\n'
remap={
    ord('\t'):' ',
    ord('\f'):' ',
    ord('\r'):None,
}
a=s.translate(remap)
b=unicodedata.normalize('NFD',a)
print(b)

print(b.translate(cmb_chars))

输出:

pytĥon is awesome

python is awesome

在这个例子中,我们使用 dict.fromkeys()方法构建了一个将每个 Unicode 组合字符都映射为 None 的字典。

原始输入会通过 unicodedata.normalize()方法转换为分离形式,然后再通过 translate()方法删除所有的重音符号。我们也可以利用相似的技术来去掉其他类型的字符(例如控制字符)。

下面来看另一个例子。这里有一张转换表将所有的 Unicode 十进制数字字符映射为它们对应的 ASCII 版本:

import unicodedata
import sys

digimap={c:ord('0')+unicodedata.digit(chr(c))
         for c in range(sys.maxunicode)
         if unicodedata.category(chr(c))=='Nd'}

print(len(digimap))

x='\u0661\u0662\u0663'
print(x.translate(digimap))

输出:

610
123

另一种用来清理文本的技术涉及 I/O 解码和编码函数。大致思路是首先对文本做初步的清理,然后通过结合 encode()和 decode()操作来修改或清理文本。示例如下:

import unicodedata

a='pytĥon is awesome\n'
b=unicodedata.normalize('NFD',a)
print(b.encode('ascii','ignore').decode('ascii'))

输出:

python is awesome

这里的 normalize()方法先对原始文本做分解操作。后续的 ASCII 编码/解码只是简单地一次性丢弃所有不需要的字符。很显然,这种方法只有当我们的最终目标就是 ASCII 形式的文本时才有用。

 讨论

文本过滤和清理的一个主要问题就是运行时的性能。一般来说操作越简单,运行得就越快。对于简单的替换操作,用 str.replace()通常是最快的方式——即使必须多次调用它也是如此。比方说如果要清理掉空格符,可以编写如下的代码:

def clean_spaces(s):
    s = s.replace('\r', '')
    s = s.replace('\t', ' ')
    s = s.replace('\f', ' ')
return s

如果试着调用它,就会发现这比使用 translate()或者正则表达式的方法要快得多。

另一方面,如果需要做任何高级的操作,比如字符到字符的重映射或删除,那么 translate()方法还是非常快的。

从整体来看,我们应该在具体的应用中去进一步揣摩性能方面的问题。不幸的是,想在技术上给出一条“放之四海而皆准”的建议是不可能的,所以应该尝试多种不同的方法,然后做性能统计分析。

尽管本节的内容主要关注的是文本,但类似的技术也同样适用于字节对象(byte),这包括简单的替换、翻译和正则表达式。

  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    536 引用 • 672 回帖
  • 书籍

    宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”

    76 引用 • 390 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...