如何实现拼写纠错功能?

本贴最后更新于 2022 天前,其中的信息可能已经天翻地覆

在使用搜索引擎时,当我们输入错误的关键词时,当然这里的错误是拼写错误,搜索引擎的下拉框中仍会显示以正确关键词为前前辍的提示,当你直接回车搜索错误的关键词时,搜索引擎的结果中仍包括正确关键词的结果。你有没有想过它是如何实现的呢?

显示正确的提示

显示正确的结果

前文已经分享如何使用前辍树实现搜索框的关键词提示功能。大家很容易想到以上纠错功能的实现,关键在于给定一个错误的关键词,如何返回一个正确的关键词。

最简单的方法,我们使用一个数组来存储正确关键词,对于给定的关键词,我们遍历此数组,找到与给定关键词最接近的那个词返回即可。

如何找到最接近的那个词呢?也就是说如何量化两个字符串的相似度。通常有两种方法:一种是求两个字符串的编辑距离,编辑距离越小,两个字符串越相近。另一种是求两个子符串的最长公共子串长度,长度越大,两个字符串越相近。

**编辑距离(莱文斯坦距离)**就是从一个词变成另一个词需要的最小编辑次数。这里的编辑是指删除、替换、或插入。比如 facbok 和 facebook 的编辑距离就是 2 ,因为最小的操作是插入 2 次。比如 faccbook 和 facebook 的编辑距离就是 1 ,因为只需要替换 1 次。

最长公共子串长度从相反的角度来量化相似度,通过最小次数的删除,增加操作后,两个字符串达到相同时的长度。比如 facbok 和 facebook 的最大公共子串长度是 6。

如何求两个字符串的编辑距离?

先考虑如何人脑如何有效的识别编辑距离:

facbok (字符串a)
facebook (字符串b)

初始编辑距离为 0,分别遍历两个字符串,如果一样,则指针 index 后移,如果不一样,有以下三种情况:

1、在字符串 a (或字符串 b) 中 index 处的字符删除,编辑距离 +1,然后比较 a[index+1] 与 b[index]

2、在字符串 a (或字符串 b) 中,a[index]前的位置插入一个字符,编辑距离 +1,然后比较 a[index] 与 b[index+1]

3、在字符串 a (或字符串 b) 中,a[index]的位置替换一个字符,编辑距离 +1,然后比较 a[index+1] 与 b[index+1]

循环结束,比较 3 种情况,找出距离最小的即可。
基于以上思路,我们可以画个表格来尝试找规律:

状态转移

字符 f = f ,因此单元格 B2 的值为 0 ,相应的 f 与 fa 的编辑距离为 1 因此 C2 的位置是 1,同理可得第 1 行和第 A 列的编辑距离。

接下来求 C3,C3 的值可以 C2 增加一个字符,B3 删除一个字符,或者 B2 替换一个字符转化而来,这三者的最小距离为
min(1+1,1+1,0+0) = 0 ,同样的道理可以得出其余所有格子的数值。

比如:E5 = min(E4+1,D5+1, 0+INT(E1!=A5)) = 1

最终的结果即 I7 的结果为 2。

以上过程可以很容易翻译成代码。

    def levenshtein_dp(s: str, t: str) -> int:
        '''
        计算莱文斯坦距离(Levenshtein distance),距离越小,说明两个单词越相近,时间复杂度为 O(mxn)
        :param s:
        :param t:
        :return:
        '''
        m, n = len(s), len(t)
        table = [[0] * (n + 1) for _ in range(m + 1)]
        table[0] = [j for j in range(n + 1)]
        # print(table)
        for i in range(m + 1):
            table[i][0] = i
        for i in range(1, m + 1):
            for j in range(1, n + 1):
                table[i][j] = min(1 + table[i - 1][j], 1 + table[i][j - 1],
                                  int(s[i - 1] != t[j - 1]) + table[i - 1][j - 1])
        return table[-1][-1]

为了得到正确的函数,你还需要类似以下功能的函数:


  def get_right_word(self,input_word):
        '''
        输入一个单词,返回正确的单词
        :param input_word:
        :return:
        '''
        words = self.get_all_words()#获取所有正确的单词
        right_word = input_word
        min_distance = 99999
        for item in words:
            distance = levenshtein_dp(input_word,item)
            if min_distance >  distance:
                min_distance = distance
                right_word = item
        return right_word

结果前文中的前辍树,你可以很容易实现拼写纠错功能。

下面给出一种最长子串的求法,供参考:

def common_substring_dp(s: str, t: str) -> int:
    m, n = len(s), len(t)
    table = [[0] * (n + 1) for _ in range(m + 1)]
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            table[i][j] = max(table[i - 1][j], table[i][j - 1], int(s[i - 1] == t[j - 1]) + table[i - 1][j - 1])
    return table[-1][-1]

测试

我使用 cet4 词库来测试一下使用莱文斯坦距离和最长公共子串长度获取的正确单词有什么不同,附完整代码如下:

# -*- codeing:utf-8 -*-

def levenshtein_dp(s: str, t: str) -> int:
    '''
    计算莱文斯坦距离(Levenshtein distance),距离越小,说明两个单词越相近,时间复杂度为 O(mxn)
    :param s:
    :param t:
    :return:
    '''
    m, n = len(s), len(t)
    table = [[0] * (n + 1) for _ in range(m + 1)]
    table[0] = [j for j in range(n + 1)]
    # print(table)
    for i in range(m + 1):
        table[i][0] = i
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            table[i][j] = min(1 + table[i - 1][j], 1 + table[i][j - 1],
                              int(s[i - 1] != t[j - 1]) + table[i - 1][j - 1])
    return table[-1][-1]



def common_substring_dp(s: str, t: str) -> int:
    m, n = len(s), len(t)
    table = [[0] * (n + 1) for _ in range(m + 1)]
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            table[i][j] = max(table[i - 1][j], table[i][j - 1], int(s[i - 1] == t[j - 1]) + table[i - 1][j - 1])
    return table[-1][-1]


def get_right_word_from_levenshtein_dp(all_words,input_word):
      '''
      输入一个单词,返回计算莱文斯坦距离最小的单词
      :param input_word:
      :return:
      '''
      words = all_words #获取所有正确的单词
      right_word = input_word
      min_distance = 99999
      for item in words:
          distance = levenshtein_dp(input_word,item)
          if min_distance >  distance:
              min_distance = distance
              right_word = item
      return right_word

def get_right_word_from_common_substring_dp(all_words,input_word):
    '''
    输入一个单词,返回最长公共子串长度最大的单词
    :param input_word:
    :return:
    '''
    words = all_words #获取所有正确的单词
    right_word = input_word
    min_distance = 0
    for item in words:
        distance = common_substring_dp(input_word,item)
        if min_distance < distance:
            min_distance = distance
            right_word = item
    return right_word

if __name__ == '__main__':
    all_words = []
    with open("cet4.txt",encoding="gbk",mode="r") as r:
        for line in r:
            word = line.strip().split(" ")[0]
            if word != '' and len(word) > 2:
                all_words.append(word)

    while True:
        input_word = input("please input a word.(q for quit.): ")
        if input_word == 'q':
            break
        right_word = get_right_word_from_levenshtein_dp(all_words,input_word)
        print("the right word in cet4 is(levenshtein_dp): ",right_word)
        print(levenshtein_dp(right_word,input_word))

        right_word = get_right_word_from_common_substring_dp(all_words,input_word)
        print("the right word in cet4 is(common_substring_dp): ",right_word)
        print(common_substring_dp(right_word,input_word))

运行效果如下:

please input a word.(q for quit.): afection
the right word in cet4 is(levenshtein_dp):  affection
1
the right word in cet4 is(common_substring_dp):  affection
8
please input a word.(q for quit.): advertise
the right word in cet4 is(levenshtein_dp):  adjective
3
the right word in cet4 is(common_substring_dp):  advertisement
9
please input a word.(q for quit.): atmosph
the right word in cet4 is(levenshtein_dp):  almost
3
the right word in cet4 is(common_substring_dp):  atmosphere
7
please input a word.(q for quit.): assembl
the right word in cet4 is(levenshtein_dp):  assemble
1
the right word in cet4 is(common_substring_dp):  assemble
7
please input a word.(q for quit.): 

结论

测试了 4 个错误的单词,有 2 个返回的单词二者返回是一致的,有 2 个返回不一致。

比如:advertise 使用莱文斯坦距离返回正确单词是 adjective
使用最长公共子串长度返回的则是 advertisement,显然返回 advertisement 是输入者较为期望的结果。在某些场景下,莱文斯坦距离更有效。

因此没有一个放置四海而皆准的办法,实际使用中要结合具体需求,比如还可以加入搜索关键词热度等指标加以权衡。

希望本篇文章能让你开发的系统中的输入框更加智能。

(完)

专注有价值的技术分享。欢迎订阅我的微信公众号 somenzz,及时获得更新。

  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    543 引用 • 672 回帖 • 1 关注
  • 动态规划
    6 引用 • 1 回帖
  • 拼写纠错
    1 引用

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Notion

    Notion - The all-in-one workspace for your notes, tasks, wikis, and databases.

    6 引用 • 38 回帖
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    247 引用 • 1348 回帖
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 73 关注
  • Flume

    Flume 是一套分布式的、可靠的,可用于有效地收集、聚合和搬运大量日志数据的服务架构。

    9 引用 • 6 回帖 • 629 关注
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1063 引用 • 3453 回帖 • 203 关注
  • GraphQL

    GraphQL 是一个用于 API 的查询语言,是一个使用基于类型系统来执行查询的服务端运行时(类型系统由你的数据定义)。GraphQL 并没有和任何特定数据库或者存储引擎绑定,而是依靠你现有的代码和数据支撑。

    4 引用 • 3 回帖 • 9 关注
  • IBM

    IBM(国际商业机器公司)或万国商业机器公司,简称 IBM(International Business Machines Corporation),总公司在纽约州阿蒙克市。1911 年托马斯·沃森创立于美国,是全球最大的信息技术和业务解决方案公司,拥有全球雇员 30 多万人,业务遍及 160 多个国家和地区。

    17 引用 • 53 回帖 • 136 关注
  • RYMCU

    RYMCU 致力于打造一个即严谨又活泼、专业又不失有趣,为数百万人服务的开源嵌入式知识学习交流平台。

    4 引用 • 6 回帖 • 51 关注
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 742 关注
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖
  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 680 关注
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    944 引用 • 1459 回帖 • 17 关注
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    85 引用 • 165 回帖 • 1 关注
  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    943 引用 • 943 回帖
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 175 关注
  • Netty

    Netty 是一个基于 NIO 的客户端-服务器编程框架,使用 Netty 可以让你快速、简单地开发出一个可维护、高性能的网络应用,例如实现了某种协议的客户、服务端应用。

    49 引用 • 33 回帖 • 22 关注
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    53 引用 • 40 回帖 • 2 关注
  • 链滴

    链滴是一个记录生活的地方。

    记录生活,连接点滴

    153 引用 • 3783 回帖 • 1 关注
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 354 关注
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    209 引用 • 2031 回帖 • 1 关注
  • CentOS

    CentOS(Community Enterprise Operating System)是 Linux 发行版之一,它是来自于 Red Hat Enterprise Linux 依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定的服务器以 CentOS 替代商业版的 Red Hat Enterprise Linux 使用。两者的不同在于 CentOS 并不包含封闭源代码软件。

    238 引用 • 224 回帖
  • Love2D

    Love2D 是一个开源的, 跨平台的 2D 游戏引擎。使用纯 Lua 脚本来进行游戏开发。目前支持的平台有 Windows, Mac OS X, Linux, Android 和 iOS。

    14 引用 • 53 回帖 • 531 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    176 引用 • 815 回帖
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖
  • 互联网

    互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。

    98 引用 • 344 回帖
  • 工具

    子曰:“工欲善其事,必先利其器。”

    286 引用 • 729 回帖