Python 中使用 NLTK 创建 n-gram 模型

本贴最后更新于 2841 天前,其中的信息可能已经时过境迁

安装 NLTK 库

// Python 2.x
pip install nltk

// Python 3.x
pip3 install nltk

下载 NLTK 自带文本库

import nltk
nltk.download()

[382FBE66-B477-4F8E-B112-016522C6C9CC.png]

创建 2-gram 模型

from nltk import FreqDist
from nltk import ngrams
from nltk.book import text6

bigrams = ngrams(text6, 2)
bigramsDist = FreqDist(bigrams)
print(bigramsDist.most_common(10))

参考

《Python 网络数据采集》

  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    543 引用 • 672 回帖 • 1 关注
  • nltk
    1 引用

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...