使用 tensorflow 生成语言模型初体验

背景

语言模型(Language Model, LM): 给出一句话的前 k 个词，来预测第 k+1 个词是什么，给出一个第 k+1 个词可能出现的概率的分布 p(xk+1|x1,x2,...,xk)。

换句话来说，语言模型是一个拟合概率模型，可以给出句子出现的概率。通过学习历史的文本记录，来实现预测后续的字词。

初体验

为了完成这次的小小体验，本文选取了宾州树库 (PTB) 数据集。这个数据集压缩包只有 33M，占用空间小，训练速度快，适合于学习。

安装 tensorflow

tensorflow 不支持 python 3.7，所以本文使用了 python 2.7。


$ sudo pip install --index-url http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com tensorflow

下载 ptb 数据集


$ wget "http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz"

下载代码

ptb_word_lm: https://github.com/tensorflow/models/blob/master/tutorials/rnn/ptb/ptb_word_lm.py
reader: https://github.com/tensorflow/models/blob/master/tutorials/rnn/ptb/reader.py
util: https://github.com/tensorflow/models/blob/master/tutorials/rnn/ptb/util.py


$ wget "https://raw.githubusercontent.com/tensorflow/models/master/tutorials/rnn/ptb/ptb_word_lm.py"
$ wget "https://raw.githubusercontent.com/tensorflow/models/master/tutorials/rnn/ptb/reader.py"
$ wget "https://raw.githubusercontent.com/tensorflow/models/master/tutorials/rnn/ptb/util.py"

运行


$ time python ptb_word_lm.py --data_path=simple-examples/data/ --num_gpus=0

耗时


real    22m10.767s
user    373m22.734s
sys     28m11.109s

运行结果


Epoch: 1 Learning rate: 1.000
0.004 perplexity: 4887.851 speed: 2941 wps
0.104 perplexity: 833.255 speed: 9325 wps
0.204 perplexity: 623.097 speed: 9819 wps
0.304 perplexity: 508.344 speed: 10000 wps
0.404 perplexity: 441.620 speed: 10097 wps
0.504 perplexity: 397.859 speed: 10155 wps
0.604 perplexity: 360.096 speed: 10196 wps
0.703 perplexity: 334.278 speed: 10224 wps
0.803 perplexity: 313.727 speed: 10247 wps
0.903 perplexity: 295.207 speed: 10262 wps
Epoch: 1 Train Perplexity: 281.051
Epoch: 1 Valid Perplexity: 181.208
…………
0.004 perplexity: 67.781 speed: 9579 wps
0.104 perplexity: 52.330 speed: 10272 wps
0.204 perplexity: 56.718 speed: 10292 wps
0.304 perplexity: 54.545 speed: 10293 wps
0.404 perplexity: 53.512 speed: 10291 wps
0.504 perplexity: 52.704 speed: 10300 wps
0.604 perplexity: 50.949 speed: 10305 wps
0.703 perplexity: 50.123 speed: 10305 wps
0.803 perplexity: 49.264 speed: 10313 wps
0.903 perplexity: 47.685 speed: 10322 wps
Epoch: 13 Train Perplexity: 46.632
Epoch: 13 Valid Perplexity: 127.323

perplexity

PPL：根据每个词来估计一句话出现的概率，并用句子长度作 normalize，用来衡量语言模型收敛情况。

PPL 越小，p(wi)则越大，期望的 sentence 出现的概率就越高，模型越好。

WPS

WPS(word per second, 每分钟词数): 训练速度

过程解读

在 ptb_word_lm.py 中，首先生成数据，

生成数据


  raw_data = reader.ptb_raw_data(FLAGS.data_path)
  train_data, valid_data, test_data, _ = raw_data

可视化

通过 PTBProducer 的 name scope，来准备数据。

内部细节图

参考

函数

函数就像「代码的魔法工具箱」，把常用的功能打包起来，随用随取。让我们用做奶茶的比喻来理解它~ ‍ 一、函数是什么？想象你开奶茶店：原料（水果、牛奶）→ 输入参数制作流程 → 函数内部的代码成品奶茶 → 返回值代码示例： # 定义「做奶茶」函数 def make_milk_tea(tea_base, toppi ..

控制流

控制流就像「程序的交通指挥官」，它决定代码该走哪条路、重复做什么事。让我们用最生活化的方式理解它~ ‍ 一、控制流是什么？想象你每天出门前：如果下雨 → 带伞（条件判断）重复刷牙 1 分钟 → 直到刷干净（循环）这就是生活中的控制流！编程中也一样 ‍ 二、条件判断：如果...就... 1️⃣ 最简单的 i ..

常用数据结构

数据结构就像「收纳数据的各种容器」️，不同的容器适合存放不同类型的数据。让我们用最生活化的方式认识它们吧~ ‍ 一、列表（List）→ 购物车特点：有顺序的容器可以随时增删改用方括号 [] 表示 # 创建购物车 cart = ['苹果', '笔记本', '️铅笔'] # 常用操作 cart.append('咖啡 ..

变量与数据类型

一、变量：就像贴标签的小盒子比喻：想象你有一个小盒子，上面贴着「零食盒」的标签，里面装了饼干。在编程中：变量名 = 盒子的标签（比如 my_snack）数据 = 盒子里的东西（比如 '饼干'）代码例子： # 把'饼干'放进叫my_snack的盒子里 my_snack = '饼干' # 查看盒子里有什么 prin ..

配置虚拟环境

虚拟环境管理（venv/pipenv/virtualenv/conda）为什么需要虚拟环境？隔离项目依赖：不同项目可能需要不同版本的 Python 或第三方库避免全局污染：防止系统 Python 环境被意外修改依赖可重现：方便团队协作和部署 1. venv（Python 内置，一般使用这个就够了，其他的知道有就 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于