GloVe 全局词向量 (一)

本贴最后更新于 2500 天前,其中的信息可能已经斗转星移

GloVe

GloVe 发明的初衷,就是想结合两者的长处,搞出一个充分利用统计量的更好 train 的适用程度更广的 word embedding 方法。

动机

我们注意到,在篇章中,语义距离相近的词,共现次数多,语义距离远的词贡献次数少。见图下:

然而可以看到的是,区分度不算高。于是想到,能否用共现之间的比值来增大区分度?

GloVe 使用

GloVe 已经在 github 开源,源码以及 binary 可以在 GloVe Github 找到。
GloVe 的代码写的比较糙,每一步是独立的程序,因此要按照以下步骤进行:

  1. 运行 ./vocab_count 进行词频统计
  2. 运行 ./cooccur 进行共现统计
  3. 运行 ./shuffle 进行打散
  4. 运行 ./glove 进行训练词向量

具体参数和 word2vec 比较类似,具体用法可以见
https://github.com/stanfordnlp/GloVe/blob/master/demo.sh

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...