GloVe
GloVe 发明的初衷,就是想结合两者的长处,搞出一个充分利用统计量的更好 train 的适用程度更广的 word embedding 方法。
动机
我们注意到,在篇章中,语义距离相近的词,共现次数多,语义距离远的词贡献次数少。见图下:
然而可以看到的是,区分度不算高。于是想到,能否用共现之间的比值来增大区分度?
GloVe 使用
GloVe 已经在 github 开源,源码以及 binary 可以在 GloVe Github 找到。
GloVe 的代码写的比较糙,每一步是独立的程序,因此要按照以下步骤进行:
- 运行
./vocab_count
进行词频统计 - 运行
./cooccur
进行共现统计 - 运行
./shuffle
进行打散 - 运行
./glove
进行训练词向量
具体参数和 word2vec 比较类似,具体用法可以见
https://github.com/stanfordnlp/GloVe/blob/master/demo.sh。
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于