GloVe 全局词向量 (一)

GloVe

GloVe 发明的初衷，就是想结合两者的长处，搞出一个充分利用统计量的更好 train 的适用程度更广的 word embedding 方法。

动机

我们注意到，在篇章中，语义距离相近的词，共现次数多，语义距离远的词贡献次数少。见图下：

然而可以看到的是，区分度不算高。于是想到，能否用共现之间的比值来增大区分度？

GloVe 使用

GloVe 已经在 github 开源，源码以及 binary 可以在 GloVe Github 找到。
GloVe 的代码写的比较糙，每一步是独立的程序，因此要按照以下步骤进行：

运行 ./vocab_count 进行词频统计
运行 ./cooccur 进行共现统计
运行 ./shuffle 进行打散
运行 ./glove 进行训练词向量

具体参数和 word2vec 比较类似，具体用法可以见
https://github.com/stanfordnlp/GloVe/blob/master/demo.sh。

Mother Cup

C 题：音频文件的高质量读写与去噪优化关键词：保证音频质量进行高效存储和传输不同音频文件不同编码算法：WAV、MP3、FLAC 采样率、比特深度、压缩算法污染：空调声、电脑风扇、室外交通、设备电流（针对性的去噪算法）问题 1： [图片] 多元线性回归(多输入 Y=AX+BY+CZ) 因素量化：文件大小(S) ..

论文分享

FineFilter- A Fine-grained Noise Filtering Mechanism for Retrieval-Augmented Large Language Models 任务目标是：通过噪声检测与过滤来提升模型在复杂问题中的推理能力。收集充分有效的推理线索，过滤其余无关信息（噪声也即模型判 ..

ddpm (新)

太多博客或者学习资料喜欢一上来就从 ELBO 等角度去推导 loss ，但是对于掌握一个模型，如果我们连模型在做什么都没有一个宏观的把握，只是一味的陷入类似于收敛性证明的漩涡，这么做我认为是丢掉了重点。之所以大家喜欢这么做的原因，主要是原论文的出发点就是从 ELBO 角度去把东西一步步推出来的。我认为这样无可非议，因为 ..

CCM: Real-Time Controllable Visual Content Creation Using Text-to-Image Consistency Models

0 Abstract Consistency Models 优点就是推理速度快，去噪只需几步即可。 control-conditioned image generative model 一般是通过在朴素 ddpm 上增加 ControlNet 训练得到。图像质量不错，与 control 信息的吻合程度也不错，唯独就是时 ..

consistency model

paper: Consistency Models 看这一篇笔记之前，最好先把 'score-based SDE' 这篇笔记看了。score-based SDE 这篇笔记就是说，现有的生成模型，都可以用 SDE 去描述它们的前向和反向过程。而且发现，反向过程还可以用确定性的 ODE 过程来描述。这篇 paper 受到 ..

score-based model

paper: Generative Modeling by Estimating Gradients of the Data Distribution 1 引入什么是分数模型，就是这个模型能估计 '对数概率密度函数对样本的梯度'，用数学表达就是能预测 \frac{\partial\log p(x)}{\partial ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于