reCSE:自监督对比学习中的便携式重塑特征

引言

在自然语言处理(NLP)领域,句子表示学习作为一个基础任务,近年来引起了广泛关注。随着对比学习的兴起,研究者们对如何从原始文本中获取丰富语义信息的嵌入向量进行了深入探讨。尽管已有大量研究采用预训练语言模型(如 BERT 和 RoBERTa)来生成高质量的句子表示,但在某些特定下游任务(例如语义相似性任务)中,未经过微调的模型表现依然不尽如人意。因此,如何在不依赖额外样本的情况下改进句子表示能力,成为了当今研究的热点。

本文提出了 reCSE(重塑特征的自监督对比学习框架),这是一种基于特征重塑的对比学习方法。与当前基于离散数据增强的方法不同,reCSE 通过重塑原始句子的输入特征,聚合句子中每个标记的全局信息,从而缓解了表示极性问题和 GPU 内存消耗线性增加的问题。同时,实验结果表明,reCSE 在语义相似性任务中表现出色,具有很强的通用性,可以迁移到其他自监督对比学习框架中,提升其表示能力,甚至达到最先进的性能。

自监督对比学习的背景

自监督句子表示任务旨在从未经标注的数据中获取句子的向量嵌入。根据 LeKhac 等(2020)的研究,这种方法能够适应各种下游任务,且无需微调。对比学习的核心思想是,适当的正样本和负样本的选择对于自监督句子表示的学习至关重要。

语义相似性任务的挑战

在对比学习中,研究者通常会采用各种表面级数据增强技术来生成正样本,这些技术虽然有效,但也带来了新的挑战。例如,Yan 等(2021)的方法通过应用不同的 dropout 掩码生成正样本,这种方法虽然在一定程度上增强了句子表示的多样性,但也导致了表示极性问题和 GPU 内存需求的增加。

reCSE 的创新

为了解决上述问题,reCSE 提出了一种新的对比学习框架,主要包含三个部分:特征重塑、基于 dropout 的原始数据增强和整合这些重塑特征的对比学习机制。通过特征重塑,reCSE 能够在不生成额外样本的情况下,增强对句子整体语义的理解。

特征重塑:reCSE 的核心

特征重塑是 reCSE 的主要创新。我们首先将句子分解为 n 个标记,利用 tokenizer 提取原始特征x = \{x_1, x_2, \ldots, x_n\}。接着,我们通过增加特征的维度,将其转化为一个n \times n的矩阵X,以捕捉标记之间的相关性。

X = \sqrt{x^T \cdot x}

这个矩阵可以分为两部分:对角矩阵和对称矩阵,后者表示不同标记之间的相关性。最终,我们通过线性投影将矩阵X压缩回原始维度,得到重塑后的特征x^*

x^* = g_\phi(X)

这一过程有效地提升了句子表示的质量,同时避免了额外样本的引入。

基于 dropout 的数据增强

在处理原始句子时,我们首先使用不同的提示来增强句子表示。遵循 SimCSE 的方法,我们采用 dropout 作为最基本的数据增强单元,对每个输入句子进行两次编码,生成正样本对。

h_z = f_\theta(x_i, z), \quad h_{z'} = f_\theta(x_i, z')

其中,zz'分别表示不同的 dropout 掩码,f_\theta(\cdot)是一个预训练的语言编码器(如 BERT 或 RoBERTa)。通过这种方法,我们能有效构建正样本对,进而在对比学习中使用。

对比学习机制

在 reCSE 中,我们采用 infoNCE 损失作为训练目标,利用交叉熵损失函数来实现对比学习的目标。对于输入句子集合\{s_i\}_{i=1}^N,我们获得三个不同的嵌入表示:原始句子嵌入h_{z_i}、正样本嵌入h_{z'_i}和重塑嵌入h^*_i

\ell_{CL} = -\log \frac{e^{\text{cos\_sim}(h_{z_i}, h_{z'_i})/\tau}}{\sum_{j=1}^N e^{\text{cos\_sim}(h_{z_i}, h_{z'_j})/\tau}}

此外,我们还将重塑嵌入视为额外的正样本,尽量将其与h_{z_i}h_{z'_i}靠近。

\ell_{re} = -\sum_{Z \in \{z,z'\}} \log \frac{e^{\text{cos\_sim}(h_Z, h^*)/\tau'}}{\sum_{j=1}^N e^{\text{cos\_sim}(h_Z, h^*_j)/\tau'}}

最终的损失函数结合了对比学习和重塑嵌入的目标。

\ell = \lambda \ell_{CL} + (1 - \lambda) \max(\ell_{CL}, \ell_{re})

实验与分析

在实验部分,我们采用了从英文维基百科随机选取的 100 万句子作为输入语料库,评估 reCSE 在语义相似性任务上的表现。我们的实验结果表明,reCSE 在各个子任务中均表现优异,尤其在 SICK-R 基准测试中,超越了 SimCSE 的表现。

结果分析

实验结果表明,尽管 reCSE 的平均性能略低于某些最先进的模型,如 SNCSE,但在没有引入额外样本的情况下,它在语义相似性任务中的表现依然强劲。尤其是在不使用离散增强的情况下,reCSE 显示出了明显的优势。

结论

本文提出了 reCSE,一种基于特征重塑的自监督对比学习框架,成功解决了当前先进模型在表示极性和 GPU 内存消耗方面的挑战。实验结果证明,reCSE 在语义相似性任务中表现出色,且不增加 GPU 内存消耗。此外,我们还验证了特征重塑方法的通用性,能够与其他自监督对比学习框架相结合,从而提升它们的表示能力。未来的研究可以在这一基础上,探索更高效的特征重塑机制和优化算法。

参考文献

  1. LeKhac, H. et al. (2020). Self-supervised sentence representation tasks.
  2. Devlin, J. et al. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
  3. Gao, T. et al. (2021). SimCSE: Simple Contrastive Learning of Sentence Embeddings.
  4. Wu, Y. et al. (2021). ESimCSE: Enhanced SimCSE for Sentence Embedding.
  5. Wang, J. and Dou, Z. (2023). SNCSE: Sentence Contrastive Learning with Negative Samples.
  6. Shi, Y. et al. (2023). OssCSE: Optimized Self-supervised Contrastive Learning for Sentence Embedding.

通过进一步的研究和探索,我们期待能够推动自监督学习和句子表示的进步,为自然语言处理领域的应用提供更强大的支持。

  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    83 引用 • 37 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...