音频知识增强语言模型:AudioBERT 的崭露头角

引言 🌟

在人工智能和自然语言处理的快速发展中,预训练语言模型如 BERT 的出现,极大地促进了各种语言相关任务的进展。然而,这些模型往往仅在文本数据上进行预训练,从而导致了对其他领域知识的缺乏。特别是在视觉和听觉领域,越来越多的研究表明,这些语言模型在处理视觉常识知识方面存在显著不足,比如对常见物体颜色的认知同样乏力。针对这一现象,研究者们开始关注这些模型在听觉知识上的短板,探讨它们是否同样缺乏对音频信号的常识理解。

为了填补这一知识空白,研究团队构建了一个新的数据集——AuditoryBench,旨在评估语言模型的听觉知识水平。该数据集包括两个新任务:动物声音识别和声音音调比较。通过这些任务,研究者发现,现有的语言模型在听觉常识知识上存在显著缺陷。这为 AudioBERT 的诞生奠定了基础——一个旨在通过检索增强的方式来提升语言模型听觉知识的创新框架。

AuditoryBench 的构建 🛠️

AuditoryBench 是基于一个大型音频-文本配对数据集 LAION-Audio-630K 构建的,包含超过 60 万个音频-文本对。构建 AuditoryBench 的第一步是对每个音频样本进行分类,处理配对的文本信息,并生成适当的标签。例如,在动物声音识别任务中,模型需要根据特定的拟声词(如“喵”)预测可能发出该声音的动物(如“猫”)。通过这种方式,研究者们生成了 6015 个样本并将其划分为训练集、开发集和测试集。

动物声音识别任务 🐾

在动物声音识别任务中,模型的任务是根据给定的拟声词预测相应的动物。每个数据项由提问、答案和拟声词组成。例如,“‘喵’是[掩蔽]发出的声音”中,掩蔽部分需要填入“猫”。为了提高数据质量,研究团队还特别引入了人工注释者来过滤不适当的动物答案。

声音音调比较任务 🎶

在声音音调比较任务中,模型需要比较两种不同声源的音调。每个数据项由提示、答案和两个音频样本组成,例如,“合成器的声音通常比声学低音更[掩蔽]”。通过使用音频处理库 librosa,研究团队提取了每个音频样本的平均音调,从而能够比较音调差异。

通过这两个任务,AuditoryBench 不仅为评估语言模型的听觉知识提供了标准化的框架,也为进一步的研究奠定了基础。

AudioBERT 的架构与方法 🔍

AudioBERT 的核心在于它的检索增强机制。该框架包含两个主要组件:听觉知识跨度检测器和 CLAP(音频-文本对比学习模型)。首先,听觉知识跨度检测器负责识别文本中需要音频知识的部分。随后,通过 CLAP 模型,根据识别出的文本跨度检索相关音频。

听觉知识跨度检测器 📏

这一组件通过训练一个变换器编码器来提取与音频相关的文本跨度。模型使用交叉熵损失来优化识别效果。经过实验,研究发现该检测器在动物声音识别和音调比较任务中都表现出色,尤其是在结合多种数据集时,其性能提升显著。

CLAP 模型的应用 🎤

CLAP 模型的设计旨在通过对比学习最大化匹配音频和文本对的余弦相似度。具体而言,CLAP 在一个批次的音频-文本对中,积极优化匹配对之间的相似度,同时减少不匹配对之间的相似度。其损失函数可表示为:

L_{\text{Audio}}=-\frac{1}{N}\sum_{i=1}^{N}\log\frac{\exp(\text{cos}(A_{i},T_{i})/\tau)}{\sum_{j=1}^{N}\exp(\text{cos}(A_{i},T_{j})/\tau)}

通过这种方式,CLAP 能够高效地检索与文本相关的音频,从而为 AudioBERT 提供必要的音频知识。

AudioBERT 的总体框架 🏗️

AudioBERT 的运行流程分为三个步骤:首先,使用听觉知识跨度检测器检索相关音频;其次,利用 CLAP 音频编码器生成嵌入;最后,将该嵌入注入到语言模型的音频知识跨度的第一个标记中。在训练阶段,AudioBERT 使用掩蔽语言建模损失和 LoRA(低秩适应)技术,对模型进行微调,同时保持其他参数不变。这一创新架构使得 AudioBERT 能够根据任务需求动态适应,同时保留其在一般语言理解任务中的原始性能。

实验与结果 📊

在实验中,研究团队评估了 AudioBERT 在 AuditoryBench 上的表现。结果表明,AudioBERT 在动物声音识别和声音音调比较任务中均取得了显著的性能提升。例如,BERT-base 模型在动物声音识别任务上的准确率仅为 15.51%,而 AudioBERT 则提升至 38.28%。这种性能的飞跃展示了 AudioBERT 在增强语言模型听觉知识方面的有效性。

数据质量评估 📝

为了确保 AuditoryBench 数据集的质量,研究团队在构建过程中进行了严格的过滤和验证。对于动物声音识别任务,人工注释者会筛选掉不恰当的标签;在声音音调比较任务中,确保正确标注音频样本的音调。这些努力确保了 AuditoryBench 的高质量和可靠性,为后续的研究提供了坚实的基础。

结论 🎉

AudioBERT 的提出不仅填补了语言模型在听觉知识方面的不足,也为未来的多模态研究指明了方向。通过引入听觉知识增强机制,AudioBERT 展示了如何有效地提升语言模型的表现,特别是在需要音频理解的任务中。我们期待这一研究能够激发更多关于音频与语言结合的探索,推动人工智能领域的进一步发展。

参考文献 📚

  1. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL.
  2. Tan, H., & Bansal, M. (2020). Vokenization: Improving language understanding with contextualized, visual-grounded supervision. In EMNLP.
  3. Liu, H., Li, C., Wu, Q., & Lee, Y. J. (2023). Visual instruction tuning. In NeurIPS.
  4. Elizalde, B., Deshmukh, S., Al Ismail, M., & Wang, H. (2023). CLAP: Learning audio concepts from natural language supervision. In ICASSP.
  5. Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., & Chen, W. (2022). LoRA: Low-rank adaptation of large language models. In ICLR.
  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    132 引用 • 189 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...