引言 🌟
在人工智能快速发展的今天,大语言模型(LLMs)如 ChatGPT 已经成为人们日常生活中不可或缺的助手。然而,当前大多数 LLM 仍然局限于文本输入和输出,限制了它们在语音交互场景中的应用。幸运的是,GPT-4o 的出现为我们开启了一扇新窗口,使得 LLM 能够通过语音进行实时互动,极大地提升了用户体验。但在开源社区中,如何基于 LLM 构建语音交互模型仍然缺乏深入探索。
为了解决这一问题,研究者提出了 LLaMA-Omni,一种新型模型架构,旨在实现低延迟和高质量的语音交互。LLaMA-Omni 集成了预训练的语音编码器、语音适配器、LLM 和流式语音解码器,能够直接从语音指令生成文本和语音响应,无需中间的语音转录过程。这一创新不仅使得响应延迟降至 226 毫秒,还大幅提升了语音交互的效率。
LLaMA-Omni 模型架构 🏗️
LLaMA-Omni 的模型架构如图 1 所示,主要由以下几部分组成:
-
语音编码器:我们采用 Whisper-large-v3 作为语音编码器,能够从用户的语音指令中提取出有意义的表示。
\mathbf{H} = \mathcal{E}(X^S) -
语音适配器:为了使 LLM 能够理解输入的语音,我们引入了可训练的语音适配器,将语音表示映射到 LLM 的嵌入空间。
\mathbf{S} = \mathcal{A}(\mathbf{H}) = \text{Linear}(\text{ReLU}(\text{Linear}(\text{DownSample}(\mathbf{H})))) -
大语言模型:我们使用 Llama-3.1-8B-Instruct 作为 LLM,其强大的推理能力和与人类偏好的良好对齐使其成为理想选择。
-
流式语音解码器:流式语音解码器采用非自回归(NAR)流式 Transformer 结构,能够根据 LLM 的输出隐藏状态同时生成语音响应。
P(a_i | \mathbf{O}) = \text{softmax}(\mathbf{W}\mathbf{o}_i + \mathbf{b})[a_i]
通过以上架构,LLaMA-Omni 能够在低延迟的情况下同时生成高质量的文本和语音响应。
语音指令数据集的构建 📊
为了训练 LLaMA-Omni,我们构建了一种名为 InstructS2S-200K 的数据集,包含 200K 个语音指令和相应的语音响应。构建过程分为三个步骤:
- 指令重写:根据语音输入的特点,对现有文本指令进行重写,增加填充词和转换非文本符号。
- 响应生成:使用 LLaMA-3-70B-Instruct 模型生成适合语音交互的简洁响应,确保不包含无法合成的内容。
- 语音合成:通过 TTS 模型将指令和响应转化为语音,确保合成语音的自然性。
实验设置与评估 🧪
我们对 LLaMA-Omni 进行了多项实验,评估其在语音指令跟随(S2TIF)和语音到语音指令跟随(S2SIF)任务上的表现。实验中,我们使用 GPT-4o 对模型的响应进行评分,评估其内容和风格的适应性。同时,我们还计算了文本响应与语音响应的对齐度、生成语音的质量以及响应延迟等关键指标。
主要结果 🥇
根据实验结果,LLaMA-Omni 在内容和风格的评分上均优于现有模型,显示出其在语音交互场景中的强大能力。特别是在 ASR-WER 和 ASR-CER 指标上,LLaMA-Omni 也表现出最低的错误率,证明其在生成文本和语音响应的对齐性上具有显著优势。
语音质量与响应延迟的权衡 ⚖️
我们还探讨了语音质量与响应延迟之间的权衡关系。实验表明,较小的单位块大小能够显著降低系统延迟,但可能会影响语音的连贯性。通过调整单位块大小,我们可以在不同场景下实现响应延迟与语音质量的最佳平衡。
结论 🎉
LLaMA-Omni 的提出标志着低延迟和高质量语音交互模型的新突破。通过合理的模型设计和高效的数据集构建,LLaMA-Omni 不仅提升了语音交互的用户体验,还为未来更复杂的语音指令跟随任务奠定了基础。我们期待在未来进一步探索提升生成语音响应的表现力以及改进实时交互能力的可能性。
参考文献 📚
- OpenAI (2024). Hello gpt-4o. URL: OpenAI
- Zhu, Y., et al. (2023). SpeechGPT: Empowering large language models with intrinsic cross-modal conversational abilities. In Proceedings of EMNLP 2023.
- Zhang, D., et al. (2023). Audiopalm: A large language model that can speak and listen. arXiv preprint arXiv:2306.12925.
- Radford, A., et al. (2023). Robust speech recognition via large-scale weak supervision. In ICML.
- Kim, J., et al. (2021). Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于