Meta Comprehensive RAG Benchmark: KDD Cup 2024

引言

在人工智能的快速发展中，生成式预训练模型（LLMs）如 GPT-4 虽然在许多领域展现出色的能力，但仍面临着“幻觉”这一重大挑战。幻觉指的是 LLM 生成的答案缺乏事实准确性或依据，这使得其在信息检索和问答系统中的应用受到限制。根据相关研究，即便是最新的模型，针对某些问题的准确率仍然低于 15%。因此，如何提升 LLM 的可靠性，成为了研究者们亟待解决的问题。

为此，Meta 推出了“综合检索增强生成（RAG）基准挑战”，旨在推动 RAG 系统的发展。通过对 RAG 系统的评估和比较，该挑战提供了一个清晰的基准，帮助研究者们更好地理解和优化其模型。

RAG 的基本概念

检索增强生成（RAG）是一种将信息检索与生成模型相结合的方法。RAG 系统通过外部数据源检索与用户问题相关的信息，从而生成更为准确和可靠的答案。这一方法的关键在于如何高效地检索和整合信息，以应对复杂问题的挑战。

RAG 系统的工作机制

在 RAG 系统中，当输入一个问题时，系统会先从外部资源中检索相关信息，然后利用这些信息生成答案。这一过程可以简化为以下几个步骤：

问题输入：用户提出一个问题。
信息检索：系统从外部数据源中检索与问题相关的信息。
答案生成：系统基于检索到的信息生成答案。

这种方法不仅可以提高回答的准确性，还能减少幻觉的发生率。

挑战概述

Meta 的综合 RAG 基准挑战（CRAG）主要分为两个阶段。第一阶段面向所有注册团队开放，任何提交过有效答案的团队都可以进入第二阶段。挑战的任务包括：

基于网页的检索总结：参与者需从多个网页中提取和综合信息，以生成准确的答案。
知识图谱与网页增强：通过使用模拟 API 访问知识图谱，参与者需要整合结构化数据以生成答案。
端到端 RAG：对参与者的能力进行更为严苛的考验，要求在获取的多达 50 个网页的基础上，选取最为相关的信息并生成答案。

这种分层的设计不仅能促使参与者逐步提升自己的 RAG 系统能力，还能有效推动此领域的研究与创新。

评估标准

在 CRAG 挑战中，RAG 系统的评估采用了多种指标，主要包括响应质量评分。系统生成的答案会被评定为“完美”、“可接受”、“缺失”或“错误”。评分标准如下：

完美（1 分） ：答案准确且无幻觉内容。
可接受（0.5 分） ：答案基本有用，但可能存在轻微错误。
缺失（0 分） ：未能提供所需信息。
错误（-1 分） ：提供了错误或无关的信息。

这种评估方式确保了对 RAG 系统的全面考量，兼顾了准确性和实用性。

参赛要求与技术支持

参赛团队需使用 Meta 的 Llama 模型（如 Llama-3 系列）来构建其 RAG 解决方案。所有提交的代码和模型权重都需在主办方的服务器上进行评估。此外，参与者还需确保所用数据集和模型是公开可用的，以确保公平竞争。

硬件与系统配置

参赛者的解决方案将在 AWS G4dn.12xlarge 实例上运行，配备 4 个 NVIDIA T4 GPU。这一配置对模型的运行性能提出了要求，参与者需合理配置自己的模型以适应这一环境。

挑战的意义

通过设置这样一个综合性挑战，Meta 不仅希望推动 RAG 技术的发展，还希望为研究者们提供一个可靠的评估平台。这一挑战的独特之处在于其现实性、丰富性、可靠性和可访问性，确保了其能够真实反映出 RAG 技术在实际应用中的表现。

结论

综上所述，Meta 的综合 RAG 基准挑战不仅为研究者提供了一个展示和比较其 RAG 系统的机会，同时也为推动问答系统的发展奠定了基础。通过这一挑战，研究者们可以更深入地理解 RAG 系统的潜力与局限，从而推动这项技术的进一步发展与应用。

参考文献

Tu Vu et al., "FreshLLMs: Refreshing Large Language Models with search engine augmentation", arXiv, 10/2023. Available at: arXiv
Kai Sun et al., "Head-to-Tail: How Knowledgeable are Large Language Models (LLMs)? A.K.A. Will LLMs Replace Knowledge Graphs?", NAACL, 2024. Available at: arXiv
Ricardo Usbeck et al., "QALD-10–The 10th challenge on question answering over linked data", Semantic Web Preprint (2023), 1–15. Available at: Semantic Web Journal
Payal Bajaj et al., "Ms marco: A human-generated machine reading comprehension dataset", (2016). Available at: arXiv
Tom Kwiatkowski et al., "Natural questions: a benchmark for question answering research", Transactions of the Association for Computational Linguistics 7 (2019), 453–466. Available at: ACL Anthology

Meta Comprehensive RAG Benchmark: KDD Cup 2024

引言

RAG 的基本概念

RAG 系统的工作机制

挑战概述

评估标准

参赛要求与技术支持

硬件与系统配置

挑战的意义

结论

参考文献

相关帖子

万字探讨 Agent 发展真方向：模型即产品，Agent 的未来要靠模型而不是 Workflow

20250328 设计师必备 AI 工具箱

Cherry Studio 支持导出到思源了

个人有关 AI 的趋势

思源笔记 +NoteBookLLM+Claude+CherryStudio= 项目式学习

免费的火山 API

希望粘贴链接时自动替换锚文本

欢迎来到这里！