在人工智能飞速发展的今天,大语言模型(LLM)已经成为各大科技公司竞相追逐的焦点。然而,即便是最先进的 LLM,在回答问题时仍然存在"幻觉"问题 - 即生成缺乏事实依据或与事实不符的答案。为了解决这个棘手的问题,检索增强生成(Retrieval-Augmented Generation,简称 RAG)技术应运而生,并迅速成为学术界和产业界关注的热点。
近日,社交媒体巨头 Meta 宣布推出"Meta 全面 RAG 基准测试:KDD Cup 2024"挑战赛,旨在为 RAG 系统提供一个全面而严格的评估平台。这项备受瞩目的比赛不仅吸引了全球 AI 研究人员和工程师的目光,更被视为推动 RAG 技术创新和进步的重要里程碑。让我们一起深入了解这场 AI 界的"世界杯"赛事。
RAG 技术:为 LLM 插上"知识之翼"
在介绍比赛详情之前,我们有必要先了解一下 RAG 技术的核心原理。顾名思义,RAG 是一种将信息检索与文本生成相结合的方法。当用户提出问题时,RAG 系统首先会从外部资源(如网页、知识图谱等)中检索相关信息,然后利用这些信息作为上下文,指导 LLM 生成更加准确、可靠的答案。
这种方法就像是为 LLM 插上了一对"知识之翼",使其能够获取最新、最相关的信息,从而大大降低"幻觉"的风险。比如,当我们询问"谁是现任美国总统?"时,传统 LLM 可能会根据训练数据给出过时或错误的答案。而 RAG 系统则会先检索最新的新闻报道或官方网站,确保回答的准确性和时效性。
CRAG:全面评估 RAG 系统的新基准
Meta 此次推出的挑战赛围绕着一个全新的基准测试 - 全面 RAG 基准(Comprehensive RAG Benchmark,简称 CRAG)展开。CRAG 的设计理念可以用四个关键词概括:真实性、丰富性、可靠性和可访问性。
- 真实性:CRAG 的问题设计充分考虑了智能助手的实际使用场景,涵盖了从简单事实查询到复杂推理任务的各种类型。同时,评分标准也根据问题复杂度和实体热度进行加权,以更好地反映用户真实需求的满足程度。
- 丰富性:CRAG 横跨金融、体育、音乐、电影和百科全书五大领域,包含了不同时效性(从实时到稳定)和热度(从热门到冷门)的事实。此外,它还设计了 8 种不同复杂度的问题类型,从简单的单一事实查询到需要多步推理的复杂问题,全面考验 RAG 系统的各项能力。
- 可靠性:CRAG 提供了经过人工验证的标准答案,并精心设计了评分机制,能够清晰区分正确、错误和缺失答案。同时,它还提供了自动评估机制,并确保样本数量足以得出统计显著的结果。
- 可访问性:除了问题集和标准答案,CRAG 还提供了模拟的检索数据源,确保所有参赛者都能在公平的环境下进行比较。
挑战赛任务:层层递进的三大挑战
CRAG 挑战赛共设置了三个任务,难度逐步提升,旨在全方位评估参赛者开发的 RAG 系统。
- 基于网页的检索总结:参赛者将收到每个问题对应的 5 个网页,需要从中识别并提炼出相关信息,生成准确的答案。这个任务主要考察系统对半结构化文本的理解和总结能力。
- 知识图谱和网页增强:在第一个任务的基础上,引入了模拟 API 来访问底层的模拟知识图谱(KG)。参赛者需要根据问题构造合适的查询参数,从结构化数据中检索信息,并将其与网页信息结合,生成全面的答案。这个任务考验系统对结构化和非结构化数据的综合利用能力。
- 端到端 RAG:作为最后也是最具挑战性的任务,每个问题将提供 50 个网页和模拟 API 访问。这不仅增加了信息量,也引入了更多噪声,模拟真实世界中的复杂场景。参赛者需要开发能够从海量信息中快速筛选、整合关键数据的端到端 RAG 系统。
这三个任务的设计体现了 Meta 对 RAG 技术发展的深刻洞察。从单一数据源到多源异构数据,从小规模信息到大规模噪声环境,参赛者需要不断优化和改进他们的解决方案,以应对日益复杂的挑战。这种层层递进的任务设置,不仅能全面评估 RAG 系统的各项能力,还能激发参赛者在实际应用场景中的创新思考。
评估标准:严格而全面
为了确保评估的公平性和有效性,CRAG 采用了一套严格而全面的评分机制。答案质量被分为四个等级:
- 完美(1 分):正确回答用户问题,且不包含任何幻觉内容。
- 可接受(0.5 分):提供了有用的答案,但可能包含不影响整体有用性的小错误。
- 缺失(0 分):未能提供所需信息,如"我不知道"等。
- 错误(-1 分):提供了错误或不相关的信息。
最终得分采用宏观平均法,根据问题类型和实体热度进行加权(具体权重未公开)。这种评分方式不仅考虑了答案的准确性,还重视系统在处理不同类型和难度问题时的表现,从而更全面地反映 RAG 系统的整体性能。
值得注意的是,CRAG 采用了自动评估(auto-eval)和人工评估(human-eval)相结合的方式。自动评估用于初步筛选出前十名队伍,而人工评估则决定各任务的前三名。这种双重评估机制既保证了效率,又确保了最终结果的准确性和公正性。
参赛规则:鼓励创新,确保公平
为了鼓励参赛者充分发挥创意,同时确保比赛的公平性,CRAG 制定了一系列细致的参赛规则:
- 模型限制:参赛者必须使用 Meta 提供的 Llama 2 或 Llama 3 模型构建 RAG 解决方案。这包括了从 7B 到 70B 等不同规模的模型,既为参赛者提供了选择空间,又保证了基础模型的一致性。
- 硬件配置:所有提交的解决方案将在配备 4 块 NVIDIA T4 GPU(每块 16GB 显存)的 AWS G4dn.12xlarge 实例上运行。这一规定确保了所有参赛者在相同的硬件条件下进行公平竞争。
- 外部资源使用:参赛者可以利用公开可用的数据集和模型,但不允许使用大公司的专有数据集或模型。这一规定既鼓励了对公共资源的创新利用,又防止了资源优势对比赛结果的不当影响。
- 提交限制:在第一阶段,每个团队每周可以为所有 3 个任务提交最多 6 次。第二阶段,每个参赛团队在整个挑战赛期间可以为所有 3 个任务总共提交 6 次。这些限制旨在平衡参赛者优化方案的需求和评估系统的负载。
- 答案生成要求:为了鼓励简洁有力的回答,自动评估阶段会将答案截断至 75 个 BPE 词元。人工评估阶段则会检查前 75 个词元以寻找有效答案,同时审查整个回答以判断是否存在幻觉。
这些规则不仅为参赛者提供了明确的指导,也体现了组织者对公平竞争和技术创新的重视。通过这些规定,CRAG 挑战赛为所有参赛者创造了一个公平、开放 yet 受控的竞争环境,有利于激发真正有价值的技术突破。
奖项设置:丰厚奖金激励创新
为了激励参赛者全力以赴,CRAG 挑战赛设置了总额高达 31,500 美元的奖金池。每个任务的奖金分配如下:
- 🥇 第一名: 4,000 美元
- 🥈 第二名: 2,000 美元
- 🥉 第三名: 1,000 美元
- 💐 7 种复杂问题类型各自的第一名: 每类 500 美元
这种奖金设置不仅奖励了整体表现最优秀的团队,还特别鼓励了在处理特定类型复杂问题上有突出表现的参赛者。这样的奖励机制有助于推动 RAG 技术在不同应用场景中的全面进步。
比赛时间线:紧凑而充实
CRAG 挑战赛分为两个阶段进行,时间安排紧凑而充实:
- 第一阶段(开放竞赛): 2024 年 4 月 1 日至 5 月 27 日
- 第二阶段(顶级团队竞争): 2024 年 5 月 28 日至 6 月 20 日
- 获奖者公布: 2024 年 8 月 26 日(在 KDD Cup 获奖者活动上)
这样的时间安排既给了参赛者充分的开发和优化时间,又保持了比赛的紧张感和吸引力。特别是第二阶段的设置,为表现优异的团队提供了更多展示和提升的机会。
结语:RAG 技术的里程碑式挑战
Meta 推出的 CRAG 挑战赛无疑是 RAG 技术发展史上的一个重要里程碑。它不仅为研究人员和工程师提供了一个全面评估 RAG 系统的标准平台,更重要的是,它勾勒出了 RAG 技术未来发展的方向。
通过精心设计的任务和评估标准,CRAG 挑战赛强调了 RAG 系统在处理复杂、多样化信息源时的关键能力。它鼓励参赛者开发能够准确理解问题、高效检索信息、智能整合知识并生成可靠答案的系统。这些能力正是未来 AI 助手和知识系统所必需的。
此外,CRAG 的开放性和公平性也为整个 AI 社区树立了榜样。通过提供统一的基础模型和评估环境,它确保了竞争的公平性,同时也为不同方法和思路的比较提供了可靠的基础。这种开放、公平的竞争机制,必将激发更多创新思想和突破性技术的涌现。
随着 CRAG 挑战赛的进行,我们有理由期待看到一批优秀的 RAG 解决方案脱颖而出。这些方案不仅将推动 RAG 技术的进步,更有望为解决 LLM"幻觉"问题提供新的思路和方法。在不远的将来,基于这些技术的 AI 系统将能够更加准确、可靠地回答我们的问题,为人类知识的获取和应用开辟新的篇章。
CRAG 挑战赛的意义,远不止于一场技术竞赛。它代表了 AI 领域对更可靠、更透明、更有用的智能系统的追求。通过这样的高水平竞赛,我们正在见证和参与塑造 AI 技术的未来。让我们共同期待 CRAG 挑战赛带来的精彩成果,以及它对 RAG 技术和整个 AI 领域产生的深远影响。
参考文献:
[1] Vu, T. et al. (2023). FreshLLMs: Refreshing Large Language Models with search engine augmentation. arXiv preprint arXiv:2310.03214.
[2] Sun, K. et al. (2024). Head-to-Tail: How Knowledgeable are Large Language Models (LLMs)? A.K.A. Will LLMs Replace Knowledge Graphs?. NAACL 2024.
[3] Usbeck, R. et al. (2023). QALD-10–The 10th challenge on question answering over linked data. Semantic Web Preprint, 1–15.
[4] Bajaj, P. et al. (2016). Ms marco: A human-generated machine reading comprehension dataset. arXiv preprint arXiv:1611.09268.
[5] Kwiatkowski, T. et al. (2019). Natural questions: a benchmark for question answering research. Transactions of the Association for Computational Linguistics, 7, 453–466.
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于