HybridRAG: 将知识图谱与向量检索增强生成结合以提高信息提取效率

引言

在金融应用中，从非结构化文本数据（如财报电话会议记录）中提取和解释复杂信息是一项艰巨的任务。即使使用当前最佳实践的检索增强生成（RAG）方法（如向量 RAG 技术），大型语言模型（LLMs）仍面临挑战，主要由于领域特定术语和文档复杂格式等问题。我们提出了一种新方法，称为 HybridRAG，它结合了基于知识图谱的 RAG 技术（称为 GraphRAG）和 VectorRAG 技术，以增强信息提取的问答系统，能够生成准确且具有上下文相关性的答案。

在对一组金融财报电话会议记录进行实验时，我们展示了 HybridRAG 在检索和生成阶段的表现均优于传统的 VectorRAG 和 GraphRAG，尤其是在检索准确性和答案生成方面。该方法不仅限于金融领域，未来的应用潜力广泛。

1. 先前工作与我们的贡献

向量 RAG 在最近几年已被广泛研究，旨在通过检索相关文本信息来支持生成过程。然而，在多个文档和较长上下文中，检索机制的有效性仍存在重大挑战。GraphRAG 结合了知识图谱（KGs）与 RAG，以改善传统的自然语言处理任务。本文中，我们提出了一种结合 VectorRAG 与 GraphRAG 的混合 RAG 方法，通过利用两者的优势，实现对金融文档的更有效分析和利用。

2. 方法论

2.1 向量 RAG

传统的 RAG 过程始于与外部文档中信息相关的查询。该查询用于搜索外部存储库（如向量数据库），以提取包含有用信息的相关文档或段落。这些检索到的文档随后作为额外上下文输入到 LLM 中，从而生成基于检索外部信息的响应。这种集成确保生成内容基于最新且可验证的数据，提高了响应的准确性和上下文相关性。

在传统的向量 RAG 中，外部文档被分成多个块以适应语言模型的上下文大小限制。这些块通过嵌入模型转换为嵌入，并存储在向量数据库中。检索组件在向量数据库中执行相似性搜索，以识别和排名与查询最相关的块。最终，生成模型结合原始查询和检索到的上下文，综合生成响应。

2.2 知识图谱构建

知识图谱是以结构化方式表示现实世界实体及其关系的图数据结构。构建知识图谱通常包括三个主要步骤：知识提取、知识改进和知识融合。在我们的工作中，我们集中于知识提取和知识改进，构建静态图谱。

知识提取的主要任务是识别实体、提取关系和解决共指问题。我们利用 NLP 技术从文本中识别实体及其关系，并通过共指解析保持知识图谱的一致性。知识改进涉及解决提取信息中的冗余和缺口，确保知识图谱的准确性和完整性。

2.3 GraphRAG

GraphRAG 以用户输入的查询为基础，检索与查询相关的节点（实体）和边（关系）。通过从完整的知识图谱中提取子图，GraphRAG 能够生成基于结构化信息的上下文。生成模型使用这种结合上下文来生成响应，这一过程确保输出准确并具有上下文相关性。

2.4 HybridRAG

HybridRAG 方法通过整合上述两种 RAG 技术的上下文，提供更全面的信息检索。向量 RAG 组件提供基于相似性的广泛检索，而 GraphRAG 则提供结构化的、丰富的上下文数据。通过将这两种上下文结合为输入，HybridRAG 能够生成更准确的答案。

3. 数据描述

我们使用 Nifty 50 公司的财报电话会议记录构建了一个自定义数据集。该数据集涵盖了 2023 年 6 月结束的季度，包含 50 家公司，涵盖多个行业。通过网络爬虫工具，系统地检索相关的财报记录，确保我们拥有实际文档和真实的 Q&A 对，适用于我们的 RAG 技术评估。

4. 实施细节

在知识图谱构建过程中，我们首先对文档进行预处理，并利用 LLM 链进行内容提炼和信息提取。对于向量 RAG 和 GraphRAG 的实现，我们分别采用 Pinecone 向量数据库和 Networkx 来管理知识图谱。HybridRAG 的实现则结合了前两者的上下文，为生成模型提供更全面的信息基础。

5. 结果

通过对三种 RAG 方法（VectorRAG、GraphRAG 和 HybridRAG）的评估，我们发现 HybridRAG 在多个关键指标上表现优于其他两种方法。具体来说，HybridRAG 在答案的准确性和相关性方面得分最高，尤其在上下文召回率方面也表现出色。

6. 结论与未来方向

本研究提出的 HybridRAG 方法显著提高了从复杂金融文档中提取信息的能力，未来可扩展至多模态输入，集成实时金融数据流，以增强其在动态金融环境中的实用性。

参考文献

Tomas Mikolov et al. "Efficient estimation of word representations in vector space."
Ashish Vaswani et al. "Attention is all you need."
Yi Yang et al. "Finbert: A pretrained language model for financial communications."
Bhaskarjit Sarmah et al. "Towards reducing hallucination in extracting information from financial reports using large language models."
Patrick Lewis et al. "Retrieval-augmented generation for knowledge-intensive NLP tasks."

‍

HybridRAG: 将知识图谱与向量检索增强生成结合以提高信息提取效率

引言

1. 先前工作与我们的贡献

2. 方法论

2.1 向量 RAG

2.2 知识图谱构建

2.3 GraphRAG

2.4 HybridRAG

3. 数据描述

4. 实施细节

5. 结果

6. 结论与未来方向

参考文献

相关帖子

现在流行的 deepseek，各种多模态大模型与传统的机器学习和深度学习（sklearn 和 pytorch）是一回事吗？

万字探讨 Agent 发展真方向：模型即产品，Agent 的未来要靠模型而不是 Workflow

20250328 设计师必备 AI 工具箱

Cherry Studio 支持导出到思源了

个人有关 AI 的趋势

思源媒体播放器 v0.3.0 更新（重大更新）

如果学数学的话是用思源好还是 anki 好？或者想办法结合一下？

欢迎来到这里！