HybridRAG: 将知识图谱与向量检索增强生成结合以提高信息提取效率

引言

在金融应用中,从非结构化文本数据(如财报电话会议记录)中提取和解释复杂信息是一项艰巨的任务。即使使用当前最佳实践的检索增强生成(RAG)方法(如向量 RAG 技术),大型语言模型(LLMs)仍面临挑战,主要由于领域特定术语和文档复杂格式等问题。我们提出了一种新方法,称为 HybridRAG,它结合了基于知识图谱的 RAG 技术(称为 GraphRAG)和 VectorRAG 技术,以增强信息提取的问答系统,能够生成准确且具有上下文相关性的答案。

在对一组金融财报电话会议记录进行实验时,我们展示了 HybridRAG 在检索和生成阶段的表现均优于传统的 VectorRAG 和 GraphRAG,尤其是在检索准确性和答案生成方面。该方法不仅限于金融领域,未来的应用潜力广泛。

1. 先前工作与我们的贡献

向量 RAG 在最近几年已被广泛研究,旨在通过检索相关文本信息来支持生成过程。然而,在多个文档和较长上下文中,检索机制的有效性仍存在重大挑战。GraphRAG 结合了知识图谱(KGs)与 RAG,以改善传统的自然语言处理任务。本文中,我们提出了一种结合 VectorRAG 与 GraphRAG 的混合 RAG 方法,通过利用两者的优势,实现对金融文档的更有效分析和利用。

2. 方法论

2.1 向量 RAG

传统的 RAG 过程始于与外部文档中信息相关的查询。该查询用于搜索外部存储库(如向量数据库),以提取包含有用信息的相关文档或段落。这些检索到的文档随后作为额外上下文输入到 LLM 中,从而生成基于检索外部信息的响应。这种集成确保生成内容基于最新且可验证的数据,提高了响应的准确性和上下文相关性。

在传统的向量 RAG 中,外部文档被分成多个块以适应语言模型的上下文大小限制。这些块通过嵌入模型转换为嵌入,并存储在向量数据库中。检索组件在向量数据库中执行相似性搜索,以识别和排名与查询最相关的块。最终,生成模型结合原始查询和检索到的上下文,综合生成响应。

2.2 知识图谱构建

知识图谱是以结构化方式表示现实世界实体及其关系的图数据结构。构建知识图谱通常包括三个主要步骤:知识提取、知识改进和知识融合。在我们的工作中,我们集中于知识提取和知识改进,构建静态图谱。

知识提取的主要任务是识别实体、提取关系和解决共指问题。我们利用 NLP 技术从文本中识别实体及其关系,并通过共指解析保持知识图谱的一致性。知识改进涉及解决提取信息中的冗余和缺口,确保知识图谱的准确性和完整性。

2.3 GraphRAG

GraphRAG 以用户输入的查询为基础,检索与查询相关的节点(实体)和边(关系)。通过从完整的知识图谱中提取子图,GraphRAG 能够生成基于结构化信息的上下文。生成模型使用这种结合上下文来生成响应,这一过程确保输出准确并具有上下文相关性。

2.4 HybridRAG

HybridRAG 方法通过整合上述两种 RAG 技术的上下文,提供更全面的信息检索。向量 RAG 组件提供基于相似性的广泛检索,而 GraphRAG 则提供结构化的、丰富的上下文数据。通过将这两种上下文结合为输入,HybridRAG 能够生成更准确的答案。

3. 数据描述

我们使用 Nifty 50 公司的财报电话会议记录构建了一个自定义数据集。该数据集涵盖了 2023 年 6 月结束的季度,包含 50 家公司,涵盖多个行业。通过网络爬虫工具,系统地检索相关的财报记录,确保我们拥有实际文档和真实的 Q&A 对,适用于我们的 RAG 技术评估。

4. 实施细节

在知识图谱构建过程中,我们首先对文档进行预处理,并利用 LLM 链进行内容提炼和信息提取。对于向量 RAG 和 GraphRAG 的实现,我们分别采用 Pinecone 向量数据库和 Networkx 来管理知识图谱。HybridRAG 的实现则结合了前两者的上下文,为生成模型提供更全面的信息基础。

5. 结果

通过对三种 RAG 方法(VectorRAG、GraphRAG 和 HybridRAG)的评估,我们发现 HybridRAG 在多个关键指标上表现优于其他两种方法。具体来说,HybridRAG 在答案的准确性和相关性方面得分最高,尤其在上下文召回率方面也表现出色。

6. 结论与未来方向

本研究提出的 HybridRAG 方法显著提高了从复杂金融文档中提取信息的能力,未来可扩展至多模态输入,集成实时金融数据流,以增强其在动态金融环境中的实用性。

参考文献

  1. Tomas Mikolov et al. "Efficient estimation of word representations in vector space."
  2. Ashish Vaswani et al. "Attention is all you need."
  3. Yi Yang et al. "Finbert: A pretrained language model for financial communications."
  4. Bhaskarjit Sarmah et al. "Towards reducing hallucination in extracting information from financial reports using large language models."
  5. Patrick Lewis et al. "Retrieval-augmented generation for knowledge-intensive NLP tasks."

  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    135 引用 • 190 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...