️‍♂️ 揭秘 Fact Finder：AI 与知识图谱的完美结合

🌟 引言

在这个信息爆炸的时代，如何快速准确地获取所需信息成为了一个巨大的挑战。今天，让我们一起揭开 Fact Finder 的神秘面纱，看看这个结合了 AI 和知识图谱的强大工具是如何帮助我们在海量数据中寻找真相的。

🚀 Fact Finder：你的 AI 助手

想象一下，如果你有一个无所不知的朋友，随时可以回答你的各种问题，那该多好啊！Fact Finder 就是这样一个存在。它不仅能回答问题，还能给你展示答案的来源和推理过程。这就像是有一个超级智能的侦探随时待命，为你破解各种谜题。

让我们来看看 Fact Finder 的工作流程图：

graph TD A[用户提问] --> B[生成Cypher查询] B --> C[查询预处理] C --> D[查询知识图谱] D --> E[生成自然语言回答] D --> F[生成证据子图] E --> G[展示结果] F --> G

这个流程看起来很简单，对吧？但每一步都蕴含着深奥的技术。让我们一起深入了解每个环节的奥秘！

🧠 步骤 1：从问题到查询的魔法转换

首先，Fact Finder 会使用一个强大的语言模型（就像是一个超级翻译官）来理解你的问题，并将其转化为一种叫做 Cypher 的特殊查询语言。这就像是把你的问题翻译成"图谱语"，让知识图谱能够听懂你在说什么。

想象一下，你问："哪些药物用于治疗眼压过高？"语言模型会思考："嗯，这个问题涉及到药物和疾病的关系。我需要在图谱中找到'眼压过高'这个疾病节点，然后查找与之相连的治疗药物。"然后，它会生成类似这样的 Cypher 查询：


MATCH (d:Disease {name: "ocular hypertension"})-[:TREATS]-(m:Medicine)
RETURN m.name AS medicine

这就像是给图谱下达了一个精确的搜索令，告诉它 exactly 该怎么找到答案。

🔍 步骤 2：查询预处理，让搜索更智能

生成查询后，Fact Finder 并不会立即执行。它会先对查询进行一系列的"美容"操作，确保查询能够完美匹配知识图谱的结构。

这个过程就像是给查询做了个全身美容：

首先，整理查询的"发型"，去掉多余的空格，让查询看起来更整洁。
然后，给所有的属性值做个"小写字母"的发型，避免因大小写不匹配而找不到结果。
最后，还会给一些节点名称做个"同义词置换"的手术，确保使用的名称在图谱中确实存在。

比如，如果你说的是"高眼压"，但图谱中用的是"眼压过高"，Fact Finder 会很聪明地把查询中的"高眼压"替换成"眼压过高"。这就像是一个超级翻译官，不仅懂多种语言，还能理解各种同义词！

🕸️ 步骤 3：与知识图谱的对话

现在，美化过的查询终于可以去"拜访"知识图谱了。这个过程就像是在一个巨大的、复杂的迷宫中寻找宝藏。查询就是我们的地图，而知识图谱就是这个迷宫。

假设我们的查询成功了，可能会得到这样的结果：


{
  "medicine": ["Timolol", "Latanoprost", "Brimonidine"]
}

这个结果告诉我们，治疗眼压过高的药物包括噻吗洛尔、拉坦前列素和布莫尼定。但是，这样的结果对普通用户来说可能还是太"生硬"了。别担心，Fact Finder 还有后招！

💬 步骤 4：从冰冷数据到温暖回答

得到图谱的回答后，Fact Finder 又会召唤出它的语言模型伙伴。这次，语言模型的任务是把这些"生硬"的数据转化为友好、易懂的自然语言回答。

它可能会这样回答：

"根据知识图谱的信息，用于治疗眼压过高（也称为高眼压症）的药物主要包括三种：噻吗洛尔（Timolol）、拉坦前列素（Latanoprost）和布莫尼定（Brimonidine）。这些药物通过不同的机制来降低眼内压力，从而帮助控制病情。值得注意的是，具体的用药方案应该由眼科医生根据患者的具体情况来决定。"

看，这不是变得更加亲切易懂了吗？它不仅列出了药物名称，还加入了一些背景信息和温馨提示。这就像是把一堆干巴巴的数据变成了一个知心朋友的建议！

🎨 步骤 5：可视化证据，让答案更直观

除了文字回答，Fact Finder 还会生成一个漂亮的子图，直观地展示问题、答案和它们之间的关系。这就像是给答案配上了一幅精美的插图，让你一目了然地看到各种概念之间的联系。

graph LR A[眼压过高] -->|治疗| B[噻吗洛尔] A -->|治疗| C[拉坦前列素] A -->|治疗| D[布莫尼定] B -->|降低| E[眼内压力] C -->|降低| E D -->|降低| E

这个图不仅显示了哪些药物用于治疗眼压过高，还展示了它们的共同作用——降低眼内压力。这样的可视化让复杂的医学知识变得简单易懂，就像是给抽象的概念穿上了漂亮的衣服！

🖥️ 用户界面：知识的展示台

Fact Finder 的用户界面就像是一个精心设计的展示台，将所有这些精彩的元素完美呈现。想象一下，当你输入问题"哪些药物用于治疗眼压过高？"后，屏幕上会出现：

传统语言模型的回答
Fact Finder 基于图谱的回答
一个漂亮的子图，展示相关概念之间的关系
生成的 Cypher 查询（对于喜欢钻研技术的朋友）
图谱的原始回答（让你看到答案的"原料"）
使用的提示词（让你了解 AI 是如何"思考"的）

这就像是在一个科技博物馆里，不仅能看到最终的展品，还能了解到它们是如何被制造出来的。这种透明度不仅满足了我们的好奇心，还增强了我们对答案的信任。

🌈 结语：AI 与知识的完美融合

Fact Finder 的诞生，标志着我们进入了一个新的信息获取时代。它不仅能回答问题，还能展示推理过程，让我们真正理解答案的来源和可靠性。这就像是有了一个永不疲倦的研究助手，随时准备帮你探索知识的海洋。

在这个信息爆炸的时代，Fact Finder 为我们指明了一条通向真相的道路。它让我们看到，当 AI 的灵活与知识图谱的严谨相结合时，会碰撞出怎样绚丽的火花。让我们期待 Fact Finder 在未来能为更多领域带来革命性的变化，共同开创一个更智能、更透明的信息时代！

参考文献：

Fact Finder GitHub Repository, https://github.com/chrschy/fact-finder
Neo4j, "The Neo4j Cypher Manual v4.4", 2021
OpenAI, "GPT-4 Technical Report", 2023
Nickel, M. et al., "A Review of Relational Machine Learning for Knowledge Graphs", Proceedings of the IEEE, 2016
Ying, R. et al., "Graph Neural Networks: A Review of Methods and Applications", AI Open, 2021

Fact Finder 使用教程

1. 设置 PrimeKG Neo4j 实例

知识点：在使用 Fact Finder 之前，首先需要配置 PrimeKG Neo4j 实例。Neo4j 是一个流行的图数据库，它能够存储和查询高度互联的数据。PrimeKG 是一个特定的知识图谱实例，用于存储相关的医学和生物学数据。

解析：确保实例正确配置后，Fact Finder 才能正常工作。

速记句：配置 PrimeKG Neo4j 实例，打好 Fact Finder 的基础。

2. 安装依赖项

知识点：Fact Finder 的依赖项安装非常简单，只需运行一条命令。

解析：在终端中进入 Fact Finder 项目的根目录，然后运行以下命令来安装项目的所有依赖项：


pip install -e .

这条命令会自动安装项目所需的所有 Python 包，从而确保项目能够正常运行。

速记句：一条命令搞定依赖安装，轻松上手 Fact Finder。

3. 设置环境变量

知识点：Fact Finder 依赖于多个外部 API 进行部分功能的实现，如 OpenAI API、Semantic Scholar API 等。我们需要为这些 API 设置相应的环境变量。

解析：在终端中设置以下环境变量：


export LLM="gpt-4o"                 # 或者使用 "gpt-4-turbo"
export SEMANTIC_SCHOLAR_KEY=""      # 填写 Semantic Scholar API 密钥
export OPENAI_API_KEY=""            # 填写 OpenAI API 密钥
export SYNONYM_API_KEY=""           # Bayer 内部的 Linnaeusannotate 同义词 API 密钥
export SYNONYM_API_URL=""           # Bayer 内部的 Linnaeusannotate 同义词 API URL

这些环境变量用于配置 Fact Finder 与外部 API 的通信。

速记句：配置环境变量，Fact Finder 才能发挥全力。

4. 启动用户界面

知识点：Fact Finder 提供了一个基于 Streamlit 的用户界面，可以通过浏览器访问。

解析：运行以下命令启动用户界面：


streamlit run src/fact_finder/app.py --browser.serverAddress localhost

这样，Fact Finder 的用户界面将会在本地服务器上运行，你可以通过浏览器访问它。

速记句：启动用户界面，Fact Finder 就在你眼前。

5. 使用附加参数启动

知识点：在启动用户界面时，可以使用附加参数来激活某些高级功能，例如归一化图谱同义词的替换和实体检测预处理。

解析：你可以通过以下命令启动带有附加参数的用户界面：


streamlit run src/fact_finder/app.py --browser.serverAddress localhost -- [args]
streamlit run src/fact_finder/app.py --browser.serverAddress localhost -- --normalized_graph --use_entity_detection_preprocessing

这些参数允许你在查询图谱之前，基于归一化图谱应用同义词替换，或在生成 Cypher 查询之前，先进行实体检测。

速记句：使用附加参数，激活 Fact Finder 的高级功能。

6. 可用的标志选项

知识点：Fact Finder 提供了几个标志选项来控制其行为。

解析：

--normalized_graph: 在应用查询之前，基于归一化图谱进行同义词替换。
--use_entity_detection_preprocessing: 在生成 Cypher 查询之前，先进行实体检测，并用首选术语替换找到的实体。
--use_subgraph_expansion: 通过扩展周围的子图来扩展证据图。

速记句：标志选项让你更好地掌控 Fact Finder 的行为。

7. 从用户问题到自然语言答案的处理过程

知识点：Fact Finder 的核心功能是将用户问题转换为自然语言答案，并提供证据。这一过程分为五个主要步骤。

解析：

使用语言模型生成 Cypher 查询。模板中包含图谱的模式信息（节点及其属性），语言模型根据这些信息生成查询。
预处理生成的 Cypher 查询，主要包括格式化、属性值小写处理、同义词替换等。
使用预处理后的 Cypher 查询查询图谱，并将结果展示为证据。
使用语言模型将查询结果转换为自然语言答案。
生成子图作为用户的视觉证据，子图可以通过规则或语言模型生成。

速记句：五步法：生成、预处理、查询、生成答案、生成子图。

8. 用户界面展示

知识点：Fact Finder 的用户界面展示了基于图谱的查询结果、生成的 Cypher 查询、语言模型的答案以及相关子图。

解析：界面直观地展示了图谱查询的整个流程，并将图谱结果与语言模型的答案进行对比。用户可以同时看到生成的 Cypher 查询、图谱返回的答案以及对应的子图。

速记句：用户界面一目了然，Fact Finder 助你洞察全局。

总结

通过本教程，我们详细讲解了 Fact Finder 的安装与使用流程。我们从配置 PrimeKG Neo4j 实例开始，到安装依赖项、设置环境变量、启动用户界面，再到使用附加参数和标志选项，以及最终的用户界面展示，全面覆盖了 Fact Finder 的所有知识点。Fact Finder 是一个功能强大的工具，能够将复杂的用户问题转化为自然语言答案，并提供可视化的证据图谱。

参考文献：

Neo4j 介绍文档
Streamlit 官方文档
OpenAI API 文档
Semantic Scholar API 文档
Bayer Linnaeusannotate API 文档

希望这个教程对你有所帮助！如果你有任何进一步的问题，随时可以提问。

️‍♂️ 揭秘 Fact Finder：AI 与知识图谱的完美结合

🚀 Fact Finder：你的 AI 助手

🧠 步骤 1：从问题到查询的魔法转换

🔍 步骤 2：查询预处理，让搜索更智能

🕸️ 步骤 3：与知识图谱的对话

💬 步骤 4：从冰冷数据到温暖回答

🎨 步骤 5：可视化证据，让答案更直观

🖥️ 用户界面：知识的展示台

🌈 结语：AI 与知识的完美融合

Fact Finder 使用教程

1. 设置 PrimeKG Neo4j 实例

2. 安装依赖项

3. 设置环境变量

4. 启动用户界面

5. 使用附加参数启动

6. 可用的标志选项

7. 从用户问题到自然语言答案的处理过程

8. 用户界面展示

总结

相关帖子

使用 ROO CODE 与 Cursor 开发的心得

感觉 qwen3 的 moe 小模型 a3b 很有搞头

执笔马良 _ 小说生成器更新 _2

现在流行的 deepseek，各种多模态大模型与传统的机器学习和深度学习（sklearn 和 pytorch）是一回事吗？

万字探讨 Agent 发展真方向：模型即产品，Agent 的未来要靠模型而不是 Workflow

集市内容不更新就看不到更新的版本和更新的内容，这个操作不太方便

关于思源 PDF 标注功能的优化建议

欢迎来到这里！