原文:The GraphRAG Manifesto: Adding Knowledge to GenAI - Graph Database & Analytics
作者:Philip Rathle
进入 RAG 的“蓝色链接”时代
在当前生成式 AI (GenAI) 的发展阶段,仅靠自回归的大语言模型 (LLMs) 来决策已经难以满足需求。尽管技术如基于向量的 RAG 或微调模型在某些用例中表现良好,但在另一类应用场景中却难以提供精确且具确定性的答案。向量化 RAG 和微调模型提高了找到正确答案的可能性,但缺乏上下文、细节以及与已知事实的联系。同时,它们往往无法解释为什么会做出特定的决策。
早在 2012 年,Google 发布了一篇关于其知识图谱的博客文章“Introducing the Knowledge Graph: things, not strings”。他们发现,通过用知识图谱来组织网页中的字符串,可以实现显著的进步。现今的 GenAI 项目也面临类似的瓶颈,因为它们依赖的仍然是字符串的处理,而非对具体事物的理解。AI 工程师和研究人员发现,解决这一瓶颈的关键在于将知识图谱融入基于文本的统计技术中,这被称为 GraphRAG。
本文将全面且易于理解地介绍 GraphRAG。研究表明,将知识图谱融入 RAG,可以显著提高生成式 AI 的结果质量。GraphRAG 还简化了应用程序的开发过程,并增强了系统的可解释性和可审计性,这在许多行业中至关重要。相信 GraphRAG 将成为大多数应用场景的默认 RAG 架构。
什么是图?
图是一种表示事物及其关系的结构。以下是一些示例:
- •知识图谱的示例。
- •《权力的游戏》中的人物关系图。
- •伦敦地铁图。
如果你理解这些示例,就能理解在 RAG 管道中如何查询基础知识图谱数据(图数据库)。这正是 GraphRAG 的核心概念。
向量与图:两种知识表示方式
典型的 RAG 使用向量搜索,通过比较文本的概念相似性来检索相关信息。然而,向量表示仅适用于词组间的相似性比较,缺乏上下文和详细信息。相比之下,知识图谱是一种符号化的表示方式,使人类和机器都能理解和推理其中的知识。这为我们提供了新的查询方式和推理能力。
GraphRAG 与 RAG 的关系
GraphRAG 并非是向量 RAG 的替代,而是其扩展。GraphRAG 在检索过程中引入了知识图谱,通过与向量查询的结合,使检索更加丰富。其流程通常包括:向量搜索、图谱遍历、图排序等步骤。这使得 GraphRAG 可以在大语言模型中提供更高的准确性和更详细的答案。
使用 GraphRAG 的好处
GraphRAG 具有以下三大优势:
- •更高的准确性和更完整的答案:基于图谱的检索结果更具准确性和实用性,尤其在需要理解复杂数据集合的场景中,GraphRAG 表现优异。
- •更容易的数据理解与加速迭代:知识图谱直观易懂,便于开发者探索和调试生成式 AI 应用。
- •更强的治理能力:知识图谱提高了生成式 AI 的可解释性、安全性和隐私性,确保了决策的透明性和可追溯性。
GraphRAG 的应用与未来发展
为了构建图谱并使用 GraphRAG,可以使用如 Neo4j 的 LLM Knowledge Graph Builder 等工具。通过这些工具,可以从 PDF、网页和视频等非结构化数据中创建知识图谱。随着生成式 AI 技术的进步,GraphRAG 有望成为生成式 AI 应用的新标准,在未来的 AI 发展中发挥重要作用。
对于想要深入了解 GraphRAG 的人,可以尝试使用 Neo4j 提供的 LLM Knowledge Graph Builder,将知识图谱集成到生成式 AI 应用中,体验其带来的显著提升。
致谢与进一步阅读
本文参考了大量领域专家的研究和实践经验。在此,感谢所有贡献者,特别是 AI 和图数据库领域的专家们,如 Harrison Chase、Ali Ghodsi、Rod Johnson、Douwe Kiela 等。欲了解更多关于 GraphRAG 的信息,可以参阅相关博客、课程和 Neo4j 的工具文档。
GraphRAG,正引领着生成式 AI 的未来!