Banner

在 RAG 应用中,GPT-3.5 是否足够?


问题: 有人说,对于搭建企业本地知识库,比如使用 RAG(Retrieval-Augmented Generation)方式,国内几家大模型都可以胜任。如果用 GPT-4 的话,有点像“杀鸡用牛刀”,关键在于应用端的调教。这个观点是否正确?

结论: 这种说法有一定道理,GPT-3.5 确实可以胜任大部分场景。然而,用 GPT-4 并不是“杀鸡用牛刀”,而更像是“如虎添翼”,甚至可以在某些情况下带来质的飞跃。

细节分析:RAG 和 GPT-4 的优势

RAG 的原理并不复杂。通常,我们先对文档进行预处理,以方便检索。文档被分块后,会使用 Embedding 将文本向量化处理。当用户提问时,同样对问题进行 Embedding,找到相关文档,再交给大语言模型来整理并返回给用户。对于大部分这种基于检索的内容生成任务,GPT-3.5 就可以很好地完成。

然而,RAG 的实现中有许多细节,例如如何分块、如何检索、如何将结果交给大语言模型生成。这些方面都有所不同,接下来,我们聚焦于与大语言模型相关的部分:

1. 借助大语言模型进行检索预处理

如果直接将用户的问题做 Embedding 并送入向量数据库,检索效果通常不理想。原因在于,用户提问的方式多种多样,语义可能不清晰,有时甚至包含多个子问题。因此,需要大语言模型对用户的问题进行预处理,提炼出核心问题并分解为多个子问题。GPT-4 在这方面的表现明显优于 GPT-3.5,结果更精准。

2. 借助大语言模型进行排序(Ranking)

在检索出大量相关结果后,有些结果与用户问题高度相关,而有些则相对不太相关。这时需要对检索结果排序,只返回最相关、最重要的信息给大语言模型进行总结。这也是大语言模型展现其能力的场景,尽管 GPT-3.5 可以完成这一任务,但 GPT-4 的效果更佳。

3. 汇总检索结果

当把检索结果交给大语言模型时,模型需要根据用户的问题和相关资料进行汇总,以给出符合用户期望的答案。这时,大语言模型的能力再次发挥作用。模型越强,生成的回答越准确,幻觉现象(错误回答)也越少。此外,大语言模型本身的知识库也会影响结果。GPT-4 相比 GPT-3.5 拥有更大的知识库,能够更全面地涵盖问题的各个方面。

总结

总的来说,GPT-3.5 足以在 RAG 场景中胜任大多数任务,但 GPT-4 的表现会更优。它在检索预处理、排序、汇总等方面都更为出色,并非“杀鸡用牛刀”,而是可以显著提高应用的质量。