本技术公开了一种面向检索增强生成系统的错误定位方法、电子设备、介质,包括:获取检索增强生成系统的中间执行结果,包括:用户问题、原始检索相关文档、模型响应、标准答案;将原始检索相关文档插入第一提示词模板中,输入至第一大语言模型,提取原始检索事实三元组;将所有原始检索事实三元组插入第二提示词模板中,输入至第二大语言模型,判断所有原始检索事实三元组能否推导答案以回答用户问题;若能推导答案,则判定检索增强生成系统中的检索器正常;反之,则判定检索器异常;将用户问题、模型响应、标准答案、原始检索事实三元组输入至第三大语言模型中,判定模型响应的准确完整性,从而判断检索增强生成系统中的大语言模型是否异常。
背景技术
检索增强生成模型(Retrieval Augmented Generation,RAG)是一种结合了信息检索与自然语言生成的混合系统,广泛应用于开放领域问答、知识答疑等任务中。RAG模型通过检索模块从外部知识库中获取相关文档,然后重排序模块对相关文档筛选最相关的文档,再由生成模块结合检索结果生成回答,以此提升生成内容的准确性和丰富性。然而,RAG系统的复杂性也导致其在实际应用中面临多个挑战,例如,检索模块可能无法找到与查询高度相关的文档,生成模块可能生成不准确的回答,或者重排序模块未能正确排序最相关的结果。这些问题的存在使得RAG系统的输出质量难以保证,且定位具体问题模块变得尤为困难。
目前,对于RAG系统的错误诊断主要存在以下困难:
(1)模块化的复杂性:RAG系统由检索器和生成器组成,各个模块共同相互作用,共同影响整个系统最终的性能。
(2)传统指标的缺陷性:在现有的评估RAG系统的方法中,大多基于规则且依赖严格的人工标注结果,具体而言,检索器的传统指标(如 recall@k 和 MRR)需要提前定义正确检索的文本块,而粗粒度的文本对齐忽略了检索文本的语义相关性。对于生成器,基于n-gram(例如 BLEU、ROUGE)、基于嵌入(例如 BERTScore)的指标无法捕捉到响应与标准回答中细微的区别。
(3)无法溯因错误模块:由于模块之间相互影响,传统RAG系统的评估方法仅仅给出各模块的量化统计指标,难以有效捕捉 RAG 系统中检索和生成组件的复杂性和整体质量。对具体RAG生产环境而言,量化指标无法精确识别出导致系统性能下降的具体模块。
以一个具体的例子来说,假设一个RAG系统在回答用户关于“全球变暖的主要原因”的问题时,生成的答案与检索的文档内容不一致,生成的回答可能强调了一些非主要因素而忽略了关键因素。这种情况下,可能是检索过程出错,也可能是生成模块产生了幻觉现象(即生成了与检索信息无关的内容)。
因此,亟需提供一种能精确定位检索增强生成系统错误来源的方法,可以发现是检索增强生成系统中的检索模块未能找到合适的相关文档,还是生成模块在理解和总结检索信息时出现了偏差,从而帮助识别问题的具体来源,识别和分析各模块中的潜在问题。
实现思路