本技术方案专注于提升大语言模型在多跳问题上的推理问答能力。旨在克服现有技术中推理准确度不足的问题,本技术通过一系列创新方法,显著提高大语言模型的推理准确性。
背景技术
在2022年11月openAI发布chatGPT以来,大语言模型迅速受到来自全球资本市场的广泛关注,在接下来不到两年的时间里,各家科技巨头公司纷纷跟进,提出自己的模型。在这场全球范围内的“百模大战”中,模型在复杂问题上的问题解决能力是评判模型综合能力最重要的指标之一。无论是国外OpenAI的GPT系列模型,还是国内百度的文心一言以及月之暗面的kimi,无一例外地在各种公开的推理评测数据集上刷新着模型得分数据,以证明自己的模型是否会比竞争对手的模型“更加聪明”。显而易见地,即使是目前最先进的GPT系列模型,它们在处理知识密集型多跳问题时仍然面临着一些挑战。这些问题不仅限制了模型的推理能力,也影响了其在实际应用中的可靠性和有效性。
对于知识密集型的需要多跳推理的复杂问题,提升大语言模型的推理能力,有两个主要的方向,一个方向是针对提示词的改进策略,而另一个方向是对模型进行检索增强。提示词的改进策略中最著名的,莫过于Wei等人在2022年提出的思维链(CoT)提示,这促使LLM在最终回答之前生成推理过程,能够明显提高模型推理能力,提高回答的准确率。还有一些工作通过设计特定的指令或通过聚类演示来帮助模型在没有直接训练的情况下进行推理,即在零样本学习的场景下进行有效的任务执行。此外,通过广泛的实验证明,自我集成策略也是提高大模型推理性能的有效方法。具有代表性的方法有2023年Wang等人提出的使用概率抽样方法进行多条推理,以及在2023年Qin等人通过多语言思维链条来多样化推理路径。对于复杂问题的解决,有代表性的策略有2023年Zhou等人提出的问题分解并逐步解决的思想,以及同年Yao等人提出的将推理过程建模为在推理树上的BFS或DFS搜索的策略。
目前最先进的大语言模型服务,在面对复杂问题时,除了提示词策略上的设置,还会同时使用检索增强推理的方法。尤其当模型面对知识敏感任务时,很可能会出现事实性幻觉的问题,检索增强推理的方法可以大大缓解这种现象。早期工作中大多采用单次检索的方案,但他们难以收集所有必要的知识来回答复杂问题,导致知识遗漏。为了解决这一问题,迭代检索的方法被进一步提出。在2022年Khattab等人提出DSP方案,该方案通过程序定义的过程在检索器和阅读器之间进行迭代交互。在2023年Press等提出SelfAsk方案,即通过Google搜索迭代地分解问题并解决它们。同样是在2023年Trivedi等提出了IRCoT方案,该方案使用每个推理步骤作为检索的查询,直到获得最终答案。类似地,2023年Shao等人提出了ITER-RETGEN方案,即通过将上一轮的输出与原始问题连接起来进行迭代检索。在2023年Jiang等人提出FLARE方案,该方案引入了前瞻机制,根据推理置信度动态控制检索的时机。2023年Zhang等人提出了Beam Retrieval方案,引入了一个端到端的框架,旨在通过波束搜索在每个问题的每一跳中检索相关段落。与此同时,一些工作通过将问题分解为QDMR格式来实现更精确的检索或者是将问题分解为树形结构,而在2023年Park等人则是通过构建了推理图来作为解决方案。
然而,上述的策略仍然存在着显著的问题。迭代检索难以实现与模型推理精确对齐的检索,而子问题检索则难以准确聚合答案,这可能导致级联错误,即一个子问题的错误会导致整个问题的最终错误。此外,在开放域设置中,现有技术对于复杂问题仅依赖单一来源的知识,这会使得大语言模型对于某些领域的知识缺乏和不够全面,导致最终的推理答案依据不足,不够准确。但是,引入多源知识又可能会遇到知识冲突,使有效的协作变得困难,在推理的过程中,存在矛盾的外部辅助知识会严重影响模型的推理判断,导致最终结果输出的不稳定甚至完全错误。因此现有的大语言模型推理问答方法还存在面对多跳问题推理准确率低的问题。
实现思路