本技术提出了一种利用大语言模型的日志分析与检索优化技术及其设备。该技术通过从目标日志中提取日志向量,并结合检索增强生成和前缀解析树,在日志模板库中进行匹配,以实现高效的日志解析和检索。
背景技术
随着计算机技术的发展,在分布式系统、超算、服务器应用程序或者各种软件中生成了数以百万计甚至千万的日志数据。日志是系统在运行过程中自动生成的记录文件,记录了系统的各种事件、操作和状态信息。它们在系统诊断、安全分析和性能优化中具有重要意义,因为它们提供了系统行为的详细记录,帮助工程师识别和解决问题。从日志中提取可操作的部分在很大程度上取决于日志解析过程,该过程将原始日志转换为结构化格式——日志模板以供下游任务使用,如异常检测、故障原因分析等。
然而,现代系统不断发展迭代导致日志模板变化加快,出现大量的新日志,复杂性极大提高,对已有的自动解析技术构成了重大挑战。大语言模型(LLM)的出现提供了新的方法。凭借预训练阶段学习到的广泛知识,大模型拥有了上下文理解能力,具备处理日志数据的条件,泛化能力较强。
但基于LLM的解析方法需要大量的计算资源和训练数据,提高了操作成本,而且基于LLM的逐行解析方法也带来了较高计算开销。
实现思路