本技术介绍了一种结合KL散度和置换检验的异常检测与漂移解释方法。该方法首先使用零阳性样本集训练自编码器,然后将待检测样本通过自编码器压缩为低维表示,进而利用孤立森林算法进行异常检测和漂移解释。
背景技术
在异常检测领域,概念漂移指的是随着时间的推移,数据的统计特性或关系发生变化的现象。这种变化可能是由外部环境的变化、数据生成过程的演化、观察偏差或噪声引起的。概念漂移对模型的影响主要体现在它引起了数据分布的变化,导致模型在面对新的数据分布时可能无法有效地捕捉到新的异常模式或变化。这可能导致模型退化、决策偏差和模型更新困难。现阶段概念漂移检测与解释主要有基于错误率的角度,这类方法通过监控分类器错误率的变化来检测漂移。例如,漂移检测算法DDM(Drift Detection Method)算法就是通过比较当前错误率与预设阈值来判断是否发生漂移。这种方法的优点在于实现简单,但缺点是对突然的漂移变化敏感度不高,且在数据本身波动较大时容易产生误判。除此之外,还有基于数据分布的角度进行检测,这类方法直接比较数据分布的变化,如使用KL散度或卡方检验。它们能够捕捉数据分布的细微变化,但计算复杂度较高,且对数据的分布形态有一定假设。
山东省计算中心在其申请的专利文献“一种面向概念漂移的可适应可解释的工控系统异常检测方法”(申请号202310809566.8申请公布号为CN 116991137 A)中公开了一种工控系统的概念漂移检测方法。该方法通过获取不同时期的工控数据样本,包括历史数据和新数据,用于训练异常检测模型,并保存训练参数。校准异常检测模型的输出结果,并进行漂移检测,判断数据流中是否存在概念漂移。对检测到的漂移进行解释,以便于理解数据变化的原因。将发生概念漂移的新样本与旧样本中仍然相关的部分结合起来,重新训练异常检测模型,以适应数据分布的变化。该专利方法的优点在于能够判断和适应概念漂移,减少模型的误报率,并且通过解释漂移的原因,提高了模型的可解释性。但是,该方法仍然存在的不足之处是,检测过程中需要较大的计算资源来处理和分析大量的工控数据,且在实际应用中需要不断调整和优化模型参数,以适应不断变化的数据环境。此外,对于快速变化的工控系统,该方法的实时性能和准确性面临挑战。
浙江大学嘉兴研究院在其申请的专利文献“一种基于无监督学习的概念飘移缓解方法及装置”(申请号202311825338.6申请公布号CN 117807437 A)中公开了一种概念漂移检测方法。该方法的实现步骤是,1)通过恶意应用分类器的训练样本训练一个无监督学习的自编码器,对于待测样本,使用所述自编码器计算其与各训练样本类别中心的距离,实现漂移样本检测;2)对于检测出的漂移样本,利用特征归因技术,基于各个特征对于漂移检测的贡献,实现样本漂移原因的解释;3)选取漂移样本与解释结果进行标注,利用主动学习框架更新所述恶意应用分类器;4)利用更新后的恶意应用分类器进行软件的分类。该方法通过对训练样本的自编码拟合,实验测试样本漂移的实时检测,并且加入了一个可解释模块,利用嵌入距离计算特征贡献,极大地降低了主动学习框架中的人工标注成本。但是,该方法仍然存在的不足之处是,通过计算待测样本与训练样本类别中心的距离进行漂移检测,难以捕捉复杂或非线性的数据分布变化,尤其是在高维度、噪声较大的数据环境中,较易出现误报或漏报的情况。此外,特征归因模块的计算复杂度较高,会影响大规模实时检测的效率,尤其是在面对大规模数据时,系统的资源消耗与响应速度将成为最大的瓶颈。
综上所述,现有技术在数据漂移检测与异常检测中存在以下四个明显的缺点:1.传统的漂移检测方法如基于分类器错误率的检测,灵敏度不高,尤其在数据波动较大时容易产生误报,无法有效捕捉微小的分布变化,影响检测精度。2.现有技术往往仅能检测到数据漂移的发生,但无法明确识别导致漂移的具体原因或样本和特征,缺乏对漂移成因的解释力。3.在处理大规模、高维数据时,现有检测方法的计算复杂度高,资源消耗大,导致检测效率低下,无法实现实时响应。4.现有技术大多依赖大量标记数据,在无监督学习环境下表现较差,无法灵活适应无标注数据的漂移检测。
实现思路