一种基于梯度类激活映射的水下目标噪声源分类模型可解释性方法。第一部分:先对数据作预处理,再对于每一种类的音频,需要提取其每一帧的MFCC倒谱,将提取的倒谱堆叠后输入TDNN网络,得到每一种类音频的声纹特征。第二部分:先对声纹数据进行归一化处理;再运用有标签的归一化后声纹数据作为特征空间训练分类模型C<subgt;y</subgt;;最后在达到训练精度要求后保存模型参数。第三部分:首先使用整合梯度方法计算声纹特征的每个维度在该分类模型中的整合梯度大小,依次来作为其贡献度的指标;接下来,使用类激活映射方法,对特定卷积层输出的特征图的梯度进行全局平均池化,并生成热图;最后将两种方法所得结果结合起来,生成细粒度的可解释性结果。
背景技术
水下目标噪声源分类是当今一项重要的技术任务,其旨在从海洋环境中的复杂噪声背景中区分和识别不同的声源。这项技术在军事防御、海洋生态研究、水下工程和资源勘探等多个领域都有广泛的应用。其中涉及的关键技术主要有以下几点:1.声音信号捕捉。水下声源的信号通常通过阵列水听器或单一水听器收集。这些设备能够在复杂的海洋环境中捕捉来自不同方向和距离的声音。2.声纹特征提取。传统的声纹特征提取技术包括梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)、线性预测倒谱系数(linearpredictive cepstral coefficient,LPCC)和谱特征,这些特征帮助在处理过程中区分不同的声源类型。3.模式识别与机器学习。利用各种统计和机器学习算法来进行声源的分类,包括隐马尔可夫模型(HMM)、支持向量机(SVM)、决策树等,这些技术能够从提取的声纹特征中学习到区分不同声源的模式。随着近年来深度学习技术的不断发展,越来越多的研究者开始利用深度神经网络进行声源分类,特别是卷积神经网络(CNN)和循环神经网络(RNN),它们在处理声音数据方面显示出了卓越的性能。
然而,由于深度神经网络的复杂性和非线性,人们往往难以理解网络是根据频谱的哪些部分做出了分类决策。为了增加对模型的信任,提高调试模型和数据集的效率,研究者们开始把目光聚焦于水下目标噪声分类模型的可解释性这一领域。目前主流的可解释性方法主要有以下几类:1.梯度和激活相关的可解释性方法。2.模型后处理的可解释性方法。3.局部近似模型。4.逆向方法。对于第一类方法,Selvaraju和Smilkov在《Grad-CAM:VisualExplanations from Deep Networks via Gradient-based Localization》中提出了Grad-CAM方法,Sundararajan等人于《Axiomatic Attribution for Deep Networks》中提出了整合梯度方法。前者使用目标类别的梯度信息来加权卷积层的特征图,从而生成针对特定输出类别的热图,突出显示重要的区域;后者通过在输入特征和一个基线之间插值,并分析预测分数如何随输入的变化而变化来提供解释。对于第二类方法,这类方法不直接修改原始模型,而是在模型训练后,通过分析模型的输出和特征来提供解释,主要有特征重要性排名和偏差分析这两种方法。对于第三类方法,它的核心思想是在模型的预测周围构建一个简单的局部模型,这个局部模型易于解释,可以用来近似原模型的行为。对于第四类方法,主要有对抗样本方法,它通过对输入样本进行微小的修改来“欺骗”模型,分析模型对于轻微扰动的敏感性,从而提供洞察模型可能的脆弱性和偏差。这些可解释性方法都旨在找出输入数据中对模型分类影响最大的区域,在得到了这些区域后,研究者就可以对其进行重点研究,进一步提高模型的训练效果。但是,上述的几种方法都难以在水声数据的复杂情况下产生良好的解释,并且其本身也无法产生细粒度的可视化结果。
实现思路