基于梯度类激活映射的水下目标噪声源分类模型可解释性方法
2025-02-27 20:06
No.1344763179225587712
技术概要
PDF全文
一种基于梯度类激活映射的水下目标噪声源分类模型可解释性方法。第一部分:先对数据作预处理,再对于每一种类的音频,需要提取其每一帧的MFCC倒谱,将提取的倒谱堆叠后输入TDNN网络,得到每一种类音频的声纹特征。第二部分:先对声纹数据进行归一化处理;再运用有标签的归一化后声纹数据作为特征空间训练分类模型C<subgt;y</subgt;;最后在达到训练精度要求后保存模型参数。第三部分:首先使用整合梯度方法计算声纹特征的每个维度在该分类模型中的整合梯度大小,依次来作为其贡献度的指标;接下来,使用类激活映射方法,对特定卷积层输出的特征图的梯度进行全局平均池化,并生成热图;最后将两种方法所得结果结合起来,生成细粒度的可解释性结果。
背景技术
水下目标噪声源分类是当今一项重要的技术任务,其旨在从海洋环境中的复杂噪声背景中区分和识别不同的声源。这项技术在军事防御、海洋生态研究、水下工程和资源勘探等多个领域都有广泛的应用。其中涉及的关键技术主要有以下几点:1.声音信号捕捉。水下声源的信号通常通过阵列水听器或单一水听器收集。这些设备能够在复杂的海洋环境中捕捉来自不同方向和距离的声音。2.声纹特征提取。传统的声纹特征提取技术包括梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)、线性预测倒谱系数(linearpredictive cepstral coefficient,LPCC)和谱特征,这些特征帮助在处理过程中区分不同的声源类型。3.模式识别与机器学习。利用各种统计和机器学习算法来进行声源的分类,包括隐马尔可夫模型(HMM)、支持向量机(SVM)、决策树等,这些技术能够从提取的声纹特征中学习到区分不同声源的模式。随着近年来深度学习技术的不断发展,越来越多的研究者开始利用深度神经网络进行声源分类,特别是卷积神经网络(CNN)和循环神经网络(RNN),它们在处理声音数据方面显示出了卓越的性能。 然而,由于深度神经网络的复杂性和非线性,人们往往难以理解网络是根据频谱的哪些部分做出了分类决策。为了增加对模型的信任,提高调试模型和数据集的效率,研究者们开始把目光聚焦于水下目标噪声分类模型的可解释性这一领域。目前主流的可解释性方法主要有以下几类:1.梯度和激活相关的可解释性方法。2.模型后处理的可解释性方法。3.局部近似模型。4.逆向方法。对于第一类方法,Selvaraju和Smilkov在《Grad-CAM:VisualExplanations from Deep Networks via Gradient-based Localization》中提出了Grad-CAM方法,Sundararajan等人于《Axiomatic Attribution for Deep Networks》中提出了整合梯度方法。前者使用目标类别的梯度信息来加权卷积层的特征图,从而生成针对特定输出类别的热图,突出显示重要的区域;后者通过在输入特征和一个基线之间插值,并分析预测分数如何随输入的变化而变化来提供解释。对于第二类方法,这类方法不直接修改原始模型,而是在模型训练后,通过分析模型的输出和特征来提供解释,主要有特征重要性排名和偏差分析这两种方法。对于第三类方法,它的核心思想是在模型的预测周围构建一个简单的局部模型,这个局部模型易于解释,可以用来近似原模型的行为。对于第四类方法,主要有对抗样本方法,它通过对输入样本进行微小的修改来“欺骗”模型,分析模型对于轻微扰动的敏感性,从而提供洞察模型可能的脆弱性和偏差。这些可解释性方法都旨在找出输入数据中对模型分类影响最大的区域,在得到了这些区域后,研究者就可以对其进行重点研究,进一步提高模型的训练效果。但是,上述的几种方法都难以在水声数据的复杂情况下产生良好的解释,并且其本身也无法产生细粒度的可视化结果。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
吴国伟  张海涵
技术所属: 大连理工大学
相关技术
一种游戏事件提示方法 一种游戏事件提示方法
语音生成方法、装置、设备、存储介质及产品 语音生成方法、装置、设备、存储介质及产品
深度学习辅助的枪声检测与定位方法 深度学习辅助的枪声检测与定位方法
一种基于多层神经网络的多声音事件检测方法 一种基于多层神经网络的多声音事件检测方法
一种基于模态自适应学习的多模态课堂情感识别方法及系统 一种基于模态自适应学习的多模态课堂情感识别方法及系统
一种基于BERT预训练语言模型的语音指令识别方法 一种基于BERT预训练语言模型的语音指令识别方法
复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统 复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统
基于梯度类激活映射的水下目标噪声源分类模型可解释性方法 基于梯度类激活映射的水下目标噪声源分类模型可解释性方法
语音交互方法、服务器及计算机可读存储介质 语音交互方法、服务器及计算机可读存储介质
一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质 一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利