本技术涉及一种深度学习辅助的枪声检测与定位方法,属于声音定位技术领域,包括枪声检测阶段和声源到达方向(DOA)估计阶段;在枪声检测阶段利用卷积神经网络(CNN)对捕获的声音信号进行分类,对于属于枪声的声音信号,再进入DOA估计阶段,利用CNN定位枪声的声源到达方向;本发明将接收信号的多声道语谱图作为输入特征,具有灵活、成本低的特点,可以从更长期的角度获取接收到的声音信号的更多信息,也更好地利用基于CNN的深度学习网络,而且只需要很小尺寸的双麦克风即可满足DOA估计的输入要求。
背景技术
在反恐及安全领域,准确识别枪支攻击的发生及其方向至关重要。为实现这一目标,科研人员探索了多种技术手段。
一种直观的方法是利用光电传感器捕捉如枪口等可见迹象,然而这种方法不仅可能带来系统成本和体积的增加,而且作为视距探测设备,其性能易受周围障碍物干扰。另一种思路则是利用声学手段,通过部署声学探测传感器来完成任务。声学方法在尺寸和成本上具有优势,但嘈杂环境可能对其造成不利影响。
近年来,人们提出了多种枪声检测和定位方法。传统方法通常尝试在时域上追踪枪声信号,如冲击波和枪口爆炸的迹象,这些信号具有高声压级,通常表现为脉冲噪声。有研究通过在不同位置布置麦克风传感器阵列,利用声波信号到达各传感器的时间差来确定枪声位置。这种方法的有效性已在模拟和实场测试中得到一定验证,但在噪声环境下的表现仍需进一步评估。
此外,还有研究利用信号分析和处理技术进行枪声检测和定位。例如,提出一种基于非负矩阵分解(NMF)方法的声源检测系统,并在定位阶段采用修改后的可控响应功率相位变换(SRP-Phat)方法。然而,该系统在脉冲噪声环境下的精度仍有待提高。
近年来,深度学习在计算机视觉和自然语言处理等领域取得了显著成果。受此启发,有研究将深度学习应用于声事件检测(SED)和声源到达方向(DOA)估计,提出了基于卷积神经网络(CNN)的方法。SED和DOA是枪声检测和定位的一般概念,尽管在基于神经网络的枪声检测方面已有一些尝试,如通过计算系数提取声音信号特征进行预测,或利用声音信号的二维可视化训练CNN进行检测,但这些方法在实际应用中的噪声类型考虑不够全面,可能影响其在现实世界的性能。
实现思路