本技术提供了一种用于识别行人恐慌尖叫行为的音频特征识别方法及其装置。该方法首先从视频资料中分离出音频信号,接着提取音频信号中特定频段的特征,并分析其能量分布。随后,通过比较音频能量分布与预设阈值,实现对恐慌尖叫行为的准确识别。该技术能够有效辅助安全监控系统,提高对紧急情况的响应速度和准确性。
背景技术
随着公共场所配置网络监控摄像机覆盖率提升,音频数据丰富,基于音频特征的人体行人行为识别技术在公共场所人群稳定性研究领域得到了发展与应用。国内外学者对于人群疏散和突发事件的研究在上世纪初就已经开始,在各类公共场所突发事故中,行人容易受到环境影响陷入恐慌心理,并进而引发各类恐慌行为。鉴于此,本论文立足于现有的音频特征识别技术,考虑不同突发事故中可能出现的音频内容,分析行人在事故中的尖叫音频特征,将尖叫音频特征识别应用于恐慌人群行为分析和扰动传播研究,建立人群恐慌行为音频特征识别模型。为后续探索恐慌行为扰动对人群稳定性的动态影响打下基础,为公共场所人群流动安全研究提供新思路。
目前有关研究尚存在若干不足:
1.目前,对于行人音频特征识别的研究鲜有考虑慌乱情绪影响下音频内容表述失真或不完整的情况,缺少鲁棒性与环境适应性更强的恐慌行为音频特征判据。
2.现有的基于深度学习方法的恐慌人群行为分析相关研究大多基于人群肢体表现出的运动特征信息,通过音频数据提取声音频率、声音音调或语义内容等音频特征进行恐慌行为分析的较少。
实现思路