本技术介绍了一种应用于语音识别领域的多尺度全局卷积网络技术,用于识别语音中的关键词。该方法包括预处理步骤,通过预卷积块提取初步语音特征,以及后续的多尺度处理步骤,旨在提升语音关键词识别的准确性和效率。
背景技术
深度学习算法已迈入新阶段,在语音识别等认知任务中的准确性超越了人类。众多人工智能产品融入日常生活,显著提升了人们工作、学习和生活的效率。语音交互技术解放了双手和双眼,通过语音转换成文字来指令控制设备,如语音助手、命令控制、智能家居及手机等,在需多感官协同操作的场景下尤为高效。语音交互设备多处于待机状态,监测唤醒词以激活交互程序。此技术正引领未来科技生活潮流,从辅助工具演变为独立产品,展现了其飞速发展。
语音交互产品多为小型嵌入式设备,采用语音关键词识别模型检测唤醒词,要求模型内存占用小、计算量低且准确度高,以节省设备电量。然而,实验室安静环境下的测试与现实环境中的噪声干扰存在巨大差异,导致模型准确性大幅下降。因此,在噪声环境下保持高性能至关重要,关系到用户能否在开放场景中顺利与设备交互。鉴于现实生活中的噪声不可避免,构建轻量级且噪声鲁棒性强的语音关键词识别模型成为亟待解决的问题。
基于深度学习的语音关键词识别模型,通过深度神经网络架构、数据集及数据增强技术提升准确率。这些模型学习语音特征表示,通过大规模数据集训练适应各种发音、口音和说话方式,提高鲁棒性。数据增强技术引入噪声和变换,使模型在噪声环境下表现优异。优化模型结构和参数可降低内存占用,实现更轻量级的模型。目前,技术主要分为两类:
一是基于卷积的语音关键词识别模型,如BC-ResNet,利用卷积核捕捉音频信号的局部特征和频率信息,具有参数少、计算效率高的优点。但卷积核仅感受局部信息,可能忽略全局上下文,导致鲁棒性较低,易受噪声、口音或语速变化影响。
二是基于注意力模型的语音关键词识别模型,如AST模型,动态分配权重关注输入序列中的重要信息,捕捉长距离上下文和关键语音信号,适应噪声环境和口音变化。但参数较多,占用内存大,增加过拟合风险,需更多数据进行有效训练。
此外,日常场景中的混响(声波反射、折射和衰减)也会降低识别准确率。混响导致原始声音与反射声音重叠,且重叠通常局部发生。噪声表现为时域内的振幅波动和频域内的额外频率成分。然而,当前模型采用的串行堆叠频域卷积和时域卷积方法可能导致信息损耗,影响后续特征提取。
实现思路