本技术介绍了一种创新的语音分类技术,该技术通过语音语料对齐和自适应融合实现高效分类。首先,构建并划分语音分类数据集为训练集与测试集。接着,设计包含对齐构造模块的语音分类网络模型,该模型能够处理语音关联性并提升分类准确性。
背景技术
语音分类对于企业了解用户真实情况、构建用户画像具有重要意义。传统的语音分类方法以高斯混合模型、隐马尔科夫模型为主,随着计算机技术的发展,通过深度网络进行语音分类被视为一种新的、可行的、高效的方法。现有方法通常将长信号划分为多个片段并独立送入网络参与训练,或是将语音等距离切割后分别提取特征再送入RNN、LSTM等时序模型。将属于同一语音信号的多个片段作为独立样本的做法忽视了完整语音中不同时间段信号间的相互联系,并且存在部分与语音分类无关的片段,将对模型的优化产生负面干扰;等距离切割获取片段则会导致连贯的发音被强行拆分,并且亦会受到无关片段的干扰。
因此,本发明提出了一种基于语音语料对齐与自适应融合的语音分类方法,旨在充分利用语音的各部分,降低无关信息对语音分类的负面影响,在样本各部分间构建关联性,自适应的从长序列信号中提取出与语音分类相关程度高的信息。首先,基于语音对齐技术对原始语音进行划分并在各片段上独立获取隐层特征,以保证不同样本相同位置片段内容一致,降低内容差异带来的影响;其次,使用注意力机制对不同片段以及完整语音间的关系进行建模,以充分利用不同粒度的信息;最后,通过挖掘各片段对分类结果的重要程度,降低语音无关部分对分类效率的影响。
实现思路