本创新技术介绍了一种语音识别领域的新型线性复杂度模型架构。该架构中,AMLP分支采用MLP替代传统注意力机制,并引入注意力平均池化层,以维持线性复杂度并实现注意力权重的均匀分布,从而获取全面的全局特征。同时,卷积分支通过卷积空间门控单元增强局部特征关系,并与AMLP分支进行信息交互,将局部特征与全局特征混合,为全局特征补充局部细节。该技术通过在特征提取阶段提前融合局部和全局特征,有效解决了两者实时相互影响的问题。
背景技术
近年来,大量研究集中在对Conformer的结构改进,旨在进一步降低计算开销并提升识别性能。例如,Branchformer(Peng et al.,2022)通过引入并行分支对不同范围的上下文特征进行建模,其中一个分支采用卷积门控多层感知机(cgMLP)捕获局部上下文特征,另一个分支利用自注意机制捕捉长程特征依赖关系,Branchformer结构如图1所示,
但是该结构存在两个问题:第一,局部特征和全局特征完全分离的方式是主流模式,但这种进行局部特征和全局特征独立提取再拼接融合的方式,并没有解决全局特征和局部特征实时都在相互影响的问题,因此本文在提取局部特征和全局特征的同时,适当的在局部特征和全局特征提取处理时进行了提前融合,来解决全局特征和局部特征实时相互影响的问题。
第二,注意力计算复杂度高,对硬件设备依赖严重。MLP Mixer(Tolstikhin etal., 2021)通过固定大小的MLP在时间维度上进行令牌混合,在多个任务上展示了与多头自注意机制(MHSA)相媲美的性能(Choe et al., 2022)。但是,鉴于语音任务通常涉及可变长度的序列,MLP Mixer在语音任务中的应用受限,导致其性能表现不佳。
实现思路