线性复杂度语音识别模型架构创新
2025-01-14 15:27
No.1328747428714913792
技术概要
PDF全文
本创新技术介绍了一种语音识别领域的新型线性复杂度模型架构。该架构中,AMLP分支采用MLP替代传统注意力机制,并引入注意力平均池化层,以维持线性复杂度并实现注意力权重的均匀分布,从而获取全面的全局特征。同时,卷积分支通过卷积空间门控单元增强局部特征关系,并与AMLP分支进行信息交互,将局部特征与全局特征混合,为全局特征补充局部细节。该技术通过在特征提取阶段提前融合局部和全局特征,有效解决了两者实时相互影响的问题。
背景技术
近年来,大量研究集中在对Conformer的结构改进,旨在进一步降低计算开销并提升识别性能。例如,Branchformer(Peng et al.,2022)通过引入并行分支对不同范围的上下文特征进行建模,其中一个分支采用卷积门控多层感知机(cgMLP)捕获局部上下文特征,另一个分支利用自注意机制捕捉长程特征依赖关系,Branchformer结构如图1所示, 但是该结构存在两个问题:第一,局部特征和全局特征完全分离的方式是主流模式,但这种进行局部特征和全局特征独立提取再拼接融合的方式,并没有解决全局特征和局部特征实时都在相互影响的问题,因此本文在提取局部特征和全局特征的同时,适当的在局部特征和全局特征提取处理时进行了提前融合,来解决全局特征和局部特征实时相互影响的问题。 第二,注意力计算复杂度高,对硬件设备依赖严重。MLP Mixer(Tolstikhin etal., 2021)通过固定大小的MLP在时间维度上进行令牌混合,在多个任务上展示了与多头自注意机制(MHSA)相媲美的性能(Choe et al., 2022)。但是,鉴于语音任务通常涉及可变长度的序列,MLP Mixer在语音任务中的应用受限,导致其性能表现不佳。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
刘葳  田志野  许春生  孙一鸣  陈纯毅
技术所属: 长春理工大学
相关技术
一种维纳增益的设计方法 一种维纳增益的设计方法
基于FPGA的深海水声数据压缩方法与装置 基于FPGA的深海水声数据压缩方法与装置
一种自适应感知的一维离散时间信号活动检测方法和系统 一种自适应感知的一维离散时间信号活动检测方法和系统
一种基于多域声学特征融合的说话人识别方法、装置及设备 一种基于多域声学特征融合的说话人识别方法、装置及设备
一种语音转换的信息处理方法和系统 一种语音转换的信息处理方法和系统
基于多尺度全局卷积网络的语音关键词识别方法及系统 基于多尺度全局卷积网络的语音关键词识别方法及系统
神经网络的训练方法、语音降噪方法、设备及存储介质 神经网络的训练方法、语音降噪方法、设备及存储介质
跨语言文本中实体语义识别处理方法、系统及存储介质 跨语言文本中实体语义识别处理方法、系统及存储介质
一种高效文字转语音的方法及系统 一种高效文字转语音的方法及系统
一种用于智慧呼叫的语义识别方法及系统 一种用于智慧呼叫的语义识别方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利