流式语音识别技术:注意力机制与边界检测的融合
2025-01-16 13:40
No.1329446262986252288
技术概要
PDF全文
本技术方案专注于语音识别领域,提出了一种结合注意力机制与边界检测的流式语音识别方法。该方法首先对音频进行分割处理,提取特征生成对数梅尔频谱图,随后利用非流式模型进行处理,以实现高效的语音识别。
背景技术
自动语音识别技术通过将音频信号转录为文字内容,在科研和日常生活中扮演着重要角色。流式语音识别能够在音频流输入的过程中实时输出转录文本。而基于Transformer的语音识别模型,是将音频信号一次性转换为向量表示,然后通过解码器(Decoder)模块进行自回归解码。这类模型在非流式语音识别任务中表现出色,但用于流式语音识别时效果不佳,并且会消耗更多的计算资源。 一些传统方法为解决非流式模型在流式识别中的挑战,采用局部转录策略。通常是将音频分成小片段,模型对这些片段分别进行转录,并寻找多个片段转录内容中的最长公共前缀。虽然这类方法无需修改模型的参数和结构,且能实现较为有效的流式语音识别,但其在控制转录延迟性和不确定性上表现较弱,同时也带来了较大的计算开销。 在语音翻译领域,非流式模型的流式翻译同样是一个关键挑战。一些研究方法聚焦于Transformer模型中的注意力机制,以此来控制解码时机,判断音频帧的最大注意力权重是否接近音频片段末尾,或在末尾帧的注意力权重达到某个阈值。这种方式也可以应用于语音识别领域。相比于局部转录策略,基于交叉注意力的解码策略能够降低转录的延迟性。 然而,基于注意力机制控制解码的方式往往关注最大注意力权重的位置,但这种做法存在一定的准确性问题。仅关注最大注意力权重可能会忽略背景噪声,并导致模型陷入局部不稳定的区域。因此,应该扩展到更广域的权重值进行考量。此外,转录结果的可靠性也不完全保障。多个音频片段可能会切割一个完整单词,此时需要通过单词边界检测机制来防止这种情况发生。如果解码过程中出现过早停止的情况,边界检测也可以帮助纠正解码时机。一些方法通过线性层或循环神经网络(RNN)来检测转录内容的边界,但在处理复杂音频时,这类方法的表现欠佳,效率较低。同时,转录内容的不可靠性也会影响边界检测的效果。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
刘军平  王润鹏  谢浩  谢屈波
技术所属: 武汉纺织大学
相关技术
一种维纳增益的设计方法 一种维纳增益的设计方法
基于FPGA的深海水声数据压缩方法与装置 基于FPGA的深海水声数据压缩方法与装置
一种自适应感知的一维离散时间信号活动检测方法和系统 一种自适应感知的一维离散时间信号活动检测方法和系统
一种基于多域声学特征融合的说话人识别方法、装置及设备 一种基于多域声学特征融合的说话人识别方法、装置及设备
一种语音转换的信息处理方法和系统 一种语音转换的信息处理方法和系统
基于多尺度全局卷积网络的语音关键词识别方法及系统 基于多尺度全局卷积网络的语音关键词识别方法及系统
神经网络的训练方法、语音降噪方法、设备及存储介质 神经网络的训练方法、语音降噪方法、设备及存储介质
跨语言文本中实体语义识别处理方法、系统及存储介质 跨语言文本中实体语义识别处理方法、系统及存储介质
一种高效文字转语音的方法及系统 一种高效文字转语音的方法及系统
一种用于智慧呼叫的语义识别方法及系统 一种用于智慧呼叫的语义识别方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利