创新英语口语识别技术：系统、设备、介质及程序产品

123技术园

首页 / 技术内容

2025-02-10 20:13

No.1338603721151750144

技术概要

PDF全文

本技术涉及一种创新的英语口语识别解决方案，覆盖方法、系统、设备、介质及程序产品。该技术专注于语音识别领域，通过提取音频的时间和频率特征，并运用维度变换技术，实现精准的口语识别。

背景技术

语音识别是一种将语音信号转换为文本或命令的技术，也被称为自动语音识别（）。语音识别系统能够将说话者的口头语音转换为书面文本，使计算机能够理解和处理语音输入。在深度学习技术兴起之前，语音识别主要采用传统的信号处理和模式匹配技术。模式匹配技术包括动态时间规整和隐马尔可夫模型，这些技术用于对语音信号的特征进行建模和匹配，以识别说话者的语音。然而，传统的语音识别方法存在一些显著的缺点。首先，这类方法通常基于有限的词汇和手工设计的语法规则，限制这类方法在处理广泛的词汇和更自由的语言表达时的能力。其次，这类方法依赖手工设计的特征提取方法，如梅尔倒谱系数和线性预测编码，这些特征提取方法需要领域专业知识，且可能无法充分捕捉语音信号中的抽象特征。最后，这类方法所采用的模型如高斯混合模型和隐马尔可夫模型在捕捉复杂的语音模式和长期依赖性方面存在一定的局限性。深度学习模型能够更好地处理复杂的语音模式、更大规模的数据集，并且对环境噪声更具鲁棒性。不过尽管基于深度学习的语音识别方法取得了显著的效果，但也仍存在着一些不足，如模型主要对音频数据的时间维度进行依赖性计算、数据量不足会导致模型的实际识别效果不佳等。例如，在语音识别领域的一种新颖的卷积增强架构。由于能够从音频信号中同步捕获全局特征和局部特征，使得模块不仅成为任务的常用模型，而且还成为各种端到端语音处理任务的模型。但是，其大部分模型功能都分配给了时间建模，具体表现是时间维度的依赖性计算，而语音虽然是时间序列信号，但与文本数据不同的是，语音信号的特征是时频域的，因此频域也起着另一种不可或缺的作用。另外，深度神经网络的主要驱动力是大量训练数据的可用性，但这对于语音识别来说并不总是可行的。这是因为收集大规模含有文本标签的音频数据的成本很高，特别是在口语考试场景下，大部分考生的口语发音并不标准且不统一，且音频中包含了很大一部分的静音或断断续续的片段，这很大程度上增加了转录的成本。这类质量较低的音频数据难以训练出高准确率的语音识别模型，影响识别准确率。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

许信顺郑文瑞罗昕陈振铎

技术所属：山东大学

相关技术

跨语言文本中实体语义识别处理方法、系统及存储介质 跨语言文本中实体语义识别处理方法、系统及存储介质
本申请公开了一种跨语言文本中实体语义识别处理方法、系统及存储介质，根据不同单词和相同单词在不同语言类别中进行发声的音素的长度不同，记录多个音素不同组成方式和对应的含义，将一串发声的音素对应的多个单词构建语句表。将语句表中的多类语言类别的单词翻译为同一语义类别，使得能够按照单词的语义来进行语义识别。本申请根据用户停顿情况进行语义的检测相较于普通按照前一个单词进行检测，能够更加准确地进行语义识别，通过语句表进行多种语言的语义识别，大大减轻了计算机的计算量，更加准确快速的对其进行跨语言文本的语义识别。即，本申请的方案可以把包含不同语言类别的语句翻译成预设的语言类别的语句，且翻译准确性高。
一种高效文字转语音的方法及系统  一种高效文字转语音的方法及系统 
 本申请提供一种高效文字转语音的方法及系统。其中，接收用户输入的文本信息，识别并分析所述文本信息中的情感色彩和语气特征；根据所述情感色彩和所述语气特征，从预先构建的情感语音库中选择相匹配的基础语音片段的数据集；利用动态时间规整算法调整所述基础语音片段的时间轴，使所述基础语音片段的时间轴与所述文本信息的语速相适应的同时保持所述情感色彩的一致性；采用频谱融合技术，将调整后的时间轴与所述文本信息的音素序列进行融合，生成语音输出，其中，所述频谱融合技术用以确保不同的情感色彩的基础语音片段在连接处平滑过渡。本申请提供的技术方案提高了语音合成的情感表达能力、自然度和连贯性，从而大幅提升了用户体验。
一种用于智慧呼叫的语义识别方法及系统  一种用于智慧呼叫的语义识别方法及系统 
 本发明涉及语音识别技术领域，具体涉及一种用于智慧呼叫的语义识别方法及系统。本发明首先获取用户呼叫的每句呼叫语句的语音文本、回应时间和答案文本；进一步根据目标用户呼叫中语音文本与每类答案文本的相似特征，获取目标用户呼叫与每类答案文本的匹配系数，确定目标用户呼叫对应的答案文本类别；进一步根据相同答案文本类别相邻的用户呼叫中语音文本的相似特征，目标用户呼叫中呼叫语句与对应答案文本的相似特征和回应时间，以及相邻呼叫语句的相似特征，结合匹配系数，从多个方面准确评估系统对于目标用户呼叫的修正识别效率，使得系统能够及时发现识别效率的瓶颈，从而针对性地对系统进行优化，提升系统的智能化水平。
基于分布式光纤声波传感系统的语音增强方法  基于分布式光纤声波传感系统的语音增强方法 
 本申请公开了一种基于分布式光纤声波传感系统的语音增强方法，涉及语音增强技术领域。本申请中构建的语音增强网络包括编码器模块，编码器模块的输出端依次连接第一个Reshape层、第一个TCNS模块、第二个TCNS模块、第一个GRU模块、第二个GRU模块、第二个Reshape层以及Add层，编码器模块的输出端还与Add层的输入端连接，Add层的输出端连接解码器模块，编码器还与解码器相连接；本申请中解码器能够获得预测的增强的复数频谱，本申请所述语音增强方法得到的增强后的时域语音信号的时域波形在拟合度和相似性上会显示出更少的噪音成分，而且也具有更多的与原始语音信号相同的语音特征。
音频处理方法、装置、电子设备及介质 音频处理方法、装置、电子设备及介质
本申请实施例提供了一种音频处理方法、装置、电子设备及介质，涉及云技术及人工智能技术领域。该方法包括:获取待处理音频；确定所述待处理音频的至少一个初始分段时间点；确定所述待处理音频中各所述初始分段时间点各自对应的至少一个静音片段；根据各所述初始分段时间点各自对应的至少一个静音片段，确定各所述初始分段时间点对应的目标分段时间点；根据各所述目标分段时间点，得到所述待处理音频的各音频片段；对各所述音频片段进行语音识别，并基于各所述音频片段的语音识别结果得到对应于目标语言的文本。本申请实施例提高了语音识别结果的准确性。
一种定向拾音方法、装置、电子设备和存储介质 一种定向拾音方法、装置、电子设备和存储介质
本申请涉及一种定向拾音方法、装置、电子设备和存储介质，该方法包括:获取麦克风阵列；根据麦克风阵列确定麦克风接收信号、目标方向的延迟求和波束形成器权值；根据麦克风接收信号、目标方向的延迟求和波束形成器权值确定近端信号和远端信号；将近端信号和远端信号输入自适应对消滤波器输出自适应滤波器输出信号；VAD检测自适应滤波器输出信号，若检测结果为检测到语音，则进行缓存得到缓存语音信号；计算缓存语音信号的整体波达方向；判断缓存语音信号的整体波达方向是否在拾音区内，根据判断结果对缓存语音信号进行处理。本申请引入自适应滤波器实现对干扰噪声的强力抑制，结合整体的波达方向，判断识别结果是否有效，使误识别得到大幅抑制。
语音识别系统的重打分方法、装置、电子设备和存储介质 语音识别系统的重打分方法、装置、电子设备和存储介质
本申请涉及一种语音识别系统的重打分方法、装置、电子设备和存储介质，该方法包括:判断待识别语音对应的文本是长文本还是短文本；若判断结果为待识别语音是长文本，对长文本进行断句得到多个短文本；分别确定多个短文本中每个短文本的重打分结果；将每个短文本的重打分结果进行求和得到长文本的重打分结果。本申请通过在重打分阶段的即时解码过程中，来判断待识别语音对应的文本中的当前字是否是一个句子的结束，若当前字是一个句子的结束对长文本进行断句得到多个短文本，分别确定每个短文本重打分结果然后短文本重打分结果确定长文本的重打分结果，从而能够拿到更准确的语言模型打分，提高重打分的准确性，进而提升整个识别系统的识别率。
一种语音辅助阅卷的声音智能识别方法及系统 一种语音辅助阅卷的声音智能识别方法及系统
本申请涉及语音处理技术领域，具体涉及一种语音辅助阅卷的声音智能识别方法及系统，该方法包括:采集语音辅助阅卷中的语音信号；获得语音信号的基音周期谱图的所有连通域；确定基音周期谱图中每个连通域对应的基音周期轨迹的虚假程度，以获取语音信号的浊音段语音信号集合和非浊音段语音信号集合；确定非浊音段语音信号集合内每帧语音信号的清音疑似度，以获取语音信号的清音段语音信号集合；确定双门限端点检测算法的短时能量高门限值、短时能量低门限值和短时平均过零率门限值，确定语音识别结果。本申请可提高对语音辅助阅卷中语音识别的准确性。
基于多子带生成策略的语音合成系统、方法、介质及设备  基于多子带生成策略的语音合成系统、方法、介质及设备 
 本发明实施例公开了一种基于多子带生成策略的语音合成系统、方法、介质及设备，系统包括:预处理模块，用于将文本转化为音素序列，将对应的语音通过短时傅里叶变换转化为线性频谱；后验编码器模块，用于将线性频谱转化为后验分布，根据后验分布中的均值和标准差进行采样得到潜在变量；转换层模块，用于将潜在变量转换为采样数据；先验编码器模块，用于将音素序列提取为深度特征，将深度特征映射为先验分布；发音时长推测模块，用于将先验分布与采样数据对齐，获取对齐矩阵，根据深度特征和对齐矩阵通过编码获取发音时长分布；解码器模块，用于将先验分布依据发音时长分布采样为多子带信号并合成为语音波形信号，实现了文本到语音的直接映射。
一种英语口语识别方法、系统、设备、介质及程序产品  一种英语口语识别方法、系统、设备、介质及程序产品 
 本发明公开一种英语口语识别方法、系统、设备、介质及程序产品，涉及语音识别技术领域，包括:对音频特征提取时间特征和频率特征；对时间特征和频率特征通过维度变换并行计算时间维度和频率维度的依赖性，对时间依赖性特征和频率依赖性特征通过交叉注意力模块进行融合，采用三阶段编码器进行渐进式下采样处理，且第一阶段采用分组多头自注意力机制沿时间维度进行分组计算，最后经解码得到语音识别结果，关注语音特征的时频特性，提高模型计算效率。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工