智能文本转语音技术与系统 智能文本转语音技术与系统
本文提供一种高效文字转语音的方法及系统。其中,接收用户输入的文本信息,识别并分析所述文本信息中的情感色彩和语气特征;根据所述情感色彩和所述语气特征,从预先构建的情感语音库中选择相匹配的基础语音片段的数据集;利用动态时间规整算法调整所述基础语音片段的时间轴,使所述基础语音片段的时间轴与所述文本信息的语速相适应的同时保持所述情感色彩的一致性;采用频谱融合技术,将调整后的时间轴与所述文本信息的音素序列进行融合,生成语音输出,其中,所述频谱融合技术用以确保不同的情感色彩的基础语音片段在连接处平滑过渡。本申请提供的技术方案提高了语音合成的情感表达能力、自然度和连贯性,从而大幅提升了用户体验。
智能呼叫系统中的语义识别技术与应用 智能呼叫系统中的语义识别技术与应用
本技术涉及语音识别技术领域,具体涉及一种用于智慧呼叫的语义识别方法及系统。本发明首先获取用户呼叫的每句呼叫语句的语音文本、回应时间和答案文本;进一步根据目标用户呼叫中语音文本与每类答案文本的相似特征,获取目标用户呼叫与每类答案文本的匹配系数,确定目标用户呼叫对应的答案文本类别;进一步根据相同答案文本类别相邻的用户呼叫中语音文本的相似特征,目标用户呼叫中呼叫语句与对应答案文本的相似特征和回应时间,以及相邻呼叫语句的相似特征,结合匹配系数,从多个方面准确评估系统对于目标用户呼叫的修正识别效率,使得系统能够及时发现识别效率的瓶颈,从而针对性地对系统进行优化,提升系统的智能化水平。
分布式光纤声波传感技术在语音增强中的应用 分布式光纤声波传感技术在语音增强中的应用
本文公开了一种基于分布式光纤声波传感系统的语音增强方法,涉及语音增强技术领域。本申请中构建的语音增强网络包括编码器模块,编码器模块的输出端依次连接第一个Reshape层、第一个TCNS模块、第二个TCNS模块、第一个GRU模块、第二个GRU模块、第二个Reshape层以及Add层,编码器模块的输出端还与Add层的输入端连接,Add层的输出端连接解码器模块,编码器还与解码器相连接;本申请中解码器能够获得预测的增强的复数频谱,本申请所述语音增强方法得到的增强后的时域语音信号的时域波形在拟合度和相似性上会显示出更少的噪音成分,而且也具有更多的与原始语音信号相同的语音特征。
智能音频处理技术:云与AI的融合解决方案 智能音频处理技术:云与AI的融合解决方案
本文实施例提供了一种音频处理方法、装置、电子设备及介质,涉及云技术及人工智能技术领域。该方法包括:获取待处理音频;确定所述待处理音频的至少一个初始分段时间点;确定所述待处理音频中各所述初始分段时间点各自对应的至少一个静音片段;根据各所述初始分段时间点各自对应的至少一个静音片段,确定各所述初始分段时间点对应的目标分段时间点;根据各所述目标分段时间点,得到所述待处理音频的各音频片段;对各所述音频片段进行语音识别,并基于各所述音频片段的语音识别结果得到对应于目标语言的文本。本申请实施例提高了语音识别结果的准确性。
定向声音采集技术:方法、设备、电子装置与存储介质 定向声音采集技术:方法、设备、电子装置与存储介质
本文涉及一种定向拾音方法、装置、电子设备和存储介质,该方法包括:获取麦克风阵列;根据麦克风阵列确定麦克风接收信号、目标方向的延迟求和波束形成器权值;根据麦克风接收信号、目标方向的延迟求和波束形成器权值确定近端信号和远端信号;将近端信号和远端信号输入自适应对消滤波器输出自适应滤波器输出信号;VAD检测自适应滤波器输出信号,若检测结果为检测到语音,则进行缓存得到缓存语音信号;计算缓存语音信号的整体波达方向;判断缓存语音信号的整体波达方向是否在拾音区内,根据判断结果对缓存语音信号进行处理。本申请引入自适应滤波器实现对干扰噪声的强力抑制,结合整体的波达方向,判断识别结果是否有效,使误识别得到大幅抑制。
语音识别重评分技术、设备、电子装置与存储介质 语音识别重评分技术、设备、电子装置与存储介质
本文涉及一种语音识别系统的重打分方法、装置、电子设备和存储介质,该方法包括:判断待识别语音对应的文本是长文本还是短文本;若判断结果为待识别语音是长文本,对长文本进行断句得到多个短文本;分别确定多个短文本中每个短文本的重打分结果;将每个短文本的重打分结果进行求和得到长文本的重打分结果。本申请通过在重打分阶段的即时解码过程中,来判断待识别语音对应的文本中的当前字是否是一个句子的结束,若当前字是一个句子的结束对长文本进行断句得到多个短文本,分别确定每个短文本重打分结果然后短文本重打分结果确定长文本的重打分结果,从而能够拿到更准确的语言模型打分,提高重打分的准确性,进而提升整个识别系统的识别率。
智能语音识别系统:辅助阅卷的高效解决方案 智能语音识别系统:辅助阅卷的高效解决方案
本文涉及语音处理技术领域,具体涉及一种语音辅助阅卷的声音智能识别方法及系统,该方法包括:采集语音辅助阅卷中的语音信号;获得语音信号的基音周期谱图的所有连通域;确定基音周期谱图中每个连通域对应的基音周期轨迹的虚假程度,以获取语音信号的浊音段语音信号集合和非浊音段语音信号集合;确定非浊音段语音信号集合内每帧语音信号的清音疑似度,以获取语音信号的清音段语音信号集合;确定双门限端点检测算法的短时能量高门限值、短时能量低门限值和短时平均过零率门限值,确定语音识别结果。本申请可提高对语音辅助阅卷中语音识别的准确性。
多子带策略驱动的语音合成技术与应用 多子带策略驱动的语音合成技术与应用
本技术实施例公开了一种基于多子带生成策略的语音合成系统、方法、介质及设备,系统包括:预处理模块,用于将文本转化为音素序列,将对应的语音通过短时傅里叶变换转化为线性频谱;后验编码器模块,用于将线性频谱转化为后验分布,根据后验分布中的均值和标准差进行采样得到潜在变量;转换层模块,用于将潜在变量转换为采样数据;先验编码器模块,用于将音素序列提取为深度特征,将深度特征映射为先验分布;发音时长推测模块,用于将先验分布与采样数据对齐,获取对齐矩阵,根据深度特征和对齐矩阵通过编码获取发音时长分布;解码器模块,用于将先验分布依据发音时长分布采样为多子带信号并合成为语音波形信号,实现了文本到语音的直接映射。
创新英语口语识别技术:系统、设备、介质及程序产品 创新英语口语识别技术:系统、设备、介质及程序产品
本技术公开一种英语口语识别方法、系统、设备、介质及程序产品,涉及语音识别技术领域,包括:对音频特征提取时间特征和频率特征;对时间特征和频率特征通过维度变换并行计算时间维度和频率维度的依赖性,对时间依赖性特征和频率依赖性特征通过交叉注意力模块进行融合,采用三阶段编码器进行渐进式下采样处理,且第一阶段采用分组多头自注意力机制沿时间维度进行分组计算,最后经解码得到语音识别结果,关注语音特征的时频特性,提高模型计算效率。
超声波汉语语音防窃听干扰技术 超声波汉语语音防窃听干扰技术
本技术公开了一种面向汉语语音防窃听的基于超声波的录音干扰方法,设计用户无感的语音窃听干扰技术,并充分考虑现实条件下窃听者的能力及其造成的声学隐私泄露风险,增强系统的有效性与安全性,使用语音生成技术扩充用户语料,针对汉语语音特点将语料切割为不含语义的音素,减少了用户的语音注册时间成本,保护了用户注册语音的隐私,增强了对于汉语语音的保护能力,根据用户的声音生成与用户声音耦合的噪声,增加了窃听者分离噪声的难度,更完全地保护用户的语音不被窃听,针对超声发射设备的可听声泄露问题对超声信号进行修正,削弱了可听声的泄露程度,增强了用户的使用体验,降低了超声发射设备被窃听者发现的风险。
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工