语音识别重评分技术、设备、电子装置与存储介质 语音识别重评分技术、设备、电子装置与存储介质
本文涉及一种语音识别系统的重打分方法、装置、电子设备和存储介质,该方法包括:判断待识别语音对应的文本是长文本还是短文本;若判断结果为待识别语音是长文本,对长文本进行断句得到多个短文本;分别确定多个短文本中每个短文本的重打分结果;将每个短文本的重打分结果进行求和得到长文本的重打分结果。本申请通过在重打分阶段的即时解码过程中,来判断待识别语音对应的文本中的当前字是否是一个句子的结束,若当前字是一个句子的结束对长文本进行断句得到多个短文本,分别确定每个短文本重打分结果然后短文本重打分结果确定长文本的重打分结果,从而能够拿到更准确的语言模型打分,提高重打分的准确性,进而提升整个识别系统的识别率。
智能语音识别系统:辅助阅卷的高效解决方案 智能语音识别系统:辅助阅卷的高效解决方案
本文涉及语音处理技术领域,具体涉及一种语音辅助阅卷的声音智能识别方法及系统,该方法包括:采集语音辅助阅卷中的语音信号;获得语音信号的基音周期谱图的所有连通域;确定基音周期谱图中每个连通域对应的基音周期轨迹的虚假程度,以获取语音信号的浊音段语音信号集合和非浊音段语音信号集合;确定非浊音段语音信号集合内每帧语音信号的清音疑似度,以获取语音信号的清音段语音信号集合;确定双门限端点检测算法的短时能量高门限值、短时能量低门限值和短时平均过零率门限值,确定语音识别结果。本申请可提高对语音辅助阅卷中语音识别的准确性。
多子带策略驱动的语音合成技术与应用 多子带策略驱动的语音合成技术与应用
本技术实施例公开了一种基于多子带生成策略的语音合成系统、方法、介质及设备,系统包括:预处理模块,用于将文本转化为音素序列,将对应的语音通过短时傅里叶变换转化为线性频谱;后验编码器模块,用于将线性频谱转化为后验分布,根据后验分布中的均值和标准差进行采样得到潜在变量;转换层模块,用于将潜在变量转换为采样数据;先验编码器模块,用于将音素序列提取为深度特征,将深度特征映射为先验分布;发音时长推测模块,用于将先验分布与采样数据对齐,获取对齐矩阵,根据深度特征和对齐矩阵通过编码获取发音时长分布;解码器模块,用于将先验分布依据发音时长分布采样为多子带信号并合成为语音波形信号,实现了文本到语音的直接映射。
创新英语口语识别技术:系统、设备、介质及程序产品 创新英语口语识别技术:系统、设备、介质及程序产品
本技术公开一种英语口语识别方法、系统、设备、介质及程序产品,涉及语音识别技术领域,包括:对音频特征提取时间特征和频率特征;对时间特征和频率特征通过维度变换并行计算时间维度和频率维度的依赖性,对时间依赖性特征和频率依赖性特征通过交叉注意力模块进行融合,采用三阶段编码器进行渐进式下采样处理,且第一阶段采用分组多头自注意力机制沿时间维度进行分组计算,最后经解码得到语音识别结果,关注语音特征的时频特性,提高模型计算效率。
超声波汉语语音防窃听干扰技术 超声波汉语语音防窃听干扰技术
本技术公开了一种面向汉语语音防窃听的基于超声波的录音干扰方法,设计用户无感的语音窃听干扰技术,并充分考虑现实条件下窃听者的能力及其造成的声学隐私泄露风险,增强系统的有效性与安全性,使用语音生成技术扩充用户语料,针对汉语语音特点将语料切割为不含语义的音素,减少了用户的语音注册时间成本,保护了用户注册语音的隐私,增强了对于汉语语音的保护能力,根据用户的声音生成与用户声音耦合的噪声,增加了窃听者分离噪声的难度,更完全地保护用户的语音不被窃听,针对超声发射设备的可听声泄露问题对超声信号进行修正,削弱了可听声的泄露程度,增强了用户的使用体验,降低了超声发射设备被窃听者发现的风险。
音频信号检测技术:方法、系统、设备及存储介质 音频信号检测技术:方法、系统、设备及存储介质
本文涉及一种信号检测方法、系统、设备、可读存储介质和程序产品。所述方法包括:获取待处理的音频信号;确定音频信号对应的时频图,对时频图进行分割处理,得到多个局部窗口以及确定每个局部窗口的局部频域特征;对每个局部窗口的局部频域特征进行功率熵计算,提取音频信号的频谱混沌特征;获取已学习正常音频的特征分布的超球体,确定频谱混沌特征和超球体之间的马氏距离;根据马氏距离确定频谱混沌特征对应的音频信号的异常结果。采用本方法能够有效的区分正常音频信号和所有异常音频信号。
高效识别游戏加速作弊技术、系统、设备与存储介质 高效识别游戏加速作弊技术、系统、设备与存储介质
本文公开了一种识别游戏变速外挂的方法、装置、设备及介质,本申请属于互联网技术领域。该方法包括:若检测到反外挂触发事件,生成启动指令,以启动反变速外挂系统;采用第一检测机制对操作系统的API进行Hook检测,得到第一检测结果;采用第二检测机制对游戏系统进行时间异常检测,得到第二检测结果;采用第三检测机制对游戏任务执行时长进行检测,得到第三检测结果;根据所述第一检测结果、第二检测结果以及第三检测结果中一个或者多个,确定游戏运行过程中是否使用变速外挂。本技术方案,可以在用户运行游戏时,启动反变速外挂系统,采用多种机制检测游戏系统中与接口和时间相关的参数,精准打击变速外挂,维护游戏的公平性,提供和谐游戏环境。
多语言语音识别技术、设备及存储解决方案 多语言语音识别技术、设备及存储解决方案
本公开涉及一种多语种语音识别方法、装置和存储介质。该方法包括:获取待识别音频,待识别音频包括一种或多种语言的音频;提取待识别音频的声学信息,并基于声学信息进行特征提取确定语种信息;基于语种信息以及多个文本信息,确定目标文本信息,其中,多个文本信息是基于上一帧待识别音频的音频识别结果确定的,不同文本信息对应不同语种;基于声学信息和目标文本信息,确定待识别音频的音频识别结果。根据本公开实施例,能够提高多语种的语音识别效果,提高识别精度。
音频伪造检测:特征聚类与对比学习技术 音频伪造检测:特征聚类与对比学习技术
本技术公开了一种基于特征聚类与对比学习的伪造音频区域检测方法,涉及音频信号处理领域,包括多维度特征提取模块、特征融合模块、基于聚类的帧级别伪标签生成模块、区域粗定位模块、基于对比学习的区域伪造音频检测模块、区域重定位模块、后处理模块。本发明中通过从音频数据中提取多维度信息,使用聚类方法对音频数据生成帧级别伪标签,定位不同类别音频区域,通过对比学习训练音频区域真伪的检测模型,可以获得精准的伪造区域定位和音频真伪的检测结果;该方法不仅适用于单一语言的伪造音频检测,还可推广至多语言、多口音的音频场景,尤其适用于司法鉴定和媒体审核等需要精确音频分析的应用场景,具有广泛的实用价值。
深度学习驱动的昆曲自动合成技术 深度学习驱动的昆曲自动合成技术
本技术提出了一种基于深度学习的端到端昆曲合成系统方法,其中所述系统包括:曲谱特征提取模块,用于根据所输入的昆曲曲谱提取出曲谱特征;唱词文本特征提取模块,用于对所输入的昆曲唱词文本提取出唱词文本特征;特征对齐模块,用于基于自注意力机制模型将曲谱特征与文本特征进行对齐,将曲谱特征对应的音高和节奏信息与唱词文本特征的发音时序相结合;声学参数生成模块,用于利用以上对齐处理后的曲谱特征以及唱词文本特征构建声学参数预测模型,并根据所生成的声学参数预测模型预测关键声学特征;昆曲语音生成模块,用于基于深度生成模型的声码器根据所生成的关键声学特征转化为昆曲音频。本发明增强高了对昆曲韵律的还原,昆曲自然度更高。
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工