基于人声迁移学习的海洋哺乳动物声音识别技术 基于人声迁移学习的海洋哺乳动物声音识别技术
海洋哺乳动物声音由于缺乏带注释的训练数据,目前难以使用有监督方式训练的大规模神经网络模型。受到人类声音和海洋哺乳动物声音重叠频率的启发,我们发明了Man2Marine方法,使用大量未注释的人声来预训练自监督大模型,然后使用海洋哺乳动物的声音对其进行微调。同时为了解决预训练自监督大模型中的过度参数化,难以应用的问题,使用了知识蒸馏技术来压缩模型参数。该方法显着降低了获取海洋哺乳动物声音数据的成本,为海洋哺乳动物声音研究提供了一种有实际应用价值的方法。
大数据驱动的智能外呼系统 大数据驱动的智能外呼系统
本技术涉及智能外呼技术领域,且公开了一种应用大数据技术的智能外呼系统,包括任务管理单元、外呼单元、处理单元、记录单元、中心单元、收集单元以及排序单元,任务管理单元用于进行外呼类型选择,外呼单元用于进行客户外呼服务,记录单元用于记录一周内的外呼记录并计算出外呼量W,处理单元接收外呼量W并进行处理后发送分析指令给中心单元;本发明首先设置选择模块,选择模块内有六种类型,此六种类型可将现有大部分所需外呼的行业进行覆盖,进而初步满足不同行业的使用要求,在不同行业内进行使用时,可通过数据库提供数据支撑,保证不同的行业在进行外呼时均有相应的语音进行使用,使其更加智能且具有适应性。
数字人驱动的多情感语音合成技术 数字人驱动的多情感语音合成技术
本技术公开了一种基于数字人的多情感语音合成方法,包括以下步骤:获取多种情感下的音频语料;提取所述音频语料中的文本信息和音素时间戳,构建第一训练数据集;通过所述第一训练数据集对预先构建的音素时间戳预测模型进行训练;通过训练好的所述音素时间戳预测模型,预测所述文本信息中各个发音音频的音素戳和发音帧长,生成音素序列;将所述音素序列输入至预先训练好的声学模型,得到合成音频;本发明能够避免韵律标签的人工加入,提高模型训练效率;通过对音频时域和频域特征的学习,实现更逼真的音频合成效果。
高效特征提取技术:应用于8K至16K语音采样率 高效特征提取技术:应用于8K至16K语音采样率
本文涉及一种特征提取方法、装置、电子设备和存储介质,应用于8K升16K采样率的语音,该方法包括:在特征提取过程中,获取高频部分多维MFCC特征能量值;判断所述高频部分多维MFCC特征能量值是否满足置零条件的特征;若判断结果为所述高频部分多维MFCC特征能量值满足所述置零条件的特征,则将所述特征能量值对应的维度设置为可能置零的标注位。本申请通过对比不同采样率的特征差异,将40维中代表高频部分,就是最后7位的部分数值进行置零,从而优化特征提取的方法来弥补损失性能,通过优化升采样数据特征提取方法,使得转换的特征表达更加接近训练的语音数据,提升模型性能,特征的兼容约泛化,对数据的要求会相对降低,减少数据采集和处理的成本。
智能语音控制技术:方法、设备、系统及存储解决方案 智能语音控制技术:方法、设备、系统及存储解决方案
本文公开了一种智能设备语音控制方法、装置、设备及存储介质,该方法包括:接收并响应于用户的语音指令,获取用户的语义信息;将用户的语义信息输入训练好的语义控制模型,得到目标控制信息,语义控制模型是基于用户的行为习惯语句样本和与行为习惯语句样本对应的样本控制信息进行训练的;基于目标控制信息,确定待调节家电设备以及与待调节家电设备对应的调节参数信息,以控制待调节家电设备根据调节参数信息进行调节。该技术方案能够自动解析用户的语音指令,并基于用户的生活习惯训练得到语义控制模型,得到目标控制信息,从而智能化地对待调节家电设备进行控制调节以适应用户需求,很大程度上提高了用户体验。
快速语音语义识别技术:基于唤醒词的方法、系统、设备和存储介质 快速语音语义识别技术:基于唤醒词的方法、系统、设备和存储介质
本文涉及一种基于唤醒词语速确定语音语义的方法、装置、电子设备和存储介质,该方法包括:确定设备处于待唤醒状态,获取唤醒词,根据唤醒词判断是否唤醒设备;当判断结果为设备被所述唤醒词唤醒时,确定唤醒词的总时长;根据唤醒词的总时长确定当前语音端点检测的后端点时长;获取语音,设置云端后端点检测时长等于当前语音端点检测的后端点时长;将语音对应的音频发送至云端,云端根据云端后端点检测时长确定语音对应的语义。本申请根据用户在念唤醒词以及具体语音指令内容时,语速几乎一致的习惯,根据唤醒词的语速动态调整云端断句节点,从而实现动态确定语音端点的效果,根据语音端点确定在哪里断句,进一步确定语义,提升了准确率。
高效语音识别模型对抗样本生成技术 高效语音识别模型对抗样本生成技术
本技术公开一种针对语音识别模型的高效对抗样本合成方法,属于电数字处理技术领域,适用于语音对抗样本的生成。现有的音频无关对抗攻击方法在语音合成过程中,由于解码器结构冗余,导致攻击效率较低,难以满足实际应用中的实时性需求。为了解决这一问题,本发明通过优化对抗语音合成中的解码器过程提高攻击效率。具体而言,采用残差块与短时傅里叶逆变换相结合,显著加速上采样过程,同时引入伪正交镜像滤波器组模块,实现多个子频带的并行处理,从而进一步提升对抗语音合成模型的处理速度和语音质量。本发明通过优化对抗语音合成过程提高攻击效率,同时实现了较高的目标攻击成功率,具有广泛的应用前景。
行人恐慌尖叫音频识别技术与设备 行人恐慌尖叫音频识别技术与设备
本技术涉及一种恐慌行人尖叫行为音频特征识别方法及装置,所述方法包括:从视频中提取音频部分;截取音频中第一频段的音频特征,并计算获取音频能量分布;将音频能量按区间划分,并建立恐慌行为音频特征识别矩阵模型;根据音频特征识别矩阵模型判定音频中的行为类型及性别。与现有技术相比,本发明通过分析音频特征,建立恐慌行为音频特征识别矩阵模型,对恐慌行人的尖叫行为进行了识别,具有鲁棒性与环境适应性。
一种分布式虚拟呼叫系统及其接入方法 一种分布式虚拟呼叫系统及其接入方法
本技术公开一种共享式解决一对一接入虚拟外呼线路的系统及其方法,它包括具备分机号的客户端,客服呼叫服务系统模块及第三虚拟号码模块,在客服呼叫服务系统模块和第三虚拟号码模块之间设有共享式虚拟拨号盘模块及具备实体线路呼入呼出的语音网关模块;本发明能便于减少第三方虚拟号码的使用数量,提高呼叫服务第三方虚拟号码的使用效率,减少第三方虚拟号码的采购开支及运维成本。
机械设备异常声音检测:无监督域泛化方法与系统 机械设备异常声音检测:无监督域泛化方法与系统
本技术提供了一种基于域泛化的机械设备无监督异常声音检测方法及系统,本发明通过构建基于全局上下文的SE‑ECA融合注意力机制模块,分别构建MFCC分支网络架构和Log‑Mel分支网络架构,将所述模块添加至各分支网络架构中,分别对MFCC谱图特征和Log‑Mel谱图特征进行音频特征提取;将两个分支网络架构提取的音频特征嵌入在通道维度上进行合并,形成综合特征向量,对综合特征向量进行分类;构建并训练异常检测模型,异常检测模型利用高斯混合模型计算全局异常分数,在利用局部异常因子检测局部异常,再进行加权平均,本发明可以自动学习正常声音特征并检测异常,提升设备的异常检测性能。
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工