多通道语音分离技术:多尺度特征融合方法与设备 多通道语音分离技术:多尺度特征融合方法与设备
 本技术公开了一种基于多尺度特征通道融合的多通道语音分离方法及设备,方法包括:获取若干具有不同噪声、混响和说话人的多通道混合语音信号形成训练数据集;构建基于多尺度特征通道融合的多通道语音分离网络,具体包括高维特征提取模块、空间特征提取模块、多尺度特征提取模块、基于特征通道融合的卷积分离网络、语音重构模块;将所述训练数据集输入所述多通道语音分离网络,进行网络训练;将待分离的含噪含混响含多个说话人的混合多通道语音信号输入训练好的多通道语音分离网络,得到各个说话人的单通道语音信号。本发明分离能力和泛化能力更强。
2025-01-16 09:39
0
0
基于距离度量学习的高效说话人识别技术 基于距离度量学习的高效说话人识别技术
本技术提出一种基于距离相关的度量学习的说话人确认方法,属于声纹识别、模式识别与机器学习领域。该方法在模型训练阶段,对训练语音预处理,提取每条语音的说话人嵌入,采用基于距离相关的度量学习方法训练打分模型;在说话人确认阶段,给定两条待测语音,通过基于距离相关的度量学习方法训练得到的打分模型,得到两条语音的距离,从而判断是否是同一个人说的。本发明在对说话人嵌入进行打分时,根据说话人嵌入之间的距离不同,给予不同的度量函数,可以提高说话人确认的准确率。
2025-01-15 14:29
0
0
使用CatBoost算法的音频信号处理技术与设备 使用CatBoost算法的音频信号处理技术与设备
 一种基于机器学习算法catboost的音频信号处理方法及装置,属于音频信号处理、计算机技术领域。采用空间定向接收阵列对音源的实时音频信号进行采集,采用信号预处理系统对采集到的所述实时音频信号进行预处理,将预处理后的数据作为机器学习算法CatBoost的输入数据。本技术采用空间定向接收阵列布置信号接收器,由于改进后的空间定向接收阵列的布置方式使得信号的衰落和干扰减少,进而提高了信号接收质量的效果。同时,本技术方案充分利用了机器学习算法CatBoost擅长处理类别型特征的特点,将机器学习算法CatBoost应用于音频信号处理领域,获得了在保持类别信息的同时能够很好地处理数据的缺失值和异常值的有益效果。
2025-01-15 13:28
0
0
语音驱动口型合成技术与设备 语音驱动口型合成技术与设备
 本技术提供一种用于语音驱动的口型生成方法及装置,涉及自然语言处理技术领域。该方法包括:基于ffmpeg工具,根据原始视频数据进行图像处理,获得拼接帧图像数据以及面部特征点;根据原始音频数据,通过深度音频特征提取器进行特征提取,获得音频特征;通过音频‑视频序列特征融合器进行特征融合,获得融合特征;根据面部特征点以及融合特征,通过唇部动作生成器进行视频生成,获得合成视频数据;根据原始视频数据以及合成视频数据对唇部动作生成器优化;基于深度音频特征提取器、音频‑视频序列特征融合器和优化唇部动作生成器进行视频生成,获得目标合成视频数据。本发明一种针对于语音驱动的视频分辨率高且面部纹理细节保留充分的口型生成方法。
2025-01-15 11:42
0
0
音频场景识别技术在学生行为日志生成中的应用 音频场景识别技术在学生行为日志生成中的应用
本技术属于音频场景识别技术领域,提供了一种基于音频场景识别的学生行为日志生成方法及系统。该方法包括,获取录制的音频文档,将音频文档分成若干音频片段;基于所述音频片段采用训练好的教育场景识别模型,得到各个音频片段的教育场景预测标签;为各个音频片段标记起始时间点和终止时间点,根据各个音频片段标记起始时间点和终止时间点结合各个音频片段的教育场景预测标签,生成时间分布行为日志;其中,教育场景识别模型预测的过程包括提取音频文档的频谱特征和主题在音频字上的概率分布,基于主题在音频字上的概率分布和音频文档的频谱特征生成主题特征,更新主题特征,基于更新的主题特征进行分类,得到教育场景预测标签。
2025-01-15 10:16
0
0
因果高斯过程在动态声音异常检测中的应用 因果高斯过程在动态声音异常检测中的应用
本技术涉及音频检测领域,尤其是基于因果高斯过程动态系统的声音异常检测方法及系统,所述方法包括如下步骤:获取音频数据的音频特征频谱图;对所述音频特征频谱图进行建模,得到低维潜变量;基于所述低维潜变量,得到音频因果关系图;基于正常音频因果关系图,得到普适因果关系图;计算正常音频因果关系图与所述普适因果关系图之间的均方误差值,并将所述均方误差值作为经验阈值;计算待测音频因果关系图与所述普适因果关系图之间的差值;将所述差值与所述经验阈值相比较,根据比较结果,得到待测音频数据的检测结果。本发明将因果发现方法引入高斯过程动态系统,解决了现有技术对小样本数据异常检测训练困难的问题,并提供了可解释性依据。
2025-01-14 20:26
0
0
创新文本转语音技术:提升合成效率与独立性 创新文本转语音技术:提升合成效率与独立性
本技术公开了一种文本到语音生成方法,属于语音生成技术领域,能够解决现有文本到语音系统语音合成效率低、且依赖对齐信息的问题。所述方法包括:S1、获取参考语音的自监督特征,并对自监督特征进行离散化处理,得到参考语义标记序列;S2、根据文本标记序列和参考语义标记序列,得到目标语义标记序列;S3、对目标语义标记序列进行预测,得到多层声学标记序列,并根据多层声学标记序列生成目标语音。本发明用于生成目标语音。
2025-01-14 19:21
0
0
创新前馈-反馈混合降噪系统及其应用 创新前馈-反馈混合降噪系统及其应用
本技术提出了一种新型前反馈混合降噪装置和方法,其特征在于,装置包括1个参考传声器,1个前馈误差传声器、1个反馈误差传声器、1个次级扬声器和1个控制器,降噪方法的具体步骤为:应用LMS算法分别得到反馈次级路径建模滤波器和前馈次级路径建模滤波器,应用FxLMS或改进的自适应算法得到前馈控制滤波器,应用FxLMS得到反馈控制滤波器,实际降噪中,应用前馈控制滤波器得到前馈抵消信号,应用反馈控制滤波器得到反馈抵消信号,前馈抵消信号和反馈抵消信号在控制器中相加经次级扬声器输出,完成降噪。其显著优势在于,基于两个误差传声器,降噪性能更佳,而且能够扩大空间静区,运算简单、快速,可适用于低功耗低运算能力芯片。
2025-01-14 18:05
0
0
非母语中文语音识别:偏移与卷积自适应技术 非母语中文语音识别:偏移与卷积自适应技术
 本技术公开了基于偏移和卷积自适应的非母语中文语音识别方法与系统,涉及语音识别技术领域,方法包括以下步骤:选择预训练模型,添加TBA模块和卷积自适应模块构成非母语中文语音识别模型;利用训练好的非母语中文语音识别模型实现非母语中文语音识别;TBA模块根据语音帧生成重要性权重和偏置项,并输出偏置向量到前馈层;卷积自适应模块将表示向量转换为特征加权向量。本发明结合TBA和卷积自适应模块,提高了模型对语音token重要性的理解以及有效提取编码知识,这种技术组合不仅增强了模型的识别准确性,还提升了其在多语言环境或全球化应用中的适应性,在非母语中文语音识别任务中展现出显著的有益效果。
2025-01-14 15:33
0
0
线性复杂度语音识别模型架构创新 线性复杂度语音识别模型架构创新
 本技术公开介绍了语音识别技术领域中一种用于语音识别的线性复杂度模型架构,所述AMLP分支使用MLP替代注意力机制,并在MLP基础上添加注意力平均池化层,在保持线性复杂度的同时,确保注意力权重均匀分布,并获取全面的全局特征,所述卷积分支利用卷积空间门控单元捕获增强的局部特征关系,并通过与AMLP分支交互信息的通道,将局部特征与全局特征进行混合,为全局特征补充局部特征,本发明在提取局部特征和全局特征的同时,适当的在局部特征和全局特征提取处理时进行了提前融合,来解决全局特征和局部特征实时相互影响的问题。
2025-01-14 15:27
0
0
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利