噪声识别技术与设备 噪声识别技术与设备
本技术公开了一种噪声事件检测方法和装置,方法包括:获取环境音频数据,若环境音频数据的声压低于阈值,提取环境音频数据的声学特征数据输入到噪声事件检测网络,生成帧级时间预测结果和事件类别预测结果;噪声事件检测网络通过训练数据对初始噪声事件检测网络训练而来;训练数据由标签噪声数据构造而来;初始噪声事件检测网络的编码器网络由无标签噪声数据对初始编码器网络训练而来;对声学特征数据进行筛选和异常点修正后,进行起止时间点的检测,并生成起止时间标注,生成噪声事件检测结果,以实现通过无标签噪声数据训练初始噪声事件检测网络的编码网络,并通过标签数据对噪声事件检测网络进行联合优化,提升噪声事件检测的性能和效果。
改进评分矩阵与卷积增强自注意力模型在语音识别中的应用 改进评分矩阵与卷积增强自注意力模型在语音识别中的应用
本技术公开了基于改进评分矩阵的卷积增强的自注意力模型的语音识别系统。本发明中,通过引入一种新的关系计算模块(RCM),优化了注意力恢复解码方法。该模块旨在减轻注意力恢复解码方法中的错误累积,从而减少CTC解码错误对后续注意力恢复的影响。此外,本系统还引入了一个跳跃融合模块(SFM),以集成浅层和深层特征。这解决了Conformer编码器缺少层间跳过连接的限制,增强了模型有效捕获和利用上下文信息的能力。对比实验表明,基于图的方法提高了识别率,尤其是在相对较小的维吾尔语数据集上。与基线模型相比,该方法分别降低了0.03%、0.35%和0.44%的字符错误率。在GeneralSpeech16.1维吾尔语数据集上,该方法的误字率为4.19%,比基线模型降低了1.56%。
差异时频模态分解技术在带内噪声消除中的应用 差异时频模态分解技术在带内噪声消除中的应用
本技术公开了一种基于差异时频模态分解的带内噪声去除方法。步骤如下:采集参考信号xr(t)和混合信号xm(t),计算二者的归一化时频幅值谱。基于大余量凸优化技术获得最优差异时频谱。以参考信号的归一化时频幅值谱和混合信号的归一化时频幅值谱为样本,采用大余量凸优化技术得到最优差异时频幅值谱。在最优差异时频谱中使用阈值自适应技术去识别不同模态的时频位置;根据时频位置,将混合信号中的时频谱自适应的分解为敏感分量、参考分量和噪声分量的时频谱。利用时频逆变换技术对相应的时频谱进行变换,得到相应的敏感分量、参考分量和噪声分量。本发明从时频的角度进行降噪分析,所得的最优差异权值矩阵具有物理意义,更突出了与敏感分量相关的特征。
多语言语音识别技术 [创新] 多语言语音识别技术 [创新]
本技术公开了一种用于多语言的语音识别方法,包括:对采集的多源数字语音信号进行预处理和特征提取,得到特征向量;将所述特征向量输入声学模型中进行解码处理,得到关于所述语音信号的文本表示;将所述文本表示输入自然语言处理模型中进行语法、语义的优化调整,得到由子序列构成的知识表示;对所述知识表示进行格式转换和纠错处理,输出最终的识别结果。本发明能够更精确地处理多源数字语音信号,并通过先进的声学模型和自然语言处理技术,有效地提高了语音识别的准确性和语义理解能力;同时,所提出的自然语言处理模型针对语法和语义进行深入的优化调整,特别是在复杂的语言环境中显示出较强的适应性。
基于机器学习的噪音对听力影响评估技术 基于机器学习的噪音对听力影响评估技术
本技术提出一种噪音环境对听力影响预测方法,涉及机器学习领域。本发明提出NoiseAudito预测模型,应用于噪音环境对听力影响预测背景,包括由自适应变量注意力模块、动态时间注意力模块、编码器与解码器结构,其中自适应变量注意力模块能够捕捉噪音环境对听力影响数据变量间的依赖关系,动态时间注意力模块能够捕捉噪音环境对听力影响数据时间步之间的依赖关系,编码器与解码器能够从噪音环境对听力影响数据中提取时间和变量依赖特征,并生成最终的噪音环境对听力影响预测结果,从而完成噪音环境对听力影响的准确预测。
监控摄像头音频驱动的降雨强度多特征分析技术 监控摄像头音频驱动的降雨强度多特征分析技术
本技术涉及一种基于监控相机音频的多特征降雨强度估计方法,设计采用监控音频多域特征信号刻画降雨信息,包括音频数据处理、多特征组合、模型训练和降雨强度估计四部分。多特征组合部分:根据不同音频特征的属性,从时间域、频率域、倒谱域获取降雨音频特征并进行融合,得到音频多特征组合向量;降雨强度估计部分:结合主流深度网络模型进行训练,将多特征组合向量输入网络模型中获得监控音频多特征降雨强度估计模型,进而用于实际应用中,可将本方法部署于云、边、端等不同位置,利用已有的监控相机实现降雨量监测,为区域低成本高时空分辨率降雨提供方法和技术支持,具有广阔的市场应用前景。
情绪驱动的音频合成技术与训练系统 情绪驱动的音频合成技术与训练系统
本技术实施例提供一种基于情绪的音频生成模型的训练方法及系统。该方法包括:收集由一种声音事件对应一种情绪的第一音频数据、对应多种情绪的第二音频数据;从第一音频数据以及第二音频数据中确定出情绪与声音事件的对应关系;基于对应关系获取带有情绪表述的训练数据;将训练数据输入至基于潜在扩散模型构建的音频生成模型,通过变分自动编码器确定训练数据内频谱图的潜在表示,解码器根据潜在表示得到重构频谱图;根据重构频谱图确定损失,对音频生成模型进行训练。本发明实施例构建了情感声音数据集来训练音频生成模型,使得模型能够对于同一个声音事件,指定不同的情绪也可以产生具有不同情绪音调的音频,从而对生成的音频进行精细的控制。
智能语音交互技术、系统及存储解决方案 智能语音交互技术、系统及存储解决方案
本文涉及计算机技术领域,公开了一种语音交互方法、语音交互系统和存储介质。该方法包括:接收用户输入的交互语音;根据交互语音和交互语音对应的交互文本,确定交互语音对应的情感标签;根据情感标签,确定交互文本对应的应答文本,以及应答文本对应的第一韵律特征和第二韵律特征;其中,第一韵律特征用于表征应答文本的整句韵律特征,第二韵律特征用于表征应答文本中各字符的局部韵律特征;根据应答文本、第一韵律特征和第二韵律特征,生成并输出交互语音对应的应答语音。本申请能够提高对交互语音进行情感分类的准确率,并能够提高所生成的交互语音对应的应答语音的情感丰富度和自然度。
智能语音控制音箱系统 智能语音控制音箱系统
本技术涉及语音控制技术领域,具体为一种智能音箱控制系统,系统包括语音数据分析模块、动态资源管理模块、噪声抑制调整模块、智能响应速度调控模块。本发明中,通过对音箱语音输入的精确分析,提升了语音命令的识别精度和执行效果,显著改善了用户交互体验,利用自回归积分滑动平均模型与长短期记忆网络,增强了对复杂命令的处理能力和数据效率,实施动态资源管理,根据命令预测自动调整CPU与内存配置,优化设备响应速度和资源利用,提高系统处理能力,实时噪声抑制确保在多噪声环境下也能精确捕捉指令,此外,通过持续监控与调优智能音箱的响应速度和负载,提高了运行效率,同时降低了能源消耗和处理负担。
物联网环境下智能产品的语音控制技术与系统 物联网环境下智能产品的语音控制技术与系统
本技术涉及语音控制领域,揭露了一种基于物联网实现智能产品的语音控制方法及系统,所述方法包括:对预设的声学模型和语言模型进行联合优化,得到所述待控制产品的语音识别模型;识别待控制产品的产品特征,构建待控制产品的多麦克风阵列,采集待控制产品的目标语音;评估目标语音的语音方向,构建多麦克风阵列的语音波束,对目标语音进行噪声约束,得到约束目标语音;提取约束目标语音的声学特征,利用语音识别模型将约束目标语音转化为语音文本;对语音文本进行解析,得到解析语音文本,识别语音用户的用户意图,构建语音用户的控制指令,执行对待控制产品的语音控制。本发明可以提高对智能产品语音控制的准确性。
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工