123技术园

首页 / 信息集成数字服务

AI驱动的语音识别技术、系统及机器人应用 AI驱动的语音识别技术、系统及机器人应用

本技术提供一种基于人工智能的语音识别方法、装置及机器人设备，该方法包括如下步骤:获取终端用户的语音样本并提取样本基准特征；当处于待机状态时，采集第一区域声音段落，预处理第一区域声音段落，并提取目标频域特征；根据目标频域特征提取的数量切换工作状态；当处于解说状态时，采集第二区域声音段落并对第二区域声音段落执行预处理步骤；基于指定频域特征并利用语音识别模型从预处理后的第二区域声音段落中提取出指定语音矢量特征，采用自然语言处理技术分析指定语音矢量特征并生成指定语音反馈文本，将指定语音反馈文本进行语音解说播报。本发明具有在复杂环境时也可以准确识别和处理用户语音指令的效果。

2025-02-01 16:35

双向蒸馏技术在游戏AI训练中的应用双向蒸馏技术在游戏AI训练中的应用

 本技术公开了一种适用于游戏AI的双向蒸馏方法及装置，包括:每次迭代训练中，随机从游戏AI智能体的训练群体中分离出部分智能体作为虚拟群体，并分配虚拟群体策略；将训练群体和虚拟群体部署在游戏中进行训练，训练群体使用学习策略网络进行更新，虚拟群体使用蒸馏策略网络进行更新；蒸馏策略网络包含正向蒸馏和反向蒸馏；执行正向蒸馏时，通过最小化蒸馏策略与学习策略之间的KL散度；执行反向蒸馏时，通过最大化蒸馏策略与学习策略之间的KL散度；重复上述步骤进行多次迭代训练，训练完成后利用更新后的训练群体作为最终的游戏AI智能体，并部署进游戏中。本发明使得游戏AI能够在复杂游戏场景中优化其策略分布。

2025-02-01 11:46

列车司机语音识别技术：深度学习与预处理方法列车司机语音识别技术：深度学习与预处理方法

 本文公开了一种列车司机语音识别方法、设备、介质及产品，涉及深度学习及语音识别技术领域，该方法包括获取列车司机的语音信息；对语音信息进行去噪处理、预处理和快速傅里叶变换，得到第一频谱特征；将第一频谱特征输入到专有词汇识别模型，得到专有词汇识别结果；将第一频谱特征输入到通用词汇识别模型，得到通用词汇识别结果；对专有词汇识别结果和通用词汇识别结果进行融合处理，得到列车司机的语音识别结果。通过融合专有词汇识别模型与通用词汇识别模型的识别结果，获得了列车司机的语音识别结果，这种融合处理有效地弥补了通用模型在铁路领域识别上的局限性，从而提高了列车司机语音识别的准确性。

2025-01-30 16:18

创新音乐互动系统创新音乐互动系统

 本文适用于音乐交互技术领域，提供了一种音乐交互系统。所述音乐交互系统通过乐器上安装的运动传感器获取用户手部的动作信息，并将用户的动作信息通过蓝牙上传至平板或者其他移动终端安装的软件上。移动终端再将信息上传至中央处理平台，由中央处理平台对数据进行处理，对用户的参与程度进行评估。研究人员可以直接调用中央处理平台中的用户的动作信息或相应的评估结果对用户的表现和音乐干预活动对用户的影响进行研究，并给出后续进行音乐干预活动的建议，为主持人主持活动提供支持。同时在用户做出相应的动作后，通过增强现实技术给予用户相应的反馈，提高用户参与活动的积极性。

2025-01-30 15:23

度量学习驱动的环境声音识别技术与系统度量学习驱动的环境声音识别技术与系统

 本技术公开了一种基于度量学习的环境声音分类方法及系统，该方法包括如下步骤:收集环境声音音频，并转化为梅尔频谱图；对梅尔频谱图进行数据增强；构建SPA模块和FPL模块，使用SPA模块或FPL模块对数据增强后的环境声音音频进行处理，采用预训练的卷积神经网络模型对处理后的环境声音音频进行特征提取，得到声音特征；将提取的声音特征输入到表征空间；在表征空间中结合对比、度量学习和交叉熵损失来优化声音特征，对优化后的声音特征进行分类；本发明通过利用度量学习考虑类内变异的方法，使得在进行分类任务的过程中，同类样本的特征更加接近，不同类样本的特征更加分离，有效提高了分类准确率。

2025-01-30 14:31

高效低资源消耗的多级流式语音识别技术高效低资源消耗的多级流式语音识别技术

 本技术提出了一种低计算资源多级架构流式语音识别方法，联合优化的RNN‑T流式语音识别架构和CTC流式语音识别架构，提出多级混合流式语音识别架构，复用RNN‑T架构下编码器不同层级作为CTC语音识别编码器，整体降低了流式语音识别模型复杂度，提高模型在端侧推理的资源占用灵活性，该架构支持在边缘设备推理时刻针对于设备CPU状态自适应选取模型不同复杂度模块进行流式推理，保证了极端低计算资源下条件下语音识别模型的识别功能，在端侧设备突发性的计算资源紧张环境仍能够完成语音识别功能，保障语音识别系统安全性以及端侧设备系统稳定性。

2025-01-30 14:11

高效参数微调的多任务声学场景识别技术高效参数微调的多任务声学场景识别技术

 一种基于参数高效微调的多任务声学场景分类方法，涉及计算机听觉技术领域，解决现有技术中大部分声学场景分类方法面临的模型全微调耗费资源高、数据集少且分布不平衡、模型任务单一等问题。本技术所述的多任务声学场景分类方法包括以下步骤:步骤1、基于Prompt技术设计高表征的参数高效微调模块Dsc‑adapter；步骤2、将所述参数高效微调模块Dsc‑adapter嵌入到声纹识别网络CAM++中，构造多任务声学场景分类网络MT‑EPTNet。还适用于低消耗、高精度的声学场景分类任务以及其他听觉任务。

2025-01-30 12:29

噪声识别技术与设备噪声识别技术与设备

本技术公开了一种噪声事件检测方法和装置，方法包括:获取环境音频数据，若环境音频数据的声压低于阈值，提取环境音频数据的声学特征数据输入到噪声事件检测网络，生成帧级时间预测结果和事件类别预测结果；噪声事件检测网络通过训练数据对初始噪声事件检测网络训练而来；训练数据由标签噪声数据构造而来；初始噪声事件检测网络的编码器网络由无标签噪声数据对初始编码器网络训练而来；对声学特征数据进行筛选和异常点修正后，进行起止时间点的检测，并生成起止时间标注，生成噪声事件检测结果，以实现通过无标签噪声数据训练初始噪声事件检测网络的编码网络，并通过标签数据对噪声事件检测网络进行联合优化，提升噪声事件检测的性能和效果。

2025-01-30 12:05

改进评分矩阵与卷积增强自注意力模型在语音识别中的应用改进评分矩阵与卷积增强自注意力模型在语音识别中的应用

 本技术公开了基于改进评分矩阵的卷积增强的自注意力模型的语音识别系统。本发明中，通过引入一种新的关系计算模块(RCM)，优化了注意力恢复解码方法。该模块旨在减轻注意力恢复解码方法中的错误累积，从而减少CTC解码错误对后续注意力恢复的影响。此外，本系统还引入了一个跳跃融合模块(SFM)，以集成浅层和深层特征。这解决了Conformer编码器缺少层间跳过连接的限制，增强了模型有效捕获和利用上下文信息的能力。对比实验表明，基于图的方法提高了识别率，尤其是在相对较小的维吾尔语数据集上。与基线模型相比，该方法分别降低了0.03％、0.35％和0.44％的字符错误率。在GeneralSpeech16.1维吾尔语数据集上，该方法的误字率为4.19％，比基线模型降低了1.56％。

2025-01-29 14:07

差异时频模态分解技术在带内噪声消除中的应用差异时频模态分解技术在带内噪声消除中的应用

 本技术公开了一种基于差异时频模态分解的带内噪声去除方法。步骤如下:采集参考信号xr(t)和混合信号xm(t)，计算二者的归一化时频幅值谱。基于大余量凸优化技术获得最优差异时频谱。以参考信号的归一化时频幅值谱和混合信号的归一化时频幅值谱为样本，采用大余量凸优化技术得到最优差异时频幅值谱。在最优差异时频谱中使用阈值自适应技术去识别不同模态的时频位置；根据时频位置，将混合信号中的时频谱自适应的分解为敏感分量、参考分量和噪声分量的时频谱。利用时频逆变换技术对相应的时频谱进行变换，得到相应的敏感分量、参考分量和噪声分量。本发明从时频的角度进行降噪分析，所得的最优差异权值矩阵具有物理意义，更突出了与敏感分量相关的特征。

2025-01-29 12:28

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工