123技术园

首页 / 信息集成数字服务

工业设备故障诊断新方法：特征分解与重构技术工业设备故障诊断新方法：特征分解与重构技术

 本技术公开了一种基于特征分解与重构的工业跨域声纹故障诊断方法，包括获取工业设备的声音数据信号，并依次进行线性归一化处理、傅里叶变换、梅尔滤波器转换和对数运算得到对数梅尔频谱图；对得到的对数梅尔频谱图进行特征分解，得到谐波分量谱图和冲击分量谱图。本基于特征分解与重构的工业跨域声纹故障诊断方法通过对得到的对数梅尔频谱图进行特征分解，并通过自适应双路特征融合模块对分解后的两个分量谱图进行深层的特征提取，并通过SE模块加强特征信息，通过引入权重进行缩放，起到了良好的鲁棒性和正则作用，解决了工业场景中，声音故障诊断模型不能对未见过的数据分布提供强大的泛化能力的问题。

2025-01-20 15:09

图论驱动的Transformer ASR模型性能评估技术图论驱动的Transformer ASR模型性能评估技术

 本技术涉及一种基于图论的Transformer自动语音识别模型的性能分析方法，属于人工智能与语音识别领域。包括:获取Transformer自动语音识别模型，获取音频数据；将音频数据输入Transformer自动语音识别模型，通过前向传播获取模型中各层的多个注意力头的权重矩阵，提取模型输出的单词文本；对每个注意力头的权重矩阵在给定时间内进行求平均处理，得到该注意力头的人工神经活动；使用皮尔逊相关系数对所述注意力头的人工神经活动进行相关性计算得到相关系数，基于相关系数构建功能连接矩阵；计算功能连接矩阵的图论参数；计算输出的单词文本的单词错误率；基于图论参数和单词错误率，分析Transformer自动语音识别模型的性能。本发明方法对Transformer自动语音识别模型的性能分析提供依据。

2025-01-20 11:27

韵律特征驱动的并行语音合成技术及应用韵律特征驱动的并行语音合成技术及应用

本技术提出了一种基于韵律特征的并行语音合成方法及装置、设备、介质，属于语音合成技术领域。该方法包括:首先将待合成语音文本正则化；将所述正则化语音文本并行转换为音素序列和音素级别韵律序列；将所述音素序列和所述音素级别韵律序列利用声学模型预测其梅尔频谱图；将所述梅尔频谱图利用声码器转换为所述待合成语音文本的语音信号。本专利融合自回归合成和非自回归合成的优势，不仅能有效提升语音合成的音质、流畅度、速度和鲁棒性，而且能实现实时的高效语音合成。基于本专利开发的系统可广泛应用于人工智能领域的智能化语音合成，如智能客服、智能音响、语音播报、地图导航和有声读物等人机交互场景。

2025-01-19 16:17

深度学习技术在录播教室语音增强中的应用深度学习技术在录播教室语音增强中的应用

 本技术公开了一种基于深度学习的录播教室语音增强方法，用于对录播教室内采集的语音信号进行增强处理，以提高录播教室音频清晰度和音频信息可懂度。本发明在传统的深度复卷积神经网络的基础上，提出了一种基于时频长短时记忆网络(F‑T‑LSTM)和混合注意力机制的改进网络结构模型。该模型在深度复卷积递归网络上进行改进，通过引入F‑T‑LSTM结构更加准确地描述语音时域和频域的相关性，并融合通道注意力机制和空间注意力机制形成混合注意力机制，对复数域的语音特征进行更加全面的特征提取，巧妙地将计算力集中于语谱图特征信息最为丰富的领域，从而显著提高复数域下语音增强网络的整体性能，该网络模型具有较好的泛化能力。

2025-01-19 11:26

车站服务机器人：基于乘客意图识别的智能语音问答系统车站服务机器人：基于乘客意图识别的智能语音问答系统

 本技术涉及语音处理技术领域，且公开了一种基于乘客出行意图识别的车站服务机器人语音问答系统包括语料库构建模块、出行问答语音触发词判别模块、乘客出行意图识别模块、多轮问答生成模块和集成云计算的语音问答界面。该系统结合了先进的语音处理、自然语言理解和云计算技术，实现了从语音输入到意图识别、问答生成的完整流程，这种创新的技术融合不仅提高了问答系统的性能，还为乘客提供了更加便捷和智能的出行服务，通过集成云计算和智能提示，能够根据乘客的需求提供智能化的服务和提示。此外，系统还支持多语言和语种，能够根据乘客的语言偏好自动切换界面语言，满足了不同地区乘客的多样化需求。

2025-01-19 09:29

深度学习技术在含噪语音情感识别中的应用深度学习技术在含噪语音情感识别中的应用

本技术属于深度学习中的语音信号处理领域，具体涉及一种基于深度学习的含噪语音情感识别方法，本方法首先将可学习的多特征进行融合作为模型的输入，提升模型任务相关的学习性能；其次引入混合声谱图分块的操作，并逐块的计算多头注意力用以捕获局部的情感信息，实验证明，分块操作可以有效的规避局部噪声带来的干扰问题；最后，本发明将逐帧计算注意力的全局上下文信息与局部情感信息加以融合，促进了模型对于上下文语义上的理解，提高了分类准确性。

2025-01-17 10:20

基于Transformer的母牛发情声谱图特征学习方法及设备基于Transformer的母牛发情声谱图特征学习方法及设备

本技术公开了一种基于Transformer声谱图特征学习的母牛发情检测方法及装置，方法包括:将采集母牛声音数据分割为等时长的声音片段并进行降噪；对降噪后的声音片段进行标注；将所有降噪后的声音片段转换为梅尔声谱图并进行数据增强；构建基于Transformer的声谱图特征学习模型，利用多头自注意力机制对数据增强后的梅尔声谱图进行学习，获取梅尔声谱图的深度特征；构建基于通道注意力机制的母牛发情声音事件检测模型，以梅尔声谱图的深度特征为输入，通过深度学习对深度特征中的时域线索进行分类并串联，实现母牛发情声音事件检测，最终输出发情事件发生的时刻和概率。本发明利用注意力机制对母牛的声音事件进行识别与定位，实现基于声音信号的母牛发情事件检测。

2025-01-16 16:06

流式语音识别技术：注意力机制与边界检测的融合流式语音识别技术：注意力机制与边界检测的融合

 本技术属于语音识别领域，涉及一种基于注意力与边界检测的非流式模型流式语音识别方法，包括:分割音频片段，并对音频片段进行特征提取，生成对数梅尔频谱图；使用非流式语音模型Whisper对音频片段进行转录，提取每帧音频在模型中的交叉注意力，获得对应的注意力权重；设定长度为的滑动窗口，计算窗口内各帧的平均注意力权重。当某窗口的最大平均注意力权重距离音频结束帧的距离小于设定阈值时，控制模型停止解码；使用词边界检测模块，对解码内容进行检测，判断停止解码时是否存在截断的转录词，从而确保正确输出转录结果。同时根据边界检测情况动态调整阈值，以实现精准高效的实时语音识别。

2025-01-16 13:40

多任务驱动的英语发音训练系统与方法多任务驱动的英语发音训练系统与方法

 本技术属于语音识别和语音评估领域，提供了一种基于多任务学习的英语辅助发音训练方法及系统，获取待评估的英语发音音频；对所述英语发音音频进行预处理，提取音频特征，得到英语发音的深度特征向量；利用预训练的自动发音评估模型对深度特征向量进行多粒度评估，确定音素级、单词级和句子级的发音评估结果；利用预训练的发音检测与诊断模型对深度特征向量进行音素识别并计算英语发音的音素错误率；在自动发音评估模型和发音检测与诊断模型的训练过程中，联合优化自动发音评估和错误发音检测与诊断的损失。本发明充分利用自动发音评估和错误发音检测与诊断任务的相关性，提高了发音评估的准确率。

2025-01-16 13:31

脉冲神经网络驱动的音频事件识别技术脉冲神经网络驱动的音频事件识别技术

 本文涉及一种基于脉冲神经网络的未知音频事件识别算法，它包括如下步骤:构建音频数据集，并拆分为训练集、验证集和测试集；对音频数据集中的每段音频数据进行预处理，生成3D log‑mel频谱图；构建脉冲神经网络模型并进行分类训练；使用交叉熵损失和对比损失联合训所述脉冲神经网络模型；使用验证集中的已知类别的音频数据输入至脉冲神经网络和自编码器，获得区分已知类别和未知音频类别的阈值；使用训练好的脉冲神经网络模型对采集的音频数据进行识别。本技术能够在不依赖于预先标注的未知类别信息的情况下，有效地识别和区分未知的声音事件，提高系统的整体识别的准确率，并为后续的未知声音事件分析和处理提供支持。

2025-01-16 11:07

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工