123技术园

首页 / 信息集成数字服务

多域声学特征融合技术在说话人识别中的应用多域声学特征融合技术在说话人识别中的应用

 本技术涉及一种基于多域声学特征融合的说话人识别方法，包括以下步骤:获取待识别的语音数据；分别提取每个语音数据的频谱图和分数频谱图；将频谱图和分数频谱图经过滤波器组，分别得到第一Fbank特征和第二Fbank特征，并将第一Fbank特征和第二Fbank特征组合成声学特征；采用特征融合方法将声学特征融合；将融合后的声学特征输入说话人识别网络模型中，得到待识别说话人语音的声纹特征；根据待识别说话人语音的声纹特征，得到识别结果。本发明得到了高精度和高区分度的声纹特征，提高了说话人识别准确性。

2025-02-12 16:22

智能语音转换处理技术与系统智能语音转换处理技术与系统

 本技术属于信息处理领域，本发明提供了一种语音转换的信息处理方法和系统，包括:基于所有收集语音数据的接口，获取所有需要语音转换的语音信号数据，进行降噪处理，得到初降噪语音信号；获取语音信号的基频和共振峰位置，分析处理得到性别特征值并将其进行划分；基于性别分类后的语音信息，获取语音信息的波形数据进行综合分析处理得到情绪特征值并分类处理；基于降噪处理后的语音信息，转换出语音信息对应的官方文字信息并将语音信息携带的性别和情绪信息附加在文字信息中；将语音转换后的官方语言文字转换成官方语音信息，并将语音信息携带的性别和情绪信息附加在转换后的语音信息中，提高人机交互的质量，改善人类日常生活和工作体验。

2025-02-12 16:21

多尺度全局卷积网络在语音关键词识别中的应用多尺度全局卷积网络在语音关键词识别中的应用

 本技术公开了基于多尺度全局卷积网络的语音关键词识别方法及系统，涉及语音识别技术领域，包括以下步骤:通过预卷积块对语音信息进行预处理获得初步语音特征；在多尺度特征融合残差模块中，处理初步语音特征同时降低不相关信息对语音特征的干扰；在最终卷积块中，对多尺度特征融合残差模块输出的语音特征进行处理获得最终语音特征；所述最终语音特征经过最大池化层和全连接层后，得到关键词识别结果。本发明中分别在时域与频域中提取更深层次的语音信息，避免不同领域信息之间可能存在的相互干扰；时域全局卷积和频域全局卷积可分别在时域和频域中捕捉语音信息的全局特征，增强模型的全局特征感知能力以学习更丰富的特征表示。

2025-02-12 16:08

深度学习训练与语音降噪技术深度学习训练与语音降噪技术

本文实施例提供一种神经网络的训练方法、语音降噪方法、计算机程序产品、设备及存储介质。在训练神经网络时，可以对神经网络的网络参数进行位宽截断处理，利用位宽截断处理后的网络参数确定的降噪参数的准确度，以及位宽截断处理对网络参数本身的影响作为神经网络训练过程中的约束，从而可以最小化位宽截断处理对数据精度的影响，训练得到轻量级且性能较好的语音降噪神经网络，使得该轻量级的语音降噪神经网络可以部署到低性能的语音采集设备中。

2025-02-12 15:31

多语言文本实体语义识别技术、系统与存储解决方案多语言文本实体语义识别技术、系统与存储解决方案

本文公开了一种跨语言文本中实体语义识别处理方法、系统及存储介质，根据不同单词和相同单词在不同语言类别中进行发声的音素的长度不同，记录多个音素不同组成方式和对应的含义，将一串发声的音素对应的多个单词构建语句表。将语句表中的多类语言类别的单词翻译为同一语义类别，使得能够按照单词的语义来进行语义识别。本申请根据用户停顿情况进行语义的检测相较于普通按照前一个单词进行检测，能够更加准确地进行语义识别，通过语句表进行多种语言的语义识别，大大减轻了计算机的计算量，更加准确快速的对其进行跨语言文本的语义识别。即，本申请的方案可以把包含不同语言类别的语句翻译成预设的语言类别的语句，且翻译准确性高。

2025-02-12 11:14

智能文本转语音技术与系统智能文本转语音技术与系统

 本文提供一种高效文字转语音的方法及系统。其中，接收用户输入的文本信息，识别并分析所述文本信息中的情感色彩和语气特征；根据所述情感色彩和所述语气特征，从预先构建的情感语音库中选择相匹配的基础语音片段的数据集；利用动态时间规整算法调整所述基础语音片段的时间轴，使所述基础语音片段的时间轴与所述文本信息的语速相适应的同时保持所述情感色彩的一致性；采用频谱融合技术，将调整后的时间轴与所述文本信息的音素序列进行融合，生成语音输出，其中，所述频谱融合技术用以确保不同的情感色彩的基础语音片段在连接处平滑过渡。本申请提供的技术方案提高了语音合成的情感表达能力、自然度和连贯性，从而大幅提升了用户体验。

2025-02-11 21:21

智能呼叫系统中的语义识别技术与应用智能呼叫系统中的语义识别技术与应用

 本技术涉及语音识别技术领域，具体涉及一种用于智慧呼叫的语义识别方法及系统。本发明首先获取用户呼叫的每句呼叫语句的语音文本、回应时间和答案文本；进一步根据目标用户呼叫中语音文本与每类答案文本的相似特征，获取目标用户呼叫与每类答案文本的匹配系数，确定目标用户呼叫对应的答案文本类别；进一步根据相同答案文本类别相邻的用户呼叫中语音文本的相似特征，目标用户呼叫中呼叫语句与对应答案文本的相似特征和回应时间，以及相邻呼叫语句的相似特征，结合匹配系数，从多个方面准确评估系统对于目标用户呼叫的修正识别效率，使得系统能够及时发现识别效率的瓶颈，从而针对性地对系统进行优化，提升系统的智能化水平。

2025-02-11 21:12

分布式光纤声波传感技术在语音增强中的应用分布式光纤声波传感技术在语音增强中的应用

 本文公开了一种基于分布式光纤声波传感系统的语音增强方法，涉及语音增强技术领域。本申请中构建的语音增强网络包括编码器模块，编码器模块的输出端依次连接第一个Reshape层、第一个TCNS模块、第二个TCNS模块、第一个GRU模块、第二个GRU模块、第二个Reshape层以及Add层，编码器模块的输出端还与Add层的输入端连接，Add层的输出端连接解码器模块，编码器还与解码器相连接；本申请中解码器能够获得预测的增强的复数频谱，本申请所述语音增强方法得到的增强后的时域语音信号的时域波形在拟合度和相似性上会显示出更少的噪音成分，而且也具有更多的与原始语音信号相同的语音特征。

2025-02-11 20:11

智能音频处理技术：云与AI的融合解决方案智能音频处理技术：云与AI的融合解决方案

本文实施例提供了一种音频处理方法、装置、电子设备及介质，涉及云技术及人工智能技术领域。该方法包括:获取待处理音频；确定所述待处理音频的至少一个初始分段时间点；确定所述待处理音频中各所述初始分段时间点各自对应的至少一个静音片段；根据各所述初始分段时间点各自对应的至少一个静音片段，确定各所述初始分段时间点对应的目标分段时间点；根据各所述目标分段时间点，得到所述待处理音频的各音频片段；对各所述音频片段进行语音识别，并基于各所述音频片段的语音识别结果得到对应于目标语言的文本。本申请实施例提高了语音识别结果的准确性。

2025-02-11 09:44

定向声音采集技术：方法、设备、电子装置与存储介质定向声音采集技术：方法、设备、电子装置与存储介质

本文涉及一种定向拾音方法、装置、电子设备和存储介质，该方法包括:获取麦克风阵列；根据麦克风阵列确定麦克风接收信号、目标方向的延迟求和波束形成器权值；根据麦克风接收信号、目标方向的延迟求和波束形成器权值确定近端信号和远端信号；将近端信号和远端信号输入自适应对消滤波器输出自适应滤波器输出信号；VAD检测自适应滤波器输出信号，若检测结果为检测到语音，则进行缓存得到缓存语音信号；计算缓存语音信号的整体波达方向；判断缓存语音信号的整体波达方向是否在拾音区内，根据判断结果对缓存语音信号进行处理。本申请引入自适应滤波器实现对干扰噪声的强力抑制，结合整体的波达方向，判断识别结果是否有效，使误识别得到大幅抑制。

2025-02-10 22:31

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工