123技术园

首页 / 信息集成数字服务

一种智能座舱语音交互系统的安全控制方法及装置一种智能座舱语音交互系统的安全控制方法及装置

 本技术公开了一种智能座舱语音交互系统的安全控制方法及装置，该方法包括:获取车辆动态信息和驾驶员动态信息；根据驾驶员动态信息，判断驾驶员是否处于疲劳或睡眠状态，从而实现驾驶员危险状态评估；根据车辆动态信息，检测车辆所处状态及周围是否存在危险情况，从而实现车辆危险状态评估；根据驾驶员及车辆危险状态评估的结果，切换智能座舱语音交互系统至对应的工作模式，其中工作模式包括普通工作模式、安全工作模式及危险环境模式，普通工作模式下车辆接受所有语音命令并执行相应操作，安全工作模式下车辆接受已注册人员的语音命令并执行相应操作，危险环境模式下车辆接受物理按键触发，并配合驾驶员的语音命令执行相应操作。

2025-02-22 16:14

基于自监督辅助任务的深度合成音频跨域检测方法和装置基于自监督辅助任务的深度合成音频跨域检测方法和装置

 本文涉及一种基于自监督辅助任务的深度合成音频跨域检测方法和装置，其中，该方法包括:获取待检测音频作为测试数据集；基于预设的自监督辅助任务对测试数据集进行增广处理，得到增广数据集；基于增广数据集，将自监督辅助任务作为优化目标，对预训练的目标检测模型进行微调，得到目标微调模型；目标检测模型的训练任务包括伪造检测任务和自监督辅助任务；将测试数据集输入到目标微调模型中，得到检测结果。通过本申请，解决了相关技术中泛化性不足、跨域检测效果明显下降的问题，提高模型泛化性的同时，能够极大程度上降低模型训练的开销；并且够适应测试数据集中深度伪造属性的分布差异，从而提升跨域检测性能。

2025-02-22 16:02

语音处理方法、装置、设备及存储介质语音处理方法、装置、设备及存储介质

本公开提供一种语音处理方法、装置、设备及存储介质，涉及语音处理技术领域。在本公开的一些实施例中，获取原始声音信号；对原始声音信号进行方位估计，得到原始声音信号包含的多个声源的位置；对多个声源进行波束分离，得到多个声源的初始声音信号；提取原始声音信号中的目标声源的声纹特征；将原始声音信号、多个声源的位置、初始声音信号和目标声源的声纹特征输入声纹分离网络中，得到多个声源的目标声音信号；本公开基于原始声音信号、多个声源的位置、初始声音信号和目标声源的声纹特征，进行多个声源的声纹分离，利用声纹分离网络可以提高声纹分离的精度，提高泛化性能。

2025-02-22 15:22

基于深度学习的智能语音分离系统基于深度学习的智能语音分离系统

本技术公开了基于深度学习的智能语音分离系统，本发明通过对高维特征向量序列预处理后，计算音频帧的音高频率和MFCC系数，进行量化、归一化及融合操作，再经一系列计算得到分离后的语音信号分量特征序列，充分考虑了音色和音高特征对语音源相关性的影响，提高了语音分离的准确性，同时在分离完成后，对分离后的各个语音信号分量进行分离质量指数的计算，基于分离质量指数比对的结果标记优化信号分量，将优化信号分量通过多次重复输入模型进行优化，进一步提升了分离精度。

2025-02-22 15:15

单通道音频转文本的方法、装置、电子设备及存储介质单通道音频转文本的方法、装置、电子设备及存储介质

本文公开了单通道音频转文本的方法、装置、电子设备及存储介质，所述单通道音频转文本的方法包括:获取会议场景中两次语音停顿之间的参会人发言的待转写音频；获取所述待转写音频中各参会人的角色音量信息；根据各所述角色音量信息，在各参会人中确定理论输出所述待转写音频的目标参会人；将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本。本申请解决了多角色参与的音频转写成具有参会人信息的音频文本对CPU性能要求较高的技术问题。

2025-02-22 15:07

一种音频数据的处理方法、对应装置、设备和存储介质一种音频数据的处理方法、对应装置、设备和存储介质

本文实施例公开了一种音频数据的处理方法、对应装置、设备和存储介质，该方法包括:针对音频的每一个数据帧，对数据帧的数据部分进行处理，得到基础数据和扩展数据；根据数据帧的基础数据和至少一个其他数据帧的基础数据，确定数据帧的基础数据对应的校正数据；将音频的各个数据帧对应的基础数据、扩展数据和校正数据发送至数据接收端，以使数据接收端根据对应的校正数据恢复损坏的基础数据后，与扩展数据组合进行播放操作。用以在音频数据损坏时，提高数据恢复的概率和恢复后的音频数据的质量。

2025-02-22 13:45

一种用于语音增强的多自注意力域方法及系统一种用于语音增强的多自注意力域方法及系统

 本技术涉及语音增强技术领域，公开了一种用于语音增强的多自注意力域方法及系统，包括:采集含有噪音的语音信息；构建MSAF模型的网络架构；将所述语音信息并行输入到N个自注意力模块中；将每个自注意力模块的输出与一个可训练的从高斯分布中随机采样的系数相乘，得到最终输出的增强后干净的语音。通过融合不同位置自注意力层的自注意力模块，能够从多个维度学习到含有噪声的语音中的干净语音特征，从而实现更优的语音增强效果。在提高语音质量方面具有可比性，并且在分段SNR和语音清晰度方面优异。

2025-02-21 21:37

一种语音处理方法、装置、设备及存储介质一种语音处理方法、装置、设备及存储介质

本文实施例提供一种语音处理方法、装置、设备及存储介质，其中的方法可包括:确定待处理的目标语音帧对应的历史语音帧；获取历史语音帧的频域特征和历史语音帧的时域参数；提取历史语音帧的时域参数的统计特征；调用网络模型对历史语音帧的频域特征、历史语音帧的时域参数及历史语音帧的时域参数的统计特征进行预测处理，得到目标语音帧的参数集，参数集中包含至少两个参数；根据参数集重建目标语音帧。本申请实施例能够弥补传统信号分析处理技术的不足，提升语音处理能力。

2025-02-21 19:44

语音识别系统的训练方法和装置、语音识别方法和装置语音识别系统的训练方法和装置、语音识别方法和装置

本文实施例提供了一种语音识别系统的训练方法和装置、语音识别方法和装置，应用于语音识别技术领域。该方法包括:对目标说话人的音频数据进行关键特征提取，得到音频数据的声学特征；根据声学特征和预设的训练样本集，提取训练样本集的声纹特征；将声学特征和声纹特征合并，得到融合声纹特征；基于训练样本集和融合声纹特征训练声学模型的卷积神经网络模块，得到训练后的声学模型；依据训练样本集对已构建的语言模型进行训练，得到训练后的语言模型。本申请实施例实现了声纹特征自适应的语音识别系统的训练，解决了现有技术语音识别准确率不高的问题。

2025-02-21 19:23

语音速率识别技术、系统、设备及存储介质语音速率识别技术、系统、设备及存储介质

本文公开了一种语速识别方法、装置、设备及可读存储介质，涉及机器学习领域。该方法包括:获取语音数据，语音数据中包括至少两帧语音帧；提取语音帧的基音周期状态；建立与基音周期状态对应的直方统计图；基于直方统计图进行语速预测，得到语速识别结果。通过提取语音数据中语音帧的基音周期状态，并根据基音周期状态的连续分布情况对语音数据的语速进行识别，而无需针对语音数据进行语音识别得到文本内容后，根据文本内容确定语速，提高了语速识别的效率，且由于语音识别所需要进行的计算量较大，故通过基音周期状态进行语速识别能够减少设备的计算量，减少对设备计算量的占用。

2025-02-21 17:35

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工