基于自监督辅助任务的深度合成音频跨域检测方法和装置

123技术园

首页 / 技术内容

2025-02-22 16:02

No.1342889334373883904

技术概要

PDF全文

本申请涉及一种基于自监督辅助任务的深度合成音频跨域检测方法和装置，其中，该方法包括:获取待检测音频作为测试数据集；基于预设的自监督辅助任务对测试数据集进行增广处理，得到增广数据集；基于增广数据集，将自监督辅助任务作为优化目标，对预训练的目标检测模型进行微调，得到目标微调模型；目标检测模型的训练任务包括伪造检测任务和自监督辅助任务；将测试数据集输入到目标微调模型中，得到检测结果。通过本申请，解决了相关技术中泛化性不足、跨域检测效果明显下降的问题，提高模型泛化性的同时，能够极大程度上降低模型训练的开销；并且够适应测试数据集中深度伪造属性的分布差异，从而提升跨域检测性能。

背景技术

随着人工智能技术的发展，AI合成语音质量持续提高，难以被人耳区分。由基于深度神经网络的语音合成技术生成的语音音频被称为深度合成音频（deepfake audio）。最新的zero-shot TTS技术只需几句目标说话人的语音即可生成同样音色的任意内容的音频。语音合成技术在带来便利创的同时也带来了极大的安全风险。现有的合成音频跨域检测方法主要是基于领域泛化（Domain Generalization）思想，通过调整训练过程来提升模型的检测泛化性，从而提升在跨域测试时的表现。具体的方法为：在训练阶段，对训练数据进行添加白噪声、混响、掩码等操作。领域泛化方法的主要缺陷在于：该类方法只基于训练数据包含的信息进行优化，在跨域表现上存在上限。同时，现有方法需要在训练时部署，当出现新的合成音频数据集且现有方法提升后的检测效果依然不佳时，需要重新设计泛化性提升方法并进行重新训练，这在音频合成技术持续发展的现状下会带来巨大的计算开销。针对相关技术中存在泛化性不足、跨域检测效果明显下降的问题，目前还没有提出有效的解决方案。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

龚斌程鹏巴钟杰王庆龙任奎

技术所属：杭州高新区（滨江）区块链与数据安全研究院浙江大学

相关技术

一种游戏事件提示方法  一种游戏事件提示方法 
 本发明提供了一种游戏事件提示方法，其中方法包括读取UI界面，UI界面包括显示组件；根据显示组件和UI界面构建红点树结构；将红点树结构中的树节点与游戏事件绑定；获取显示模式，若显示模式为提示模式，则对发生事件的树节点关联的界面元素进行红点提示。通过红点树结构组织UI界面中的不同显示组件，可以体现不同显示组件之间的关联关系。由于树节点具有根节点，当树节点发生事件时，该树节点的根节点也发生事件。基于树节点和根节点之间的关联关系，对发生事件的树节点对应的界面元素，以及该树节点的根节点对应的界面元素一起添加提示点，从而提高向游戏界面中的界面元素添加提示点的效率，且防止漏添加提示点。
语音生成方法、装置、设备、存储介质及产品  语音生成方法、装置、设备、存储介质及产品 
 本申请实施例提供了一种语音生成方法、装置、设备、存储介质及产品，该方法包括:提取待处理文本的文本特征，并提取待处理场景图像的场景图像特征。基于图像特征和声学特征之间的映射关系，对该场景图像特征进行映射处理，得到该场景图像特征对应的声学特征。基于该文本特征和该场景图像特征对应的声学特征，生成与待处理文本相对应，且与该待处理场景图像所指示场景的环境音效相匹配的目标语音。本申请实施例的技术方案在生成文本对应的语音的过程中考虑场景图像所指示的环境因素，在能传达预期信息的同时，还能准确反映场景图像所对应的场景，使得生成的语音更具沉浸感和真实感，在一定程度上提高了语音生成的效果。
深度学习辅助的枪声检测与定位方法  深度学习辅助的枪声检测与定位方法 
 本发明涉及一种深度学习辅助的枪声检测与定位方法，属于声音定位技术领域，包括枪声检测阶段和声源到达方向(DOA)估计阶段；在枪声检测阶段利用卷积神经网络(CNN)对捕获的声音信号进行分类，对于属于枪声的声音信号，再进入DOA估计阶段，利用CNN定位枪声的声源到达方向；本发明将接收信号的多声道语谱图作为输入特征，具有灵活、成本低的特点，可以从更长期的角度获取接收到的声音信号的更多信息，也更好地利用基于CNN的深度学习网络，而且只需要很小尺寸的双麦克风即可满足DOA估计的输入要求。
一种基于多层神经网络的多声音事件检测方法  一种基于多层神经网络的多声音事件检测方法 
 一种基于多层神经网络的多声音事件检测方法，涉及声音事件检测领域。本发明提出基于融合经验模态分解算法、胶囊网络，注意力机制和双向门控循环网络的弱标记多声音事件检测模型。在该模型中，首先使用AMM‑EMD算法进行预处理，丰富声音事件特征信息，并引入并行卷积结构提取高级特征信息；再利用胶囊网络强大的泛化能力和注意力机制捕捉全局依赖性的能力，对高级特征进一步处理；同时，利用BiGRU模块获取上下文信息。本发明提出的模型在不同的数据集上进行对比消融实验，利用F1和ER评价声音事件检测效果，本发明提出的模型均比其他基线模型有所改善，F1和ER均有提高。
一种基于模态自适应学习的多模态课堂情感识别方法及系统  一种基于模态自适应学习的多模态课堂情感识别方法及系统 
 本发明属于但不限于情感识别技术领域，公开了一种基于模态自适应学习的多模态课堂情感识别方法及系统，通过构建多模态数据采集系统，实时采集课堂教学过程中的文本、音频和视频等多模态数据，并对不同模态的数据进行预处理与特征提取。针对不同课堂场景的情感表达特征差异，提出基于自适应模态评分(AMS)的多模态数据融合方法，并构建时序建模与情感分类模型。本发明的多模态融合与时序建模机制，模拟教师对课堂上学生情感状态的多维度感知，增强了情感识别系统的可解释性。该系统通过多模态数据的融合，将来自文本、音频和视频的数据特征进行加权融合，形成完整的情感特征表示。
一种基于BERT预训练语言模型的语音指令识别方法  一种基于BERT预训练语言模型的语音指令识别方法 
 本发明涉及语音识别技术领域，公开了一种基于BERT预训练语言模型的语音指令识别方法，该方法包括:接收待识别语音，并通过自动语音识别模型将待识别语音转化为文本序列；微调BERT预训练语言模型，并利用微调后的BERT预训练语言模型对文本序列进行文本分类，得到待识别语音对应的指令类别；利用知识蒸馏对微调后的BERT预训练语言模型进行模型压缩，得到序列分类模型；利用序列分类模型对文本序列进行特征提取，得到待识别语音对应的指令类别标签，本发明考虑到音频数据较文本数据更难获取的情况，选用BERT预训练语言模型，提高分类准确性，利用知识蒸馏进行模型压缩，识别到待识别语音指令类别标签，为人机交互提供数据支撑。
复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统  复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统 
 本发明涉及水声信号处理技术领域，特别涉及一种复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统，构建包含真实鲸目动物嘀嗒声信号和仿嘀嗒声水声仿生通信信号的训练集，将训练集中每个信号音频样本分为固定帧子信号样本；提取每一帧子信号的七类特征，构建融合特征向量，再将所有子信号的融合特征向量组成融合特征图像；搭建水声仿生通信信号识别模型，并使用训练集进行模型优化；将待识别信号样本分为固定帧子信号样本后，得到融合特征图像，并输入训练好的水声仿生通信信号识别模型中得到识别结果。本发明能够在小样本长度和复杂水声信道环境下实现仿嘀嗒声水声仿生通信信号的精确识别。
基于梯度类激活映射的水下目标噪声源分类模型可解释性方法  基于梯度类激活映射的水下目标噪声源分类模型可解释性方法 
 一种基于梯度类激活映射的水下目标噪声源分类模型可解释性方法。第一部分:先对数据作预处理，再对于每一种类的音频，需要提取其每一帧的MFCC倒谱，将提取的倒谱堆叠后输入TDNN网络，得到每一种类音频的声纹特征。第二部分：先对声纹数据进行归一化处理；再运用有标签的归一化后声纹数据作为特征空间训练分类模型C＆lt;subgt;y＆lt;/subgt;；最后在达到训练精度要求后保存模型参数。第三部分：首先使用整合梯度方法计算声纹特征的每个维度在该分类模型中的整合梯度大小，依次来作为其贡献度的指标；接下来，使用类激活映射方法，对特定卷积层输出的特征图的梯度进行全局平均池化，并生成热图；最后将两种方法所得结果结合起来，生成细粒度的可解释性结果。
语音交互方法、服务器及计算机可读存储介质 语音交互方法、服务器及计算机可读存储介质
本申请公开一种语音交互方法、服务器及计算机可读存储介质，所述方法包括:接收车辆转发的当前语音请求，在根据当前语音请求未能确定出与当前语音请求相对应的车辆控制指令的情况下，根据大语言模型、当前语音请求及目标语言风格信息，确定目标引导信息及将目标引导信息反馈以引导用户完成语音交互。如此，本申请的服务器可在未能确定出与语音请求相对应的车辆控制指令的情况下，根据当前语音请求、目标语言风格信息及大语言模型，确定用于引导用户对语音请求进行调整，且与目标语言风格匹配的目标引导信息，及通过目标引导信息引导用户对语音请求进行调整以完成语音交互，使得用户对于车辆语音交互功能及车辆的使用体验能得到保障。
一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质 一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质
本发明的实施例提供了一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质，方法包括:获取语音识别模型中的正确文本和错误文本；对正确文本进行分词，得到多个正确词汇，将错误文本进行分词得到多个错误词汇；针对每个错误词汇，确定语音识别模型将正确词汇替换为该错误词汇的第一次数以及该错误词汇在错误文本中出现的第二次数；确定错误词汇对应的错误文本的成句的第一概率和正确词汇对应的正确文本的成句的第二概率；确定正确词汇替换为错误词汇的概率；在正确词汇替换为错误词汇的概率大于预设概率阈值时，将错误词汇添加至语音识别模型的语料中。无需进行人工对语料进行识别并扩充，节约成本。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工