基于自监督辅助任务的深度合成音频跨域检测方法和装置
2025-02-22 16:02
No.1342889334373883904
技术概要
PDF全文
本申请涉及一种基于自监督辅助任务的深度合成音频跨域检测方法和装置,其中,该方法包括:获取待检测音频作为测试数据集;基于预设的自监督辅助任务对测试数据集进行增广处理,得到增广数据集;基于增广数据集,将自监督辅助任务作为优化目标,对预训练的目标检测模型进行微调,得到目标微调模型;目标检测模型的训练任务包括伪造检测任务和自监督辅助任务;将测试数据集输入到目标微调模型中,得到检测结果。通过本申请,解决了相关技术中泛化性不足、跨域检测效果明显下降的问题,提高模型泛化性的同时,能够极大程度上降低模型训练的开销;并且够适应测试数据集中深度伪造属性的分布差异,从而提升跨域检测性能。
背景技术
随着人工智能技术的发展,AI合成语音质量持续提高,难以被人耳区分。由基于深度神经网络的语音合成技术生成的语音音频被称为深度合成音频(deepfake audio)。最新的zero-shot TTS技术只需几句目标说话人的语音即可生成同样音色的任意内容的音频。语音合成技术在带来便利创的同时也带来了极大的安全风险。 现有的合成音频跨域检测方法主要是基于领域泛化(Domain Generalization)思想,通过调整训练过程来提升模型的检测泛化性,从而提升在跨域测试时的表现。具体的方法为:在训练阶段,对训练数据进行添加白噪声、混响、掩码等操作。领域泛化方法的主要缺陷在于:该类方法只基于训练数据包含的信息进行优化,在跨域表现上存在上限。同时,现有方法需要在训练时部署,当出现新的合成音频数据集且现有方法提升后的检测效果依然不佳时,需要重新设计泛化性提升方法并进行重新训练,这在音频合成技术持续发展的现状下会带来巨大的计算开销。 针对相关技术中存在泛化性不足、跨域检测效果明显下降的问题,目前还没有提出有效的解决方案。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
龚斌  程鹏  巴钟杰  王庆龙  任奎
技术所属: 杭州高新区(滨江)区块链与数据安全研究院  浙江大学
相关技术
一种游戏事件提示方法 一种游戏事件提示方法
语音生成方法、装置、设备、存储介质及产品 语音生成方法、装置、设备、存储介质及产品
深度学习辅助的枪声检测与定位方法 深度学习辅助的枪声检测与定位方法
一种基于多层神经网络的多声音事件检测方法 一种基于多层神经网络的多声音事件检测方法
一种基于模态自适应学习的多模态课堂情感识别方法及系统 一种基于模态自适应学习的多模态课堂情感识别方法及系统
一种基于BERT预训练语言模型的语音指令识别方法 一种基于BERT预训练语言模型的语音指令识别方法
复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统 复杂海洋环境下仿嘀嗒声水声仿生通信信号识别方法及系统
基于梯度类激活映射的水下目标噪声源分类模型可解释性方法 基于梯度类激活映射的水下目标噪声源分类模型可解释性方法
语音交互方法、服务器及计算机可读存储介质 语音交互方法、服务器及计算机可读存储介质
一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质 一种语音识别模型的语料扩充方法、装置、电子设备及计算机可读存储介质
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利