基于人声迁移学习的海洋哺乳动物声音识别技术
2025-02-09 14:15
No.1338151374982225920
技术概要
PDF全文
由于海洋哺乳动物声音缺乏标注数据,难以利用传统有监督学习训练大型神经网络。本技术利用人声与海洋哺乳动物声音频率重叠的特性,提出了一种Man2M迁移学习方法,有效提高了海洋哺乳动物声音的分类准确性。
背景技术
: 大目前领域内的研究大多关注于检测特定目标海洋哺乳动物,在检测特定单一海洋哺乳动物的声音方面取得相当大进展。然而在多种类的海洋哺乳识别的task上进展缓慢。这主要是因为,第一,不同种类海洋生物的声音频率范围大,传统的海洋哺乳动物声音分类方法很难找到共同的特征来表征不同的海洋哺乳动物的信号进行分类,导致性能低下。第二,海洋哺乳动物的声学数据需要进行长期的调查以获取,且高质量的标注需要深度的专业知识,标记所需要的成本往往很昂贵,导致生物声学领域的数据稀少。而深度学习里的大模型是以数据为驱动的,若直接使用大模型时极易陷入欠拟合,难以达到理想效果。因此,这两个因素阻碍了多种类海洋哺乳声音信号分类的发展。 近年来提出了许多对海洋哺乳动物叫声进行识别的方法,关注的焦点大多是特定物种的单目标检测。截止目前为止所有的方法可以分为两个个大类:基于目标特征提取的方法、基于语谱图的图像识别方法。 第一种方法基于目标特征提取的方法,使用特定算法进行特征或参数提取。这一类方法并不是对相同的特征进行提取,而是尝试对感兴趣的动物信号制作独特的参数表以匹配已知参数。这类方法专注于在特点的带宽里寻找感兴趣地信号,只是根据不同的物种来简单地寻找特定频段的信号能量激增,例如检测某些频段中信号的相对振幅和形状来检测特定生物。这类方法的简单性使它们的虚警率更高,在嘈杂的环境中可靠性差。且针对不同生物的检测,需要专家知识来调整滤波的频率,灵活性差。 第二类方法基于语谱图的识别方法是海洋哺乳动物声学信号识别领域目前的主流方法。这类方法根据海洋生物的声学信号转为语谱图后具有不同轮廓的特性,首先将音频切割成固定长度的片段,再转为语谱图,使用图像检测的方法,检测特定海洋生物信号。 相比与海洋哺乳动物的声学信号识别,说话人识别得到更加广泛的研究。近些年,得益于高质量人声数据集的出现和模型结构的优化,端到端的深度学习模型能够产生高度抽象的embedding feature,其识别精度也逐渐超过传统机器学习方法,成为说话人识别的主流方法。其中,X-vector、Ecapa-tdnn和TitaNet是说话人识别领域主流baseline模型。 X-vector是一种在人声声纹识别领域中常用的深度神经网络架构。得益于其网络中的statistics pooling层,X-VECTORS可接受任意长度的输入,转化为固定长度的特征表达;此外,在训练中引入了包含噪声和混响在内的数据增强策略,并且对于噪声和语言差异也有一定的鲁棒性。 Ecapa-tdnn是对X-vector的模型网络的改进。核心思想是聚合和传播不同层次的特征更加注重通道之间的注意力、信息的传播和聚合,并在statictics pooling中加入Attention机制,通过这种方式,它可以更加有效地捕获声音特性的长期变化。 TitaNet是英伟达提出的说话人表征模型。TitaNet引入了全局上下文的Squeeze-and-Excitation(SE)层,以及通道注意力池化层,可以更好地捕捉说话人的全局特征。并采使用1D深度可分离卷积来提取说话人表示,相比于ECAPA-TDNN具有更好的性能和更小的模型大小。 值得注意的是,人声声纹领域的模型是基于数据驱动的模型,需要庞大的高质量数据。但受限于海洋生物声学数据大小和质量,直接应用人声声纹领域的模型到海洋生物声学信号识别,难以取得预期性能。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
关东海  易强龙  袁伟伟
技术所属: 南京航空航天大学
相关技术
基于多尺度全局卷积网络的语音关键词识别方法及系统 基于多尺度全局卷积网络的语音关键词识别方法及系统
神经网络的训练方法、语音降噪方法、设备及存储介质 神经网络的训练方法、语音降噪方法、设备及存储介质
跨语言文本中实体语义识别处理方法、系统及存储介质 跨语言文本中实体语义识别处理方法、系统及存储介质
一种高效文字转语音的方法及系统 一种高效文字转语音的方法及系统
一种用于智慧呼叫的语义识别方法及系统 一种用于智慧呼叫的语义识别方法及系统
基于分布式光纤声波传感系统的语音增强方法 基于分布式光纤声波传感系统的语音增强方法
音频处理方法、装置、电子设备及介质 音频处理方法、装置、电子设备及介质
一种定向拾音方法、装置、电子设备和存储介质 一种定向拾音方法、装置、电子设备和存储介质
语音识别系统的重打分方法、装置、电子设备和存储介质 语音识别系统的重打分方法、装置、电子设备和存储介质
一种语音辅助阅卷的声音智能识别方法及系统 一种语音辅助阅卷的声音智能识别方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利