由于海洋哺乳动物声音缺乏标注数据,难以利用传统有监督学习训练大型神经网络。本技术利用人声与海洋哺乳动物声音频率重叠的特性,提出了一种Man2M迁移学习方法,有效提高了海洋哺乳动物声音的分类准确性。
背景技术
:
大目前领域内的研究大多关注于检测特定目标海洋哺乳动物,在检测特定单一海洋哺乳动物的声音方面取得相当大进展。然而在多种类的海洋哺乳识别的task上进展缓慢。这主要是因为,第一,不同种类海洋生物的声音频率范围大,传统的海洋哺乳动物声音分类方法很难找到共同的特征来表征不同的海洋哺乳动物的信号进行分类,导致性能低下。第二,海洋哺乳动物的声学数据需要进行长期的调查以获取,且高质量的标注需要深度的专业知识,标记所需要的成本往往很昂贵,导致生物声学领域的数据稀少。而深度学习里的大模型是以数据为驱动的,若直接使用大模型时极易陷入欠拟合,难以达到理想效果。因此,这两个因素阻碍了多种类海洋哺乳声音信号分类的发展。
近年来提出了许多对海洋哺乳动物叫声进行识别的方法,关注的焦点大多是特定物种的单目标检测。截止目前为止所有的方法可以分为两个个大类:基于目标特征提取的方法、基于语谱图的图像识别方法。
第一种方法基于目标特征提取的方法,使用特定算法进行特征或参数提取。这一类方法并不是对相同的特征进行提取,而是尝试对感兴趣的动物信号制作独特的参数表以匹配已知参数。这类方法专注于在特点的带宽里寻找感兴趣地信号,只是根据不同的物种来简单地寻找特定频段的信号能量激增,例如检测某些频段中信号的相对振幅和形状来检测特定生物。这类方法的简单性使它们的虚警率更高,在嘈杂的环境中可靠性差。且针对不同生物的检测,需要专家知识来调整滤波的频率,灵活性差。
第二类方法基于语谱图的识别方法是海洋哺乳动物声学信号识别领域目前的主流方法。这类方法根据海洋生物的声学信号转为语谱图后具有不同轮廓的特性,首先将音频切割成固定长度的片段,再转为语谱图,使用图像检测的方法,检测特定海洋生物信号。
相比与海洋哺乳动物的声学信号识别,说话人识别得到更加广泛的研究。近些年,得益于高质量人声数据集的出现和模型结构的优化,端到端的深度学习模型能够产生高度抽象的embedding feature,其识别精度也逐渐超过传统机器学习方法,成为说话人识别的主流方法。其中,X-vector、Ecapa-tdnn和TitaNet是说话人识别领域主流baseline模型。
X-vector是一种在人声声纹识别领域中常用的深度神经网络架构。得益于其网络中的statistics pooling层,X-VECTORS可接受任意长度的输入,转化为固定长度的特征表达;此外,在训练中引入了包含噪声和混响在内的数据增强策略,并且对于噪声和语言差异也有一定的鲁棒性。
Ecapa-tdnn是对X-vector的模型网络的改进。核心思想是聚合和传播不同层次的特征更加注重通道之间的注意力、信息的传播和聚合,并在statictics pooling中加入Attention机制,通过这种方式,它可以更加有效地捕获声音特性的长期变化。
TitaNet是英伟达提出的说话人表征模型。TitaNet引入了全局上下文的Squeeze-and-Excitation(SE)层,以及通道注意力池化层,可以更好地捕捉说话人的全局特征。并采使用1D深度可分离卷积来提取说话人表示,相比于ECAPA-TDNN具有更好的性能和更小的模型大小。
值得注意的是,人声声纹领域的模型是基于数据驱动的模型,需要庞大的高质量数据。但受限于海洋生物声学数据大小和质量,直接应用人声声纹领域的模型到海洋生物声学信号识别,难以取得预期性能。
实现思路