本技术提供一种基于模态多样性的短视频自动标注方法,属于自动标注领域,包括:获取三种模态以描述短视频的整体表示;将三种模态两两组合形成三种模态组,分别将各模态组合输入多头注意力机制中,以得到增强的视觉特征f
背景技术
近年来,随着多媒体技术的迅猛进步,短视频成为备受欢迎的传播形式,吸引了庞大的用户群体。然而,如何为用户提供更加精准的个性化服务,已成为短视频行业面临的一大挑战。目前,在短视频领域的研究方向主要为个性化推荐、流行度预测以及记忆度建模等。短视频的自动标注功能对于高效利用视频资源、方便检索、分类和管理具有重要意义。而由于短视频包含了多模态信息,这为多标签分类带来了挑战。其关键在于如何有效地整合这些多模态信息,以形成准确的多模态表示。过去的方法在追求多模态一致表示时,往往忽视了模态多样性的考量,这可能导致模态偏差的产生。模态偏差不仅会使表征偏离视频内容,还可能阻碍信息的融合。因此,如何克服这些问题,完成准确率更高的自动标注,成为当前研究的重点。
为了获得更加准确的多模态表示,研究者们从联合表征学习和协调表征学习两个角度进行了研究。联合表征学习致力于将不同模态的信息投影到共享的空间中,然后整合模态信息;协调表征学习则侧重于在保持各个模态表征独立性的同时,探索它们之间的潜在关系。这些研究为探索多标签分类的一致性和互补性提供了许多的有效方案。
在多标签分类中,类别相关性是一个主要的问题。早期的方法如二元关联、校准标签排名等,探究了两标签的关联关系。然而,这些浅层网络很难对复杂的标签关系进行建模。近年来,越来越多的基于图网络的多标签分类方法得到了发展。然而,在多模态场景下,多标签分类面临着更复杂的挑战——建模模态和多标签的潜在关系。
实现思路