本技术涉及一种融合多模态信息和类别平衡技术的不良视频识别方法及其系统。该技术通过将数据集输入至不良视频识别模型进行训练,有效提升了模型的分类准确性。
背景技术
短视频平台以内容丰富、时长短的特点吸引了广大用户并得以迅速崛起,但其自由度极高的创作环境必然的引起了平台作品的监管难题,使得对短视频内容实施有效监管变得异常困难。其中,防止性暗示类视频的传播具有很强的现实意义。原因在于其对立类别性教育类视频在消除人类性羞耻感以及关注人类性健康方面发挥了重要作用,但是不法分子为了规避监管,采取各种方法,使得性暗示类视频与性教育类视频以及正常视频三者之间的界限变得模糊,增加了鉴别难度。因此,为了维护社会利益和公众心理健康,如何利用人工智能技术提出一种有效且准确的不良视频分类方法显得尤为迫切。
目前,传统的单模态视频分类方法难以应对不良短视频分类,原因可以总结如下:
1)单模态视频分类方法主要依赖视频内部同一模态的差异性特征,区分不同类别的视频。举例而言,在某特定分类任务中,模型通常可以根据场景中特定的设施以及具有差异性的人体动作来进行分类,例如体育视频分类任务中,识别跳高,跳远等不同的体育活动。然而,不同于具象化类别的视频,性暗示类视频、性教育类视频以及正常视频是一种抽象概念,其不具备易于算法分类的独特场景以及人类活动,很难提取具象化的共性特征,视频创作者可以在任意场景及无特定人体动作下完成性知识的科普以及日常趣事的分享等活动;且正常视频内容可细分为各种日常活动、虚拟特效甚至是动物、植物的活动等,其视觉内容也具有高度多样性,仅依赖于单一模态信息对所有正常视频抽象出一致性是极其难以实现的。
2)在实际应用场景中,正常视频的数目较之性暗示以及性教育类视频具有天然优势,这给模型的训练带来了不小的挑战。原因在于,为了最快收获效益,模型更倾向于优化常见类别,而忽略对罕见类别的学习。这种偏差式的学习,导致模型忽视罕见类别的特征,无法挖掘不同类别的独特性特征,引发模型对常见类别的过拟合问题。
实现思路