本技术提出了基于多尺度特征和混合3D网络的视频篡改检测方法及系统,涉及计算机视觉技术领域,包括:获取待检测的视频帧,并进行预处理;通过采样处理,获取不同尺度的特征图;将不同尺度的特征图输入至多尺度内部级联网络中,分别利用浅层特征提取模块、时间特征提取模块和空间特征提取模块提取浅层特征、时间特征和空间特征;将所述浅层特征、时间特征和空间特征采用多尺度特征的EMA融合模块进行特征融合,得到融合后的特征;利用融合后的特征进行视频帧检测,获取视频篡改检测结果;其中,所述在时间特征提取模块中引入混合三维卷积结构。本发明能够有效地识别视频帧是否经过了非法插入的篡改操作。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
视频帧插值技术是一种用于在视频序列中生成中间帧的视频篡改方法,目的是提高视频的帧率、平滑运动或增强视觉效果。目前,深度视频帧插值技术在多个领域都有应用,包括电影后期制作、视频游戏、虚拟现实和增强现实等,使生成平滑、逼真的中间帧方面变得更加高效。
但是,它在提高视频质量、增强视觉体验方面具有显著优势的同时,也可能被滥用,带来一些潜在的风险和危害,因此,发展帧插入检测技术变得尤为关键,它不仅可以揭露视频内容的非法篡改,还能为法律程序和内容验证提供关键的技术支持。
同时,由于社会对于高效帧插入检测技术的需求增加,现代视频帧插值技术生成的帧越来越难以被传统检测方法识破,目前检测视频帧插值技术生成的帧的方法主要通过多尺度特征提取、时空分析和混合三维网络等技术。
多尺度特征提取需要确定合适的尺度参数,这通常涉及到超参数的选择和调整,在处理高分辨率图像或视频时,需要高效的算法和强大的硬件支持,可能会增加模型的复杂度,导致过拟合的风险增加。
时空数据通常是高维的,涉及时间序列和多个空间维度。处理和分析这些数据需要高效的算法来管理数据的复杂性。在视频或其他动态场景中,保持时间上的一致性是一个挑战,尤其是在目标或场景快速变化的情况下。
而三维卷积神经网络(3D CNNs)在实际应用中体积的显著问题,有人发明了一种称为MC3的混合卷积网络方法,该方法结合了3D卷积和2D卷积来进行时空特征学习,虽然混合三维网络结合了二维卷积和三维卷积的优点,但其训练可能会更加不稳定,尤其是在使用不同类型的卷积层时,可能会导致梯度消失或爆炸的问题。且在网络结构的早期层中需要进行运动建模。相比之下,在更高级别的语义抽象中,运动建模可能不那么关键,甚至可能被忽略。
视频帧插入技术,即用生成对抗网络等复杂技术来生成与原始视频帧极为相似的插入帧,从而规避检测。这种对抗性攻击使得现有的检测方法难以有效识别。
实现思路