本技术请求保护一种基于轻量级深度学习模型的视频编码CU块分类方法,适用于视频编码领域。该方法首先对输入图像进行分块处理,将其划分为多个128×128像素的图像块,并提取每个图像块的亮度信息。通过归一化处理后,亮度数据作为深度学习模型的输入,用于生成多个类别的分类概率。对于每个图像块的子单元,逐像素比较不同类别的概率,并为其分配最高概率的类别标签。随后,基于子单元的分类结果,统计每个CU块中各类别的数量,并根据统计信息为CU块分配对应的类型。CU块可同时属于多个类别,采用按位操作确定其最终类别。本发明通过精确的CU块分类,不仅提高了编码效率,还为后续的模式划分和选择提供了数据支持,适用于实时性要求较高的视频编码应用场景。
背景技术
随着互联网应用的发展,用户对视频质量的要求不断提升,高清超高清视频开始了大规模应用。摄像机拍摄的自然场景视频、计算机生成的文本动画等屏幕内容、带有运动的文字和图形视频等各类视频消费均大规模增长。在远程教育、商务会议等应用场景中,屏幕内容数据量的传输需求显著增加。屏幕内容编码(Screen Content Coding,SCC)场景的图像特征不同于自然场景,主要包含图形、文本、UI元素等静态或半静态的高频内容。为了满足这种多样化的视频内容需求,2016年,视频编码联合协作小组(Joint CollaborationTeam on Video Coding,JCT-VC)发布了以高效视频编码HEVC为基础扩展的屏幕内容编码标准(Screen Content Coding,SCC),即HEVC-SCC。针对屏幕内容增加了帧内块拷贝(IntraBlock Copy,IBC)、调色板模式(Palette,PLT)、自适应运动矢量精度(Adaptive MotionVector Resolution,AMVP)以及自适应颜色转换(Adaptive Color Transform,ACT)等技术。2020年,联合视频专家团队(Joint Video Experts Team,JVET)开发了新一代视频编码标准VVC,即H.266/VVC。VVC继承了HEVC-SCC中的屏幕内容编码工具。相比HEVC,VVC通过支持灵活的CU块划分方式等先进编码技术,进一步提升了编码效率。
VVC为了提升编码效率,采纳了基于四叉树加多类型树(Quad-tree Plus Multi-type Tree,QTMT)的CU块划分结构、多行参考线(Multiple Reference Line,MRL)预测、帧内子块划分模式(Intra Sub-Partitions Mode,ISP)等技术,允许根据图像特征自适应选择CU块的划分和编码方式。这种划分方式在应对自然场景视频时表现出较高的编码效率,但在屏幕内容编码中,由于屏幕内容的特殊特征,如高频边缘、重复图案和静态区域,编码器面临显著的计算挑战。尤其在实时应用中,如何在保证编码质量的前提下,有效区分自然内容CU块和屏幕内容CU块成为一项关键问题。
基于深度学习的CU块分类方法逐渐成为研究热点。利用卷积神经网络CNN等深度学习模型,可以将CU块划分为自然内容CU(CC类)和屏幕内容CU(包括A类、TGM类和Mixed类),从而减少编码复杂度。具体而言,深度学习模型可以识别CU块的纹理特征,通过分类预测CU块属于自然场景或屏幕内容,并相应调整编码策略,提高编码效率和压缩效果。因此,将深度学习应用于视频编码领域是当前一个重要研究方向。
本发明提出了一种基于轻量级深度学习模型的视频编码CU块分类方法。通过深度学习模型的预测能力,自动将CU块分类为自然内容CU块或屏幕内容CU块,并采用相应的编码方法,既满足了屏幕内容的编码需求,又有效降低了编码器在处理屏幕内容时的计算复杂度,为高质量视频编码的实时应用提供技术支持。
经过检索,申请公开号CN114286093A,一种基于深度神经网络的快速视频编码方法。本发明包括基于深度神经网络的CU划分模块、基于邻域相关性的PU模式选择模块;CU块在帧内编码时会先经过PU模式选择计算率失真代价,此时先利用基于邻域相关性的PU模式选择模块进行优化,通过轻量级HCT模型的预测结果来减少RDO计算的候选模式数量;PU模式选择结束后,编码器会进行CU块深度判决,判断该CU块是否进行划分,此时由基于深度神经网络的CU划分模块进行优化,从HCT模型获得预测结果来判断是否提前终止划分。否则继续向下划分子CU块,并继续进行PU模式选择和CU块划分判决。本发明降低了CU递归划分的复杂度,简化了帧内预测模式的选择过程,有效地提高了HEVC编码的时间效率。
专利CN114286093A提出了一种基于深度神经网络的快速视频编码方法,通过PU邻域相关性和轻量级HCT模型来减少RDO计算候选模式的数量,并利用HCT模型预测来提前终止CU块划分,从而提高了HEVC编码的时间效率。然而,该方法仅适用于HEVC编码,对VVC等新一代编码标准的兼容性较差,普适性和应用范围受到限制。若将CN114286093A与本发明方法相结合,则能进一步加速视频编码过程并扩展应用场景。例如,首先使用本发明的轻量级CNN模型对CU块类型进行分类,然后根据不同CU类型(自然内容CU或屏幕内容CU)使用CN114286093A的快速编码方法,能更有效地加快编码速度,特别适用于会议、远程教育等同时包含自然和屏幕内容的混合类视频编码。
实现思路