基于轻量级深度学习模型的视频编码CU块分类方法及介质
2025-02-25 18:45
No.1344017624115453952
技术概要
PDF全文
本技术请求保护一种基于轻量级深度学习模型的视频编码CU块分类方法,适用于视频编码领域。该方法首先对输入图像进行分块处理,将其划分为多个128×128像素的图像块,并提取每个图像块的亮度信息。通过归一化处理后,亮度数据作为深度学习模型的输入,用于生成多个类别的分类概率。对于每个图像块的子单元,逐像素比较不同类别的概率,并为其分配最高概率的类别标签。随后,基于子单元的分类结果,统计每个CU块中各类别的数量,并根据统计信息为CU块分配对应的类型。CU块可同时属于多个类别,采用按位操作确定其最终类别。本发明通过精确的CU块分类,不仅提高了编码效率,还为后续的模式划分和选择提供了数据支持,适用于实时性要求较高的视频编码应用场景。
背景技术
随着互联网应用的发展,用户对视频质量的要求不断提升,高清超高清视频开始了大规模应用。摄像机拍摄的自然场景视频、计算机生成的文本动画等屏幕内容、带有运动的文字和图形视频等各类视频消费均大规模增长。在远程教育、商务会议等应用场景中,屏幕内容数据量的传输需求显著增加。屏幕内容编码(Screen Content Coding,SCC)场景的图像特征不同于自然场景,主要包含图形、文本、UI元素等静态或半静态的高频内容。为了满足这种多样化的视频内容需求,2016年,视频编码联合协作小组(Joint CollaborationTeam on Video Coding,JCT-VC)发布了以高效视频编码HEVC为基础扩展的屏幕内容编码标准(Screen Content Coding,SCC),即HEVC-SCC。针对屏幕内容增加了帧内块拷贝(IntraBlock Copy,IBC)、调色板模式(Palette,PLT)、自适应运动矢量精度(Adaptive MotionVector Resolution,AMVP)以及自适应颜色转换(Adaptive Color Transform,ACT)等技术。2020年,联合视频专家团队(Joint Video Experts Team,JVET)开发了新一代视频编码标准VVC,即H.266/VVC。VVC继承了HEVC-SCC中的屏幕内容编码工具。相比HEVC,VVC通过支持灵活的CU块划分方式等先进编码技术,进一步提升了编码效率。 VVC为了提升编码效率,采纳了基于四叉树加多类型树(Quad-tree Plus Multi-type Tree,QTMT)的CU块划分结构、多行参考线(Multiple Reference Line,MRL)预测、帧内子块划分模式(Intra Sub-Partitions Mode,ISP)等技术,允许根据图像特征自适应选择CU块的划分和编码方式。这种划分方式在应对自然场景视频时表现出较高的编码效率,但在屏幕内容编码中,由于屏幕内容的特殊特征,如高频边缘、重复图案和静态区域,编码器面临显著的计算挑战。尤其在实时应用中,如何在保证编码质量的前提下,有效区分自然内容CU块和屏幕内容CU块成为一项关键问题。 基于深度学习的CU块分类方法逐渐成为研究热点。利用卷积神经网络CNN等深度学习模型,可以将CU块划分为自然内容CU(CC类)和屏幕内容CU(包括A类、TGM类和Mixed类),从而减少编码复杂度。具体而言,深度学习模型可以识别CU块的纹理特征,通过分类预测CU块属于自然场景或屏幕内容,并相应调整编码策略,提高编码效率和压缩效果。因此,将深度学习应用于视频编码领域是当前一个重要研究方向。 本发明提出了一种基于轻量级深度学习模型的视频编码CU块分类方法。通过深度学习模型的预测能力,自动将CU块分类为自然内容CU块或屏幕内容CU块,并采用相应的编码方法,既满足了屏幕内容的编码需求,又有效降低了编码器在处理屏幕内容时的计算复杂度,为高质量视频编码的实时应用提供技术支持。 经过检索,申请公开号CN114286093A,一种基于深度神经网络的快速视频编码方法。本发明包括基于深度神经网络的CU划分模块、基于邻域相关性的PU模式选择模块;CU块在帧内编码时会先经过PU模式选择计算率失真代价,此时先利用基于邻域相关性的PU模式选择模块进行优化,通过轻量级HCT模型的预测结果来减少RDO计算的候选模式数量;PU模式选择结束后,编码器会进行CU块深度判决,判断该CU块是否进行划分,此时由基于深度神经网络的CU划分模块进行优化,从HCT模型获得预测结果来判断是否提前终止划分。否则继续向下划分子CU块,并继续进行PU模式选择和CU块划分判决。本发明降低了CU递归划分的复杂度,简化了帧内预测模式的选择过程,有效地提高了HEVC编码的时间效率。 专利CN114286093A提出了一种基于深度神经网络的快速视频编码方法,通过PU邻域相关性和轻量级HCT模型来减少RDO计算候选模式的数量,并利用HCT模型预测来提前终止CU块划分,从而提高了HEVC编码的时间效率。然而,该方法仅适用于HEVC编码,对VVC等新一代编码标准的兼容性较差,普适性和应用范围受到限制。若将CN114286093A与本发明方法相结合,则能进一步加速视频编码过程并扩展应用场景。例如,首先使用本发明的轻量级CNN模型对CU块类型进行分类,然后根据不同CU类型(自然内容CU或屏幕内容CU)使用CN114286093A的快速编码方法,能更有效地加快编码速度,特别适用于会议、远程教育等同时包含自然和屏幕内容的混合类视频编码。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
李强  张贵  刘齐
技术所属: 重庆邮电大学
相关技术
一种电润湿显示器件及其制备方法与应用 一种电润湿显示器件及其制备方法与应用
一种下基板、电润湿显示器件及下基板的制作方法 一种下基板、电润湿显示器件及下基板的制作方法
一种降噪效果好的旋翼结构及飞行车 一种降噪效果好的旋翼结构及飞行车
一种无人机二次开发教学系统及识别方法 一种无人机二次开发教学系统及识别方法
基于波前传感技术的白内障视觉实时增强系统及方法 基于波前传感技术的白内障视觉实时增强系统及方法
一种基于Unity的虚拟医疗训练系统 一种基于Unity的虚拟医疗训练系统
一种无线智能高速公路速度实时监测装置 一种无线智能高速公路速度实时监测装置
一种基于VR平台的桡动脉穿刺置管训练系统 一种基于VR平台的桡动脉穿刺置管训练系统
一种基于主刚度差值的机器人铣削姿态优化方法 一种基于主刚度差值的机器人铣削姿态优化方法
遇阻可回退电动床的遇阻部位检测方法 遇阻可回退电动床的遇阻部位检测方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利