本技术公开了一种支持群智感知的端边云紧凑视频编码方法及系统,在云边端系统中,对单摄像头和跨摄像头语义目标图片进行优选,基于目标跟踪和图片优先,选取包含语义信息最大的语义图片框,对语义目标对象在其时域轨迹上的图片框序列进行特征提取,并将得到的紧凑特征用于语义目标对象的重构,实现视频群智语义目标紧凑编码,采集用于反馈控制的控制参量,聚焦感兴趣或语义感知相对重要的区域,用于指导多个摄像头之间协同码率分配及量化控制优化,实现视频群智多摄像头端边云协同优化编码。在针对海量摄像头视频数据进行以图搜图业务中,本发明对海量摄像头视频数据进行高效编码,支持端边云高效存储传输和分析。
背景技术
近十几年来,智慧城市、数字孪生、元宇宙等技术及应用业态相继出现,吸引了业界的关注。提出的城市大脑系统,可实时处理大规模多源数据,在城市交通、警情监控等场景部署实施并验证了有效性,智慧城市应用中,视频大数据协同群智感知和协同分析是关键,但是海量视频大数据群智感知应用仍存在一些问题,面临难存储、难检索和难识别等挑战。
群智视频应用系统采集的视频数据中存在大量冗余,如何在低质冗余数据中选择萃取汇聚优质数据是其中一个关键问题。城市摄像头记录视频数据被监管者查阅不到10%。现有主流技术体系中摄像头独立采集压缩视频,海量压缩视频数据汇聚到云端,协同感知分析在云端进行,这种系统面临传输存储代价大,单路视频智能分析成本较高挑战。如果没有重大技术突破,数千万摄像头根本无法实现“全网共享”实时数据汇聚,更不可能实现“全时可用”联网分析识别。
研究表明,大脑皮层层次结构与视觉特征表示级别之间存在层次对应关系,揭示了人类和机器视觉之间存在相似性。HVS视网膜约有1.2亿个感光细胞,视网膜感光细胞到大脑之间的连通通道是视神经,视神经和视网膜感光细胞数量比约1:126,感光数据经过视觉连接通道传输带宽需降低约126倍,对应“眼脑”感知结构,这种压缩不是简单视频压缩,而是多层次视觉特征逐级抽取和紧凑表达。
受HVS眼脑感知机理启发,可将城市级大数据全息感知系统抽象为城市级眼脑感知系统,海量摄像头相当于视网膜感光细胞,边缘域及分级传输链路相当于传输神经元,云端中心大脑相当于大脑。在城市大脑眼脑感知模型中,海量摄像头产生极其庞大视频数据。如何对这些数据进行特征提取和紧凑编码表达,实现视频数据分级协同高效存储和传输,解决传输存储代价极高的痛点,是城市大脑视频群智感知需要解决的关键问题。
从城市大脑群智协同感知角度,实现海量摄像头数据协同高效编码,需要解决几个问题:
(1)多摄像头协同感知紧凑视觉编码:一个语义目标在一定物理空间、一段时间内被多个视觉传感器记录并识别,需进行多摄像头协同感知,研究高效多摄像头语义目标去重识别和时空编码方法,实现对语义目标精准识别和去重描述;
(2)多摄像头联合视频编码优化:传统视频编码优化是基于单摄像头独立进行的,在城市大脑视频群场景中,众多摄像头协同工作为城市大脑大范围感知提供支持,针对这种场景有必要研究多摄像头联合编码优化方法,包括码率优化分配,为城市大脑视频群感知提供更加高效智能编码支持。
综上,构建眼脑感知机理启发的城市大脑视频群智感知系统模型,研究多摄像头协同联合编码优化方法,可为城市大脑群智视频感知编码算法优化提供支持。
现有技术中,针对端云视频协同计算,提出了前端智能视频编码分析框架VaBUS,从语义对象保真角度研究前端背景提取前景语义分割,针对监控场景实现监控视频的紧凑编码和高效传输;此外,还有类比人类视网膜系统,提出的数字视网膜技术体系,对传统视觉计算架构进行演进与革新,探索尝试解决视频大数据痛点难题,随后,进一步提出数字视网膜模型生成、利用和传输范式,研究了多流协作计算模式,克服端-边-云环境下模型复用与传输瓶颈,并且相应的数字视网膜标准正在制定过程中;多摄像头协作目标跟踪和目标重识别是较为典型的一类工作,通过跨摄像头数据关联,融合多摄像头数据信息,探索多(跨)摄像头多目标跟踪目标重识别。
上述现有技术一定程度上探索了云边端协同视频编码和表示,但是,没有考虑统一语义目标对象在不同摄像头中的冗余,编码没有考虑消除这种冗余,没有实现存储、传输代价和编码压缩等多目标性能优化。
实现思路