本技术介绍了一种全景活动识别方法,该方法利用自适应聚焦检测器与双向传播原型学习器,实现对全景场景中多粒度活动的联合识别。该方法通过自适应聚焦检测器增强对全景场景中活动细节的识别能力,而双向传播原型学习器则优化活动识别的准确性和效率。
背景技术
人类活动识别引起了人们的极大兴趣,并在不同领域得到了广泛应用,如视频监控和体育分析。在过去的十年中,研究人员主要集中在单一粒度级别上的行为识别,例如个人活动、人与人之间的交互以及群体活动。前两者通常关注只包含一个或几个人的视频,而后者则侧重于识别多个人执行的整体活动。然而,一些实际场景中往往不仅涉及不可预测数量的个人,还包括通过某种形式的交互相互联系的人群,例如参与共同活动,这形成了群体级别活动的额外概念。例如,在拥挤的个人全景场景中,共同理解个人级别活动和群体级别活动至关重要。
全景活动识别(PAR),其目标是在拥挤的全景场景中共同识别多粒度行为,包括个人活动、群体活动和全局活动。与人类活动识别任务中的普通视频场景不同,全景场景具有大小不一的被遮挡人员以及相互交互的多粒度活动的特点。因此,全景活动识别任务的关键挑战主要在于两个方面:1)如何在拥挤场景中准确检测大小不一的人员;2)如何捕捉多粒度活动之间的交互以更好地识别它们。
传统方法仅专注于在具有个体位置信息先验的情况下识别多粒度活动。通常的解决方案是基于边界框提取个体特征,然后通过对多个粒度之间的交互进行建模来学习多粒度特征。然而,这些依赖于手动标注边界框的上述方法不仅费力,而且对于实际部署效率低下。因此,最近的方法试图在进行多粒度活动识别的推理之前,使用普通检测器进行个体检测。尽管如此,为普通场景设计的普通检测器难以适应涉及大小不一和空间遮挡的多人全景场景。此外,全景场景中的多粒度活动相互交互,因此由不准确的个体检测引起的信息损失可能会干扰多粒度活动识别的性能。
实现思路