一种基于改进的MOTR的野生动物多目标跟踪方法,步骤包括:1)利用卷积神经网络从采集到的鹿视频中提取不同分辨率的多尺度鹿特征;2)利用改进后的高效混合编码器对前述的多尺度特征进行特征融合,输出融合后的多尺度特征;3)将融合后的多尺度特征输入到基于先验知识的查询初始化模块,输出带有鹿初步位置信息的检测查询;4)检测查询与融合后的多尺度特征一起输入到解码器中,最后输出当前视频帧的预测结果。本技术采用改进的编码器代替MOTR原有的编码器,实现低计算量的同时提升小目标跟踪能力;初始化检测查询策略,减少复杂背景的影响,降低了漏检现象,并提高了模型应用于不同野外场景的泛化能力等。
背景技术
动物追踪对于野生动物保护和管理具有重要的意义,将追踪技术应用于记录迁徙动物的迁徙路径和行为模式识别,有助于深入了解种群活动和栖息地利用情况,这可为监测濒危物种、评估生态系统健康状况提供数据支持。研究人员也可利用动物跟踪技术获取种群数量、分布及活动范围等信息,以便在野生动物保护区制定保护措施、避免某些物种的过度繁殖和其他物种的过度捕食。此外,动物跟踪有助于及时了解圈养野生动物的生活习性和健康状况,以便改善动物福利。
早期的动物跟踪技术主要通过给动物携带电子项圈,虽然这些方法能够准确定位和跟踪动物,但会对动物造成伤害,或引起一些健康问题,如导致动物产生应激反应等,此外,项圈也会对动物的呼吸、进食造成干扰。深度学习也被应用于动物多目标跟踪,与传统方法相比,取得了更优异的性能。目前深度学习的方法多数基于CNN,但由于卷积神经网络长期依赖关系的建模能力的受限,难以胜任长时监控视频的动物目标跟踪任务。近年来,Transformer在机器视觉领域逐渐兴起,通过引入多头注意力,Transformer理解和处理远距离的语义关系,能够应对复杂应用场景的多目标跟踪任务,MOTR是这类方法的代表之一,它是一个完全端到端多目标跟踪框架,但该方法计算量较大,处理小目标的能力较差,且无法应对动物的皮毛颜色与背景相似的情况。
实现思路