本技术方案涉及室内定位技术,特别是一种适用于异构环境的深度强化学习轨迹定位方法。该方法深度整合了环境观测数据和智能体历史动态信息,旨在精确确定智能体位置。
背景技术
随着5G和大数据分析时代的到来,人们对基于位置的服务(Location BasedServices,LBSs)的业务需求不断增加,室内定位技术是LBSs应用程序中的一个关键组成部分。自然卫星导航系统,如全球定位系统(Global Positioning System,GPS)可以在室外环境中获得足够的定位精度和导航性能。但在室内场景中,由于环境复杂多变且存在建筑材料的遮挡,因此可以使用多种不同的信号源(例如WiFi、地磁和蓝牙等)进行基于不同原理的室内定位。其中,基于无线接收信号强度(Received Signal Strength,RSS)的室内定位技术已得到广泛应用,因为可以从不同的网络中轻松访问RSS。
近年来,基于强化学习的方法在诸如AlphaGo之类的复杂决策问题的解决上获得了强大的竞争优势,并在其他许多领域得到了广泛关注,其中包含室内定位领域。在实际的室内场景中,我们通常会遇到高维环境观测的状态信息,并且面临着环境变化较大、设备出现异构性的问题。传统的基于强化学习的定位方法无法处理高维状态输入,基于深度强化学习的室内定位算法可以解决类似的问题,但现有方法未充分使用环境观测和智能体自身的历史动态信息,并且在处理RSS数据时也没有考虑到设备异构性对定位性能的影响。
文献“Ebrahimi,Dariush,et al."Autonomous UAV trajectory for localizingground objects:A reinforcement learning approach."IEEE Transactions on MobileComputing 20.4(2020):1312-1324”采用经典的Q-Learning算法基于无人机群的辅助对地面物体进行定位,该方法由于强化学习算法本身的限制而无法处理高维实际环境中的状态输入。文献“Li Y,Hu X,Zhuang Y,et al.Deep Reinforcement Learning(DRL):AnotherPerspective for Unsupervised Wireless Localization[J].IEEE Internet of ThingsJournal,2020,7(7):6279-6287”使用深度强化学习算法将定位问题建模为一个连续的无线定位过程,提出一种无监督无线定位的奖励设置机制,从无标签无线RSS中自动提取鲁棒地标数据以实现高精度定位。但是,该方法没有充分利用智能体自身的历史动态,这可能导致智能体对环境的探索陷入重复的循环状态中,另外,该方法没有考虑到如何应对异构的室内定位环境。
实现思路