本技术介绍了一种优化的深度确定性策略梯度算法,用于水下环境中的计算任务卸载。该方法首先设定任务卸载问题的状态空间,并利用卸载模式和数量矩阵引入噪声以构建动作空间。通过任务卸载策略,实现了计算效率和能源消耗的优化。
背景技术
海洋占地球表面积71%以上,搭建海洋物联网(Ocean of things,OoT)对海洋进行立体观测越来越重要,OoT的组网架构一般包含海面-水下两层,海面层为浮标、水下层为各类传感器节点,传感器节点将采集的数据传输给浮标节点,再由浮标节点处理数据后发送到岸上监测中心。随着OoT的发展,OoT的覆盖区域越来越大,从近海延伸至远洋;同时网络中传感器节点的计算业务,如数据分析、运行网络协议等激增,传感器节点处理这些计算业务耗费大量能量,传统OoT的海面-水下两层组网架构已经不能满足需求,利用卫星节点搭建太空-海面-水下三层新型OoT架构,通过移动边缘计算(Mobile edge computing,MEC)任务卸载技术,将水下传感器节点数据分析、运行网络协议产生的计算任务卸载到浮标或卫星边缘服务器上进行处理,成为研究热点。
使用传统的强化学习算法解决计算任务卸载问题,是目前常见的方法,在此类方法中强化学习模型可部署在浮标节点上进行训练,训练完成后将计算任务卸载策略下发给浮标通信范围内的传感器节点,传感器节点可以将自身计算任务根据卸载策略卸载到相关边缘服务器。然而,水下计算任务卸载问题的动作空间不能表示为简单的二值问题,需要继续分解;且在强化学习模型的奖励函数设计中没有考虑能耗的影响,容易导致计算任务卸载能耗高。需要注意的是,由于卫星节点和浮标节点通常可配备太阳能电池板,利用太阳能充电;而水下传感器节点在现有条件下通常无法在水下直接补充能量,在工作中需尽可能节省功耗以维持更长的工作生命周期。因此在执行水下传感器任务卸载时需要尽量减少能耗开销,具体包括本地计算能耗、任务发送到浮标节点和接收返回结果的能耗;当任务需要卸载时,水下传感器节点将数据卸载给浮标节点,由浮标节点进行任务处理并返回结果;如果浮标节点业务繁忙,无法进行处理,则将会计算任务进一步任务卸载到卫星节点进行处理。
申请人同济大学在其申请专利文献“一种基于多智能体强化学习的边缘计算协同任务卸载方法”(申请日:2024年5月30日,申请号:202410687523.1,申请公布号:CN118585263 A,该申请的内容仍然可以被引用)中公开了一种基于多智能体强化学习的边缘计算协同任务卸载方法。该边缘计算协同任务卸载方法存在以下的不足:其计算任务卸载问题的动作空间表示为简单的0或1问题,即二值问题,无法准确描述计算任务卸载的动作;且奖励函数的设计中没有考虑能耗的影响,导致计算任务卸载的能耗偏高。
使用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法解决计算任务卸载问题,是降低MEC系统中任务卸载能耗的有效方法,申请人南京理工大学在其申请专利文献“基于深度强化学习的卫星边缘计算任务卸载及资源分配方法”(申请日:2024年5月24日,申请号:202410655864.0,申请公布号:CN118250750A,该申请的内容仍然可以被引用)中公开了一种基于深度强化学习的卫星边缘计算任务卸载及资源分配方法。该卫星边缘计算任务卸载及资源分配方法存在以下的不足:其所用的深度强化学习为DDPG算法,使用DDPG算法进行计算任务卸载,DDPG算法在训练时更新幅度使用固定值,导致当计算任务卸载量较大时,算法收敛速度较慢,长时间训练进一步加剧了能耗问题。
综上所述,传统基于强化学习的方法用于OoT时存在计算任务卸载能耗高、算法收敛速度慢的问题。
实现思路