基于相关性的离线强化学习维度缺失动作数据填补方法
2025-02-23 14:14
No.1343224534639321088
技术概要
PDF全文
本技术公开离线强化学习技术领域的基于相关性的离线强化学习维度缺失动作数据填补方法,具体步骤为:通过智能体与环境交互后,获取到数据集,对数据集进行分析,识别存在缺失的维度、构建并训练模型、加载包含维度缺失动作数据的数据集,读取其中的动作数据,将其转换为PyTorch张量,然后加载已预训练完毕的模型,对数据集中的缺失值进行插补,得到插补后的数据集以及将得到的数据集用于训练离线强化学习智能体,本发明有助于提高离线强化学习模型在处理不完整数据时的准确性和鲁棒性,从而增强模型在实际应用中的表现。
背景技术
离线强化学习旨在通过分析从环境中收集的静态数据集来优化策略。在实际应用中,由于传感器故障、数据记录中断或通信问题,数据集常常出现动作数据缺失的问题。 针对于常规的数据缺失问题,目前的填补方法主要包括: (1)数据删除:去除含有缺失数据的记录,简单但可能导致数据量显著减少,影响模型的训练效果。 (2)均值填补:用已有数据的均值替代缺失值,适用于简单情况,但无法捕捉数据中的复杂相关性。 (3)插值方法:基于邻近数据点进行插值填补,适合某些连续数据,但在高维数据中的效果不佳。 (4)回归填补:通过回归模型预测缺失数据,虽然能处理线性关系,但对高维和复杂数据的处理效果有限。 近年来,虽然有研究尝试利用数据的整体相关性(如协同过滤和矩阵分解)进行数据填补,但这些方法大多未深入探讨动作数据在不同维度之间的具体相关性。 现有技术在处理缺失动作数据时存在以下主要问题: (1)维度间相关性利用不足:尽管回归填补技术可以用于预测缺失数据,但传统回归方法往往未充分利用数据中的复杂维度间相关性。传统回归方法通常假设数据关系是线性的,未能充分挖掘维度间的复杂相关性。 (2)填补效果受限:在高缺失率或高维数据的情况下,传统回归填补方法的效果可能受限。 (3)计算复杂度和泛化能力:某些填补方法在处理大规模和高维数据时,计算复杂度较高且泛化能力不足,影响了实际应用中的效果。 需要注意的是,在离线强化学习领域内,在动作数据的某个或多个维度上的数据存在缺失的这种情况尚未得到解决,本发明填补了这个空白。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
徐原博  邵昱霖  徐萌  张若琳  刘嘉伟  王恩  刘文彬
技术所属: 吉林大学
相关技术
FPGA实现硬件逻辑实时仿真的方法及装置 FPGA实现硬件逻辑实时仿真的方法及装置
基于API和数据库的动态标定方法 基于API和数据库的动态标定方法
一种虚拟机的沙箱引擎更新方法、装置、设备和介质 一种虚拟机的沙箱引擎更新方法、装置、设备和介质
频域响应仿真与测量数据处理方法及装置 频域响应仿真与测量数据处理方法及装置
服务数据节点迁移方法、装置、电子设备及存储介质 服务数据节点迁移方法、装置、电子设备及存储介质
配送控制方法、装置、服务器、智能柜及机器人 配送控制方法、装置、服务器、智能柜及机器人
适用于硬件电路的高精度压缩方法、装置及电子设备 适用于硬件电路的高精度压缩方法、装置及电子设备
融合多源信息的打击目标智能识别方法和系统 融合多源信息的打击目标智能识别方法和系统
水利对象关联关系建立方法 水利对象关联关系建立方法
问题解答方法、装置、介质和电子设备 问题解答方法、装置、介质和电子设备
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利