本技术公开离线强化学习技术领域的基于相关性的离线强化学习维度缺失动作数据填补方法,具体步骤为:通过智能体与环境交互后,获取到数据集,对数据集进行分析,识别存在缺失的维度、构建并训练模型、加载包含维度缺失动作数据的数据集,读取其中的动作数据,将其转换为PyTorch张量,然后加载已预训练完毕的模型,对数据集中的缺失值进行插补,得到插补后的数据集以及将得到的数据集用于训练离线强化学习智能体,本发明有助于提高离线强化学习模型在处理不完整数据时的准确性和鲁棒性,从而增强模型在实际应用中的表现。
背景技术
离线强化学习旨在通过分析从环境中收集的静态数据集来优化策略。在实际应用中,由于传感器故障、数据记录中断或通信问题,数据集常常出现动作数据缺失的问题。
针对于常规的数据缺失问题,目前的填补方法主要包括:
(1)数据删除:去除含有缺失数据的记录,简单但可能导致数据量显著减少,影响模型的训练效果。
(2)均值填补:用已有数据的均值替代缺失值,适用于简单情况,但无法捕捉数据中的复杂相关性。
(3)插值方法:基于邻近数据点进行插值填补,适合某些连续数据,但在高维数据中的效果不佳。
(4)回归填补:通过回归模型预测缺失数据,虽然能处理线性关系,但对高维和复杂数据的处理效果有限。
近年来,虽然有研究尝试利用数据的整体相关性(如协同过滤和矩阵分解)进行数据填补,但这些方法大多未深入探讨动作数据在不同维度之间的具体相关性。
现有技术在处理缺失动作数据时存在以下主要问题:
(1)维度间相关性利用不足:尽管回归填补技术可以用于预测缺失数据,但传统回归方法往往未充分利用数据中的复杂维度间相关性。传统回归方法通常假设数据关系是线性的,未能充分挖掘维度间的复杂相关性。
(2)填补效果受限:在高缺失率或高维数据的情况下,传统回归填补方法的效果可能受限。
(3)计算复杂度和泛化能力:某些填补方法在处理大规模和高维数据时,计算复杂度较高且泛化能力不足,影响了实际应用中的效果。
需要注意的是,在离线强化学习领域内,在动作数据的某个或多个维度上的数据存在缺失的这种情况尚未得到解决,本发明填补了这个空白。
实现思路