多目标强化学习策略生成技术及设备

123技术园

首页 / 技术内容

多目标强化学习策略生成技术及设备

2025-02-16 12:17

No.1340658343387340800

技术概要

PDF全文

本文档介绍了一种多目标强化学习策略生成技术及其相关设备。该技术旨在通过接收多目标策略优化请求，并依据请求中的状态动态调整策略，以实现优化目标。

背景技术

在多目标强化学习领域，传统研究侧重于通过预定义的奖励函数来引导策略优化。然而，由于多维优化目标本身的内在复杂性，以及某些优化维度的状态具有不确定性或难以测量，传统方法在处理复杂现实世界目标时存在挑战。例如，机器狗在学习后空翻动作时，难以设计准确的奖励函数来引导机器狗的学习过程；数据中心机房的冷却需要同时考虑IT设备过热风险和能源效率，而IT设备的内部芯片温度往往难以直接测量，导致无法准确度量优化目标即内部芯片温度的值。为了克服多维优化目标的内在复杂性导致的限制，现有技术利用人类反馈指导强化学习智能体的行为，改善了单目标优化性能及灵活性，从而避免了不确定的目标值、复杂的奖励工程的问题。然而在多目标强化学习建模方面，针对多维优化目标本身的内在复杂性，现有技术并不足以解决多目标强化学习场景下的策略生成问题，因此，亟需一种基于多目标强化学习的策略生成方法，实现多目标强化学习场景下，针对多维优化目标本身的内在复杂性构建灵活性更高的奖励模型，避免对预定义奖励函数的依赖，提高基于多目标强化学习的策略生成精度。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

牟倪栾垚贾庆山

技术所属：清华大学

相关技术

FPGA实现硬件逻辑实时仿真的方法及装置 FPGA实现硬件逻辑实时仿真的方法及装置
本申请实施例提供一种FPGA实现硬件逻辑实时仿真的方法及装置，方法包括:将待仿真的算法模型封装成可复用的可编程阵列逻辑器件的算法IP核,并在算法IP核中定义算法模型的输入输出端口和参数接口；通过可编程阵列逻辑器件的预设设计工具将顶层设计文件进行综合布局布线，生成对应的可在可编程阵列逻辑器件上直接运行的比特流文件,并将比特流文件下载至目标硬件平台启动运行；本申请能够有效提升仿真效率和准确性。
基于API和数据库的动态标定方法 基于API和数据库的动态标定方法
本发明公开了一种基于API和数据库的动态标定方法，在MPU端设计外部服务接口API，将MCU端的标定参数转化为MPU端外部接口API，让外部系统获取和修改标定参数；在MPU端通过特定的配置服务将外部系统提供的参数转化为数据库中的标定参数；MPU端数据库中标定参数被外部接口API修改后，MCU端对应的标定参数被同时修改。外部系统通过外部上位机或文件提供动态编写和验证功能，实现外部系统对标定参数的修改。本发明的技术方案可以方便地扩展和升级，支持更多的标定参数类型和格式，支持多个数据库和API接口，以及支持更多的外部系统和平台。
一种虚拟机的沙箱引擎更新方法、装置、设备和介质 一种虚拟机的沙箱引擎更新方法、装置、设备和介质
本发明公开了一种虚拟机的沙箱引擎更新方法、装置、设备和介质，由于该方法在虚拟机恢复到快照文件对应的状态后，通过对全局数据指针和检测函数的更新，就可以实现对沙箱引擎的更新，因此无需重新制作快照文件和沙箱环境，对沙箱引擎进行更新时需要制作的更新包较小，更新效率高。
频域响应仿真与测量数据处理方法及装置 频域响应仿真与测量数据处理方法及装置
本申请实施例提供一种频域响应仿真与测量数据处理方法及装置，方法包括:选择与试验测点相对应的位置作为与物理三维模型对应的仿真模型节点的选取位置，在仿真模型中将仿真有限元距离试验测点相对于相邻点间距离低于阈值时，将距离试验测点最近的有限元节点作为与试验测点相匹配的空间点，得到对应的空间分布比对结果；通过预设模态匹配算法对仿真结果数据与现场实测频率响应数据进行模态相关性分析，得到仿真结果数据与现场实测数据的模态匹配关系，根据模态匹配关系得到频域响应比对结果；根据空间分布比对结果和频域响应比对结果修正物理三维模型的仿真参数；本申请提高数据处理和比对的准确性，实现仿真数据与试验测量数据的实时整合和分析。
服务数据节点迁移方法、装置、电子设备及存储介质 服务数据节点迁移方法、装置、电子设备及存储介质
本公开提供了一种服务数据节点迁移方法、装置、电子设备及存储介质，所述方法包括:通过多个接口节点中第一接口节点的第一检测器，获得多个服务数据节点中与第一接口节点绑定的第一服务数据节点运行异常的检测结果；通过第一接口节点的第一检测器，响应于第一服务数据节点运行异常的检测结果，向服务控制节点发送服务迁移请求；通过服务控制节点，响应于服务迁移请求，解除第一接口节点与第一服务数据节点之间的绑定关系，将第一接口节点中的各服务迁移至多个接口节点中的第二接口节点，第二接口节点与多个服务数据节点中的一个具有绑定关系。借此，本申请可在检测接口节点的服务数据节点出现运行异常时，自动触发服务数据节点的迁移处理，确保服务的连续性和可用性。
配送控制方法、装置、服务器、智能柜及机器人 配送控制方法、装置、服务器、智能柜及机器人
本发明实施例公开了一种配送控制方法、装置、服务器、智能柜及机器人。所述方法在获取用于表征目标订单配送需求的配送需求信息后，响应于配送需求信息为机器人配送，向机器人发送取件消息，响应于接收到机器人发送的开门请求，控制智能柜打开目标柜格的第一柜门，以使所述配送物品转移到所述机器人的物品暂存格中。其中，所述目标柜格中存储有与目标订单对应的配送物品。通过所述配送控制方法可以降低配送成本，同时提高配送效率并改善用户体验。
适用于硬件电路的高精度压缩方法、装置及电子设备 适用于硬件电路的高精度压缩方法、装置及电子设备
本发明提供一种适用于硬件电路的高精度压缩方法、装置及电子设备，应用于图像处理技术领域，该方法包括:获取目标图像；将所述目标图像输入卷积神经网络模型；输出所述目标图像对应的图像类别；其中，该卷积神经网络模型是基于不同类别的图像训练得到的、经过压缩的神经网络模型，该卷积神经网络模型的每个卷积层中包括至少一组卷积核参数为卷积核共享参数。
融合多源信息的打击目标智能识别方法和系统 融合多源信息的打击目标智能识别方法和系统
本发明涉及目标智能识别域，具体是融合多源信息的打击目标智能识别方法和系统，该方法通过构建城市区域的实时三维模型获取遮挡区域的分布信息，通过数据融合方法得到打击目标的特征信息，通过空间对比分析预测打击目标进入的遮挡区域；通过动态滤波算法预测所述打击目标在所述遮挡区域的预测移动轨迹；通过所述预测移动轨迹和打击目标的特征信息得到打击目标在遮挡区域的实时位置；获取打击目标离开遮挡区域时的检测数据并通过特征匹配算法得到识别结果，当所述识别结果为无法确认打击目标时，则目标识别系统触发矫正机制。以解决打击目标进入隐蔽区域后，难以进行持续追踪并精确锁定目标，导致打击精度下降或丢失目标的问题。
水利对象关联关系建立方法 水利对象关联关系建立方法
本发明提供水利对象关联关系建立方法，从目标数据源获取建立水利对象关联关系的原始基础数据，所述原始基础数据至少包括:江河湖泊描述数据、水利工程描述数据、水利管理描述数据；对所述建立水利对象关联关系的原始基础数据进行预处理，以生成有效基础数据，所述预处理包括：去重、缺失值填补、错误值修正；通过对所述有效基础数据进行本体编码，以将不同类型的有效基础数据映射到同一标准下并使得关联与同一水利对象的不同类型的原始基础数据之间建立关联关系并生成有效基础数据之间的实体互联图谱；基于预先建立的水利对象拓扑关系，根据有效基础数据之间的实体互联图谱进行实体以及实体间功能关系的迭代，以建立水利对象关联关系。
问题解答方法、装置、介质和电子设备 问题解答方法、装置、介质和电子设备
本公开提供了一种问题解答方法、装置、介质和电子设备，所述方法包括:获取第一客户终端传送的第一解答请求；对所述问题音频进行音频语义分析，从所述问题音频中获得至少两个问题关键词；基于所述至少两个问题关键词对知识集进行匹配搜索，获得第一搜索结果；响应于不存在所述第一搜索结果，至少基于所述问题音频生成第二解答请求；将所述第二解答请求传送至第二客户终端，以便获得响应所述第二解答请求的解答信息，并传送至所述第一客户终端。从而降低了答疑教师的工作量，使复习者提出的问题能够及时解答，提高了答疑效率，也提高了复习者的复习效率。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工