复杂场景的机器人智能体强化学习训练方法及系统
2025-02-22 21:18
No.1342968773547925504
技术概要
PDF全文
本技术公开了一种复杂场景的机器人智能体强化学习训练方法,其通过构建包含障碍物、动态目标以及环境约束等复杂场景、适用于多智能体系统的强化学习算法环境、状态转移模型,并采用强化学习算法构建为每个机器人智能体构建独立的神经网络;将智能体的给定状态、时序信息、历史状态信息的向量作为所述状态转移模型的输入,输出预测状态的状态转移概率和奖励信息;所述神经网络输出的动作策略和动作价值通过所述状态转移模型中执行并产生新的预测状态和奖励信息;通过调整神经网络的超参数,利用大规模分布式训练架构对所述决策网络和所述评估网络进行协作训练,实现多智能体的并行学习和协同决策,提高智能体在复杂场景中的性能表现和泛化能力。
背景技术
近年来,随着人工智能技术及机器人技术的迅猛发展,多智能体机器人系统(Multi-Agent Robot Systems,MARS)因其独特的优势在多个领域如协同作业、资源优化分配、以及未知环境探索中展现出前所未有的潜力和应用价值。这类系统通过集成多个具备自主决策和交互能力的智能体,能够高效协同完成复杂任务,提高整体作业效率和系统鲁棒性。 目前,机器人智能体在复杂场景中的应用需求日益增长。这些复杂场景包括但不限于城市街道、工厂生产线、自然灾害救援现场等,它们通常具有高度的动态性、不确定性和多样性。 传统的训练方法大多基于预设的规则和模型,缺乏对环境变化和任务需求的适应性。当环境发生变化或任务需求改变时,机器人智能体可能无法做出有效的应对,导致性能受限甚至任务失败。 具体包括: 一方面,复杂场景中的环境状态往往具有高维性和连续性,这使得状态空间的探索变得异常困难。传统的训练方法在处理高维状态空间时往往效率低下,甚至可能陷入局部最优解。 另一方面,复杂场景中的任务需求通常具有多样性和不确定性。机器人智能体需要在不同的任务之间灵活切换,并根据任务需求调整自己的策略。然而,传统的训练方法往往难以处理这种多样性和不确定性,导致智能体在任务切换时表现不佳。 此外,复杂场景中的机器人智能体通常需要与其他智能体进行交互。这种交互可能涉及竞争、合作或协调等多种关系。传统的训练方法往往只考虑单个智能体的优化,而忽略了智能体之间的交互关系,这可能导致智能体之间的冲突和竞争,降低整体性能。 因此,针对复杂场景的机器人智能体强化学习训练的研究具有重要的理论意义和实际应用价值。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
洪万福  于宁  黄在斌  朱成忠
技术所属: 厦门渊亭信息科技有限公司
相关技术
一种基于属性感知的Web网页信息抽取方法及装置 一种基于属性感知的Web网页信息抽取方法及装置
一种场景问答模型生成方法及装置 一种场景问答模型生成方法及装置
社交媒体特征数据的预估方法及装置 社交媒体特征数据的预估方法及装置
一种基于数字孪生的双向DC/DC变换器状态监测方法 一种基于数字孪生的双向DC/DC变换器状态监测方法
基于模仿学习的驾驶培训教学方法及系统 基于模仿学习的驾驶培训教学方法及系统
一种多参与方监理数据管理方法 一种多参与方监理数据管理方法
风电低出力事件判别及功率预测模型训练方法及装置 风电低出力事件判别及功率预测模型训练方法及装置
一种基于贪心策略的抗社交网络用户身份关联方法 一种基于贪心策略的抗社交网络用户身份关联方法
直流变换器故障诊断方法、装置、设备、介质及程序产品 直流变换器故障诊断方法、装置、设备、介质及程序产品
一种商业秘密保护泄密点分析的方法 一种商业秘密保护泄密点分析的方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利