本研究提出了一种创新的智能排产动态调度方法,该方法利用深度强化学习技术。该方法涵盖了信息读取、数据处理、深度强化学习框架构建以及考虑实际生产环境因素的关键步骤,旨在提高排产效率和响应速度。
背景技术
目前相关技术中,智能排产动态调度方法大多基于最优化方法和近似/启发式算法。近年来,很多学者也开始使用深度强化学习来求解各种动态调度问题,包括智能排产动态调度问题。最优化方法主要包括混合整数线性规划(MILP)、分支定界法及拉氏松弛法等;近似/启发式方法最初氏由于计算量小并且算法易实现而引入的,主要包括优先分派规则(PDR)、神经网络(NN)及邻域搜索法(NS),邻域搜索法又包括禁忌搜索(TS)、遗传算法(GA)和模拟退火(SA)等可以称之为亚启发式(Meta-heuristic)的近似优化方法,最优化方法主要受计算规模的限制。由于对一个n×m的智能排产动态调度问题有(n!)×m种可能的解,因此大规模问题使用精确求解的计算方法上是不可行的。
目前深度强化学习模型(DRL)在智能排产动态调度问题上的研究已经有了较大进展,深度强化学习被广泛应用于解决各种动态调度问题。这类模型比传统的优先调度规则启发式更灵活,强化学习环境可以对随机决策和柔性问题进行建模,例如非确定性作业重新进入、工序间的串并行顺序、工序有多条产线可选、设备有多条产线可选等,但是上述处理方法大多还处于理论研究的阶段,还不能面向工厂真实需求的复杂约束建模,对于某些随机工厂停机、随机处理时间、订单截止时间等问题,无法提供满足工厂真实需求的智能排产动态调度方法;另外真实的工厂需求通常是要考虑到高级计划排程(APS),将短期计划和中长期计划分开建模,同时保证短期计划的精准性和长期计划的快速求解,这也是目前主流深度强化学习模型未能覆盖的领域。
为此,我们提出了基于深度强化学习的智能排产动态调度方法。
实现思路