Deep reinforcement learning-based schedule optimization for parallel precast production

一句话总结
这篇论文提出了一种基于深度强化学习的并行预制构件生产调度方法,能够在动态环境下实现快速重调度并优化工期与交付惩罚成本。
研究背景
装配式建筑快速发展,预制构件的工厂化生产规模不断扩大,但复杂的多订单、多工序、多资源约束环境使得调度问题难以解决。传统方法(如调度规则、遗传算法)在应对动态订单变化、资源冲突和实时性需求时存在明显局限,因此需要更智能、高效的调度优化方法。
研究目标
- 构建一种能够在并行预制生产环境中有效运行的调度方法。
- 最小化工期和提前/延迟交付的惩罚成本。
- 提供在订单数量和交付期变化下的快速重调度能力。
方法
- 建模框架:将生产调度问题转化为马尔可夫决策过程 (MDP)。
- 核心算法:采用基于深度Q网络 (DQN) 的强化学习框架,卷积神经网络用于提取工厂状态特征。
- 动作空间优化:通过动作降维和动作遮罩机制减少非法动作和搜索复杂度。
- 奖励函数设计:结合工期缩短和提前/延迟交付惩罚,实现多目标优化。
- 案例验证:利用中国某PC工厂的真实生产数据,与传统调度规则(EDD、SPT)和遗传算法(GA)进行比较。
主要发现
- DRL方法在工期和惩罚成本优化方面整体优于EDD、SPT和GA。
- 预训练模型能够快速适应订单数量和交付期的变化,具备良好的重调度能力。
- 与GA相比,DRL在计算效率上更高,更适合实时应用。
- 在不同规模与场景下表现出较强的泛化性和稳定性。
局限与未来方向
- 优化目标有限:只考虑工期和交付惩罚,未涵盖能耗、碳排放、模台更换成本和加班费用等现实指标。
- 约束条件简化:假设工序时间固定且确定,忽略了工人疲劳、设备故障和材料延误等不确定性。
- 生产模式局限:研究基于固定模台生产模式,未能适配自动化流水车间的复杂场景。
- 未来方向:
- 开展多目标优化研究,将能耗、碳排放、人工成本纳入调度框架。
- 引入多智能体强化学习,使不同生产资源(工人、设备、运输车辆)能够协同调度。
- 应用Double DQN、Prioritized Replay等先进DRL方法,提升收敛性与鲁棒性。
- 结合IoT和CPS,实现生产–运输–施工跨层级的一体化优化。
我的反思与启发
这篇论文让我认识到,动作遮罩+奖励塑形的思路非常适合在复杂的调度环境中保证学习效率,这对我研究的Out-of-Order 调度机制与POF同步问题有直接借鉴意义。它的快速重调度机制提示我,可以在研究中尝试“预训练策略 + 实时调整”的混合框架,以提升应对模块到货延迟和运输不确定性的能力。同时,论文的不足也提醒我,未来必须把能耗、可持续性和资源协同纳入调度目标,并探索多智能体强化学习,以适应工人、车辆、吊装设备等多方资源的动态协同。