大连理工大学首页English
学院新闻
当前位置: 首页 >> 学院新闻 >> 学院新闻 >> 正文
学院新闻

喜报 | 我院都牧副教授、俞鸿涛助理教授在国际顶级期刊INFORMS Journal on Computing发表重要成果

2024-06-07  

近日,由大连理工大学经济管理学院都牧副教授、俞鸿涛助理教授和美国普渡大学Nan Kong教授共同撰写的论文“Transfer Reinforcement Learning for Mixed Observability Markov Decision Processes with Time-Varying Interval-Valued Parameters and Its Application in Pandemic Control”(一种用于求解具有时变区间值参数的混合可观测马尔可夫决策过程的迁移强化学习方法及其在疫情控制中的应用)在国际顶级期刊INFORMS Journal on Computing上发表。该研究突破了Dimitri P. Bertsekas院士在其著作中的论断,首次采用大规模神经网络训练解决需要在线系统识别和再优化的马尔可夫决策过程。

INFORMS Journal on Computing由美国运筹学与管理科学学会(INFORMS)出版,是UTD 24商学院顶级期刊之一,享有极高的学术声誉和影响力。

研究概况

本研究探讨了一种新的不确定性在线序列决策问题,即具有时变区间值参数的混合可观测马尔可夫决策过程(MOMDP-TVIVP)。此类数据驱动的优化问题在现实世界中有广泛应用,例如在有限资源条件下的疫情监测和控制。MOMDP-TVIVP需要对系统进行在线识别并重新优化控制决策,面临巨大挑战,因为需要基于新的观测数据进行在线系统识别和重新优化,且要考虑未观测到的状态和时变参数。此外,动作和状态空间巨大,很难实现在线优化。

为解决这一挑战,研究团队提出了一种基于迁移强化学习(TRL)的新算法,将迁移学习(TL)整合到深度强化学习(DRL)中,采用离线-在线方案。该方法通过预训练一系列有潜力的网络,并利用新获取的系统观测数据进行微调,加速在线重新优化。计算研究表明,在不同不确定性配置和问题规模下,该方法在解决方案最优性、鲁棒性、效率和可扩展性方面优于现有方法。针对中国上海疫情控制的实例研究也表明,通过TRL改进了多个公共卫生指标的决策。

研究创新点

首先,本研究提出了一种基于TRL的新算法,首次将TL整合到DRL中,用于MOMDP-TVIVP。该方法结合了神经网络的强大近似能力和迁移学习的灵活性,使先前学习的策略能够有效适应系统动态的最新变化,从而在解决方案的最优性和计算效率方面,特别是大规模实例中,相较于现有最先进的方法更具优势。

其次,本研究设计了一个基于群体的训练程序,在离线阶段识别一组有潜力的神经网络和RL超参数,并将其存储在内存缓冲区中,然后在在线阶段自适应地进行微调。内存缓冲区提供了关于最优值函数和策略的知识,有助于加速迁移学习的收敛,并提高在非平稳不确定性下的决策鲁棒性,从而提高TRL技术的可靠性和可迁移性。

第三,本研究提出了MOMDP-TVIVP,这是一类在不确定性下具有重大影响的在线序列决策问题。MOMDP-TVIVP提供了一种在没有关于结构和观测不确定性的先验分布假设下推广MOMDPs的方法,能够作为数学框架用于联合主动监测和自适应干预决策分析。

最后,本研究超越了运筹学领域,延伸至自动控制问题,可应用于控制非平稳动态系统的实时适应和机器学习交叉领域。

实际应用与前景

此次研究的实际应用潜力巨大,特别是在应对疫情等公共卫生危机方面。研究团队通过对上海疫情控制的实例研究表明,采用TRL方法能够显著改善多个公共卫生指标的决策。此外,该研究还预计将在物种保护和无线传感器网络优化等领域有所贡献。例如,在物种保护方面,该方法可用于在有限的保护预算和资源下监测和管理受威胁的隐匿物种保护区;在无线传感器网络方面,该方法可用于优化无线传感器网络的整体效率,如节点资源有限情况下的电源管理。


作者简介:


都牧,大连理工大学经济管理学院副教授。长期致力于研究数据驱动的智能决策方法,融合大数据、人工智能技术和运筹优化理论方法,解决复杂不确定动态系统的在线建模和优化问题,包括共享数据驱动的无人车在线调度、疾病精准筛查与干预决策。研究成果发表在INFORMS Journal on ComputingEuropean Journal of Operational Research,《管理科学学报》等领域内国内外知名学术期刊。主持国家自然科学基金面上项目和青年项目各1项、国家自然科学基金国际重点合作项目1项(合作单位负责人)、省部级纵向项目2项。作为第一指导教师获得2023年“中国国际‘互联网+’大学生创新创业大赛”辽宁省金奖。


俞鸿涛,大连理工大学经济管理学院助理教授。长期致力于数据驱动决策、强化学习、不确定性动态系统优化与控制方法研究,研究领域包括设备个性化故障监测、诊断与预测、疾病个性化筛查与干预决策等。研究成果发表于INFORMS Journal on Computing, IISE Transactions, IEEE Transactions on Automation Science and Engineering, IEEE Transactions on Industrial Electronics等国际知名期刊,授权国家发明专利6项,主持国家青年基金项目1项,获教育部高校优秀成果(人文社会科学)二等奖、管理科学与工程学会优秀博士论文等奖,浙江省科技进步三等奖等奖励。


Nan Kong,美国普渡大学生物医学工程系和工业工程系教授,生物医学工程系代理系主任。长期从事于随机规划、医疗运作管理、医疗数据科学领域的研究,在非平稳随机规划以及近似动态规划理论方法方面做了大量极具创新性的工作。在Management Science, M&SOM, Mathematical Programming, INFORMS Journal on Computing等运筹管理领域顶级期刊发表大量论文,累计引用超过1000多次。在多个管理与运筹领域的知名国际期刊领域主编和学术副主编,例如Healthcare Management Science, Flexible Service and Manufacturing;美国电子电气工程师学会(IEEE)的高级会员;在工业工程与运筹领域最大规模组织IISE担任Operations Research分会、Data Analysis & Information Systems分会委员会委员;在管理与运筹领域最大规模组织INFORMS举办的系列会议中担任程序主席;并在自动化顶级旗舰会议IEEE ASE担任会议领域副主编,担任NSF和NIH基金的评审专家。

上一条:首届大连市大学生期货模拟交易大赛颁奖典礼举行

下一条:2024首届东北营销论坛成功举办

关闭