上海交通大学自动化系

博士生预答辩信息（董博韬,2025年3月21日 9:00, 电信群楼2-412）

发布时间：2025-03-17 浏览次数：618

控制科学与工程学科博士学位论文预答辩信息如下：

时间：2025年3月21日 9:00

地点：电信群楼2-412

答辩人：董博韬

导师：张卫东

论文题目

深度强化学习的高效性与安全性优化方法研究

论文内容：

第一章绪论

第二章面向高样本效率的历史决策正则化最大熵强化学习算法

第三章面向高性能强化学习的前瞻性策略迭代算法

第四章面向安全约束的前瞻性安全强化学习算法

第五章面向离线策略训练的扩散演员-行为评论家引导算法

第六章总结与展望

关键词：强化学习，样本效率，策略性能，安全校正，离线训练