博士生预答辩信息(董博韬,2025年3月21日 9:00, 电信群楼2-412)
发布时间:2025-03-17 浏览次数:272
控制科学与工程学科博士学位论文预答辩信息如下:

时   间:2025年3月21日 9:00

地   点:电信群楼2-412

 

答辩人:董博韬

导   师:张卫东



论文题目

深度强化学习的高效性与安全性优化方法研究



论文内容:

第一章 绪论

第二章 面向高样本效率的历史决策正则化最大熵强化学习算法

第三章 面向高性能强化学习的前瞻性策略迭代算法

第四章 面向安全约束的前瞻性安全强化学习算法

第五章 面向离线策略训练的扩散演员-行为评论家引导算法

第六章 总结与展望

 

关键词:强化学习,样本效率,策略性能,安全校正,离线训练
返回上一级