博士生答辩信息(董博韬,2025年5月23日14:00,电院群楼2-410)
发布时间:2025-05-19 浏览次数:95

博士学位论文答辩信息如下:
   间:202552314:00
   点:电院群楼2-410
答辩人:董博韬
   师:张卫东
论文题目:
深度强化学习的高效决策与安全训练方法研究

论文内容:
第一章 绪论

第二章 基于历史决策正则的最大熵策略优化算法

第三章 基于未来状态预测的前瞻性策略优化算法

第四章 基于行为价值的离线扩散策略优化算法

第五章 基于前瞻性成本评估的安全策略优化算法

第六章 总结与展望

关键词:

强化学习,样本效率,策略回报,安全校正,离线训练

返回上一级