汶川地震17年后,少年在交大圆了“报国梦”
MORE
博士学位论文答辩信息如下:
时 间:2025年5月23日14:00
地 点:电院群楼2-410
答辩人:董博韬
导 师:张卫东
论文题目:
深度强化学习的高效决策与安全训练方法研究
论文内容:
第一章 绪论
第二章 基于历史决策正则的最大熵策略优化算法
第三章 基于未来状态预测的前瞻性策略优化算法
第四章 基于行为价值的离线扩散策略优化算法
第五章 基于前瞻性成本评估的安全策略优化算法
第六章 总结与展望
关键词:
强化学习,样本效率,策略回报,安全校正,离线训练