汶川地震17年后,少年在交大圆了“报国梦”
MORE
第一章 绪论
第二章 面向高样本效率的历史决策正则化最大熵强化学习算法
第三章 面向高性能强化学习的前瞻性策略迭代算法
第四章 面向安全约束的前瞻性安全强化学习算法
第五章 面向离线策略训练的扩散演员-行为评论家引导算法
第六章 总结与展望
关键词:强化学习,样本效率,策略性能,安全校正,离线训练