异策略安全约束强化学习
图书信息
作者:杨奇松等著著
出版社:国防工业出版社
定价:88.00
ISBN:9787118137071
出版时间:2025-07-01
分类:图书,行业职业,计算机,软硬件技术
商品介绍
目录
第一部分绪论
第1章引言
1.1安全定义及算法
1.1.1安全约束强化学习
1.1.2安全强化学习分类
1.1.3测试基准环境
1.2安全风险规避
1.3训练安全保证
1.4关键问题
1.5全书概览
1.6参考文献
第2章背景
2.1约束马尔可夫决策过程
2.2约束优选熵强化学习
2.3值分布强化学习
2.4无模型状态熵估计
2.5参考文献
第二部分安全风险规避
第3章安全强化学习
3.1引言
3.2风险规避问题定义
3.3WCSAC强化学习算法
3.3.1值分布安全评估
3.3.2策略更新
3.3.3完整算法
3.4实证分析
3.5结论
3.6参考文献
第4章安全风险控制
4.1引言
4.2分位数回归安全成本分布
4.2.1基于IQN的安全评估
4.2.2基于样本均值的CVaR安全度量
4.2.3完整算法
4.3实证分析
4.3.1SpyGame环境
4.3.2SafetyGym环境
4.4相关工作
4.5结论
4.6参考文献
第三部分训练安全保证
第5章安全迁移强化学习
5.1引言
5.2源任务先验获取
5.2.1迁移问题设置
5.2.2迁移度量
5.2.3方法概览
5.3引导式安全探索
5.3.1训练安全向导
5.3.2安全向导中的策略提炼
5.3.3复合采样
5.4实证分析
5.4.1超参数
5.4.2消融试验
5.4.3基线算法对比试验
5.5相关工作
5.6结论
5.7参考文献
第6章安全无监督探索
6.1引言
6.2任务不可知安全探索
6.3约束熵优选化方法
6.3.1传统方法可行性分析
6.3.2约束熵优选化的对偶性
6.3.3CEM算法
6.3.4收敛保证
6.4实证分析
6.4.1安全探索能力评估
6.4.2参数敏感性
6.4.3安全迁移学习的评估
6.5相关工作
6.6结论
6.7参考文献
第四部分结语
第7章结论
7.1关键结论
7.2局限和未来工作
7.3其他应用难题
7.4参考文献
内容简介
在现实世界的强化学习应用中,安全性是一个至关重要的考量。本书深入探讨了如何在强化学习框架内实现安全风险控制和训练过程的安全性。首先,介绍Worst-Case Soft Actor Critic(WCSAC)算法,该算法通过分析累积安全成本的分布,引入条件风险值作为安全约束,并自适应实现奖励与安全之间的平衡。其次,介绍两种估计安全成本分布的方法:高斯近似法和分位数回归算法,并通过仿真实验展示它们在风险控制中的效果。再次,进一步地针对目标奖励未知的情况,介绍Constrained Entropy Maximization(CEM)算法,旨在学习一个在安全前提下能够均匀访问所有状态的探索策略。CEM算法利用无模型的熵估计器,并采用置信域算法在安全前提下优选化状态密度函数的熵。最后,为了实现安全策略的快速迁移学习,介绍Safe Guide(SaGui)框架,该框架在目标策略成熟前,通过正则化和逐渐消除安全探索策略的影响,可促进对目标任务的快速学习。
本书的研究不仅为强化学习在现实世界的应用提供了新的视角和方法,也为未来在累积安全成本分布估计和训练过程安全方面的研究奠定了基础。本书适合从事强化学习、人工智能安全、机器人控制等领域的研究人员、工程师和高校师生,尤其对于关注如何在复杂环境中实现安全决策和策略优化的读者具有重要参考价值。
- 先秦诸子传播思想研究(仝冠军 著)
- 道教碑(赵孟书(元))
- 中国历代画论大观:清代画论(第9编 四)(俞剑华,江苏凤凰美术)
- 寻找施耐庵(弘虫 著,中国国际广播)
- 勘查地球化学手册(第三卷 矿产勘查的岩石地球化学)((荷)G.J.S.戈维特(G.J.S.Govet)
- 有花为伴(A Tree in the house)([澳] 安娜贝拉·希克森,紫图图书出品 著,周晓)
- 小的是美好的([英] E. F. 舒马赫 著,刘清山 译,四川)
- 食疗:健康新概念(未知)
