当前位置:网站首页>推荐书籍 > 正文 >>

异策略安全约束强化学习

图书信息

作者:杨奇松等著著

出版社:国防工业出版社

定价:88.00

ISBN:9787118137071

出版时间:2025-07-01

分类:图书,行业职业,计算机,软硬件技术

商品介绍

目录

第一部分绪论

第1章引言

1.1安全定义及算法

1.1.1安全约束强化学习

1.1.2安全强化学习分类

1.1.3测试基准环境

1.2安全风险规避

1.3训练安全保证

1.4关键问题

1.5全书概览

1.6参考文献

第2章背景

2.1约束马尔可夫决策过程

2.2约束优选熵强化学习

2.3值分布强化学习

2.4无模型状态熵估计

2.5参考文献

第二部分安全风险规避

第3章安全强化学习

3.1引言

3.2风险规避问题定义

3.3WCSAC强化学习算法

3.3.1值分布安全评估

3.3.2策略更新

3.3.3完整算法

3.4实证分析

3.5结论

3.6参考文献

第4章安全风险控制

4.1引言

4.2分位数回归安全成本分布

4.2.1基于IQN的安全评估

4.2.2基于样本均值的CVaR安全度量

4.2.3完整算法

4.3实证分析

4.3.1SpyGame环境

4.3.2SafetyGym环境

4.4相关工作

4.5结论

4.6参考文献

第三部分训练安全保证

第5章安全迁移强化学习

5.1引言

5.2源任务先验获取

5.2.1迁移问题设置

5.2.2迁移度量

5.2.3方法概览

5.3引导式安全探索

5.3.1训练安全向导

5.3.2安全向导中的策略提炼

5.3.3复合采样

5.4实证分析

5.4.1超参数

5.4.2消融试验

5.4.3基线算法对比试验

5.5相关工作

5.6结论

5.7参考文献

第6章安全无监督探索

6.1引言

6.2任务不可知安全探索

6.3约束熵优选化方法

6.3.1传统方法可行性分析

6.3.2约束熵优选化的对偶性

6.3.3CEM算法

6.3.4收敛保证

6.4实证分析

6.4.1安全探索能力评估

6.4.2参数敏感性

6.4.3安全迁移学习的评估

6.5相关工作

6.6结论

6.7参考文献

第四部分结语

第7章结论

7.1关键结论

7.2局限和未来工作

7.3其他应用难题

7.4参考文献

内容简介

在现实世界的强化学习应用中,安全性是一个至关重要的考量。本书深入探讨了如何在强化学习框架内实现安全风险控制和训练过程的安全性。首先,介绍Worst-Case Soft Actor Critic(WCSAC)算法,该算法通过分析累积安全成本的分布,引入条件风险值作为安全约束,并自适应实现奖励与安全之间的平衡。其次,介绍两种估计安全成本分布的方法:高斯近似法和分位数回归算法,并通过仿真实验展示它们在风险控制中的效果。再次,进一步地针对目标奖励未知的情况,介绍Constrained Entropy Maximization(CEM)算法,旨在学习一个在安全前提下能够均匀访问所有状态的探索策略。CEM算法利用无模型的熵估计器,并采用置信域算法在安全前提下优选化状态密度函数的熵。最后,为了实现安全策略的快速迁移学习,介绍Safe Guide(SaGui)框架,该框架在目标策略成熟前,通过正则化和逐渐消除安全探索策略的影响,可促进对目标任务的快速学习。

本书的研究不仅为强化学习在现实世界的应用提供了新的视角和方法,也为未来在累积安全成本分布估计和训练过程安全方面的研究奠定了基础。本书适合从事强化学习、人工智能安全、机器人控制等领域的研究人员、工程师和高校师生,尤其对于关注如何在复杂环境中实现安全决策和策略优化的读者具有重要参考价值。

推荐书籍