当前位置：网站首页>推荐书籍 > 正文 >>

异策略安全约束强化学习

图书信息

作者：杨奇松等著著

出版社：国防工业出版社

定价：88.00

ISBN：9787118137071

出版时间：2025-07-01

分类：图书,行业职业,计算机,软硬件技术

商品介绍

内容简介

在现实世界的强化学习应用中，安全性是一个至关重要的考量。本书深入探讨了如何在强化学习框架内实现安全风险控制和训练过程的安全性。首先，介绍Worst-Case Soft Actor Critic(WCSAC)算法，该算法通过分析累积安全成本的分布，引入条件风险值作为安全约束，并自适应实现奖励与安全之间的平衡。其次，介绍两种估计安全成本分布的方法：高斯近似法和分位数回归算法，并通过仿真实验展示它们在风险控制中的效果。再次，进一步地针对目标奖励未知的情况，介绍Constrained Entropy Maximization(CEM)算法，旨在学习一个在安全前提下能够均匀访问所有状态的探索策略。CEM算法利用无模型的熵估计器，并采用置信域算法在安全前提下优选化状态密度函数的熵。最后，为了实现安全策略的快速迁移学习，介绍Safe Guide(SaGui)框架，该框架在目标策略成熟前，通过正则化和逐渐消除安全探索策略的影响，可促进对目标任务的快速学习。

本书的研究不仅为强化学习在现实世界的应用提供了新的视角和方法，也为未来在累积安全成本分布估计和训练过程安全方面的研究奠定了基础。本书适合从事强化学习、人工智能安全、机器人控制等领域的研究人员、工程师和高校师生，尤其对于关注如何在复杂环境中实现安全决策和策略优化的读者具有重要参考价值。

作品类型：国防工业出版社,图书,行业职业,计算机,软硬件技术,

推荐书籍

先秦诸子传播思想研究（仝冠军著）
道教碑（赵孟书（元））
中国历代画论大观：清代画论（第9编四）（俞剑华，江苏凤凰美术）
寻找施耐庵（弘虫著，中国国际广播）
勘查地球化学手册（第三卷矿产勘查的岩石地球化学）（（荷）G.J.S.戈维特（G.J.S.Govet）
有花为伴（A Tree in the house）（[澳] 安娜贝拉·希克森，紫图图书出品著，周晓）
小的是美好的（[英] E. F. 舒马赫著，刘清山译，四川）
食疗：健康新概念（未知）

推荐书籍

一个行者的传奇：分文不带走美国（麦金太尔（Mclntyre.M.）著，向晓红，）
网络安全检测与协同控制技术（蒋卫华编）
中国戏曲海外传播工程丛书·京剧：白蛇传（杨孝明著，杨孝明译，外语教学与研究）
日本中老年时装（白锡尧编译，浙江人民）
心灵鸡汤·感悟亲情：英汉双语（青闰主编，中国城市）
现代测试技术原理与应用（何广军著何广军编，国防工业）
箭与靶：文坛名家笔战文编（许道明，陈麦青编评，上海文化）
表达的艺术：PPT动画设计（（韩）金钟哲，（韩）权熙哲编著，武传海，山世英）

异策略安全约束强化学习

图书信息

商品介绍

目录

内容简介