风险敏感马氏决策过程与状态扩充变换

马帅; 夏俐<sup>*</sup>

doi:10.13471/j.cnki.acta.snus.2022a020

摘要

在马氏决策过程中，过程的随机性由策略与转移核决定，优化目标的随机性受随机报酬与随机策略的影响，其中随机报酬往往可通过简化转化为确定型报酬。当优化准则为经典的期望类准则，如平均准则或折扣准则时，报酬函数的简化不会影响优化结果。然而对风险敏感的优化准则，此类简化将影响风险目标值，进而破坏策略的最优性。针对该问题，状态扩充变换将随机信息重组进扩充状态空间，在简化报酬函数的同时保持随机报酬过程不变。本文以三种定义于累积折扣报酬的经典风险测度为例，在策略评价中对比报酬函数简化与状态扩充变换对风险评估的影响。理论验证与数值实验均表明，当报酬函数形式较为复杂时，状态扩充变换可在简化报酬函数的同时保持风险测度不变。

单位
中山大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 05:26

风险敏感马氏决策过程与状态扩充变换

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友