数学百科

马尔可夫决策过程

2023-06-08

英文

Markov decision process

简介

简称马氏决策过程.一类无后效,即马氏过程的决策问题.由于该过程的未来演化特性只依赖于其当前状态而与历史无关,马氏决策规则亦只考虑其与当前状态的依赖性,从而可使问题大为简化,并得到广泛的应用.马氏决策理论最早由美国数学家贝尔曼(Bellman,R.)和霍华德(Howard,R.A.)分别于1957年和1960年研究并出版专著,其后在多步决策、最优控制和随机优化等方面引起了广泛注意,并对其进行了大量深入的研究和应用.

马氏决策过程的基本模型是一类随机递推演化过程.以较简单的离散时间情形为例,其由第k步状态x(k)向第k+1步状态x(k+1)转移的条件概率分布只与状态x(k)及第k步的决策量u(k)有关,而与此前的历史无关,可以写成

(k=0,1,…,N;N可能为无穷).决策的目标通常为求u(k),使依赖于所有状态和控制作用的某品质函数J达到极大.亦即

由于马氏决策的无后效性,它满足“最优性原理”,并可用动态规划方法求解(参见“动态规划”).对于动态规划的主要困难“维数灾”问题,则又发展了许多迭代技术,如值函数递推方法、策略空间逼近等,近年根据实际问题需要又发展了Q(价值)函数强化学习方法、随机逼近和扰动分析等用于处理高复杂度问题的近似方法,并对突发事件驱动的通信网络、生产、加工系统等排队网络模型的调度.优化问题提供了实用的算法.