马尔可夫决策过程

英文

Markov decision process

简介

简称马氏决策过程.一类无后效，即马氏过程的决策问题.由于该过程的未来演化特性只依赖于其当前状态而与历史无关，马氏决策规则亦只考虑其与当前状态的依赖性，从而可使问题大为简化，并得到广泛的应用.马氏决策理论最早由美国数学家贝尔曼(Bellman，R.)和霍华德(Howard，R.A.)分别于1957年和1960年研究并出版专著，其后在多步决策、最优控制和随机优化等方面引起了广泛注意，并对其进行了大量深入的研究和应用.

马氏决策过程的基本模型是一类随机递推演化过程.以较简单的离散时间情形为例，其由第k步状态x(k)向第k+1步状态x(k+1)转移的条件概率分布只与状态x(k)及第k步的决策量u(k)有关，而与此前的历史无关，可以写成

(k=0，1，…，N;N可能为无穷).决策的目标通常为求u(k)，使依赖于所有状态和控制作用的某品质函数J达到极大.亦即

由于马氏决策的无后效性，它满足“最优性原理”，并可用动态规划方法求解(参见“动态规划”).对于动态规划的主要困难“维数灾”问题，则又发展了许多迭代技术，如值函数递推方法、策略空间逼近等，近年根据实际问题需要又发展了Q(价值)函数强化学习方法、随机逼近和扰动分析等用于处理高复杂度问题的近似方法，并对突发事件驱动的通信网络、生产、加工系统等排队网络模型的调度.优化问题提供了实用的算法.