数学百科

马尔可夫判决过程

2023-06-08

英文

Markov decision process

简介

一类把马尔可夫链和动态规划理论结合起来的随机模型.假定支配人们关心的系统发展的概率规律具有马尔可夫性质(即当已知系统现在的状态对它将来的演变与过去的历史无关).又设在离散时刻t=0,1,2,…对这系统进行观测,每次观测后都要根据观测的结果(即系统的状态)随即做出采取某种措施的决定并由此带来相应的报偿(或代价).同时系统状态的转移不仅依赖于它现在所处的状态,而且与决定采取的措施有关,这就是说转移概率不是固定不变的,它可以随措施的不同而改变.人们要求在上述观测和判决过程中选取一系列措施,使得在某种意义(例如,在平均的意义)下总的报偿达到最大(或者代价最小).这样的数学模型就称为马尔可夫判决过程,它可以看做是马尔可夫链模型和动态规划理论结合的一种衍生物.