Procesos de Decision
PROCESOS DE DECISION DE MARKOV
El proceso de decisión Markoviano es una herramienta que permite analizar el comportamiento de procesos que evolucionan de forma no determinista a lo largo deltiempo en torno a un conjunto de estados.
El proceso de decisión Markoviano es la aplicación de la programación dinámica, a un proceso de decisión estocástico o procesos aleatorios. La decisión tambiénconocida como la acción tomada en un tiempo t, afecta el sistema en un futuro.
El objetivo de quien toma la decisión es elegir una secuencia de acciones para optimizar un criterio predeterminado.Los efectos de una acción tomada en un estado dependen solo de ese estado y no de su historia previa. La diferencia entre los procesos de decisión de Markov y las cadenas de Markov es la adición deacciones y recompensas.
ALGORITMO PROCESO DE DECISION DE MARKOV
El proceso de decisión de Markov funciona de la siguiente manera: (S, A, P, R), donde
S es un conjunto finito de estados.A es un conjunto finito de acciones.
P es una tabla de probabilidad de transición. P(s, a, s´) es una representación racional de la probabilidad de transición desde s a s´ tomando una acción a.Aquí s, s´ ∈ S, y a ∈ A.
R es una recompensa recibida de tomar una acción a desde el estado s a el estado s´. y nuevamente s, s´ ∈ S, y a ∈ A.
La transición de estado y la función de refuerzo(recompensa) son funciones estocásticas, por lo que la misma situación puede producir distintos resultados.
Propiedad de Markov
La propiedad de Markov dice: que el estado anterior y la última acciónrealizada son suficientes para describir el estado actual y el refuerzo recibido, dado por la siguiente ecuación:
Pr {st+1 = s´; rt+1 = r|st, at} =
Pr {st+1 = s´, rt +1 = r|st, at, rt, st - 1, at –1,……, r1, s0, a0,}
La acción a ejecutar solamente dependerá del estado actual, es decir, los demás estados del sistema no afectaran la decisión de este.
Políticas y una mejor optimización...
Regístrate para leer el documento completo.