toma de decisiones mediante mdp
Como es bien sabido, los vuelos pueden retrasarse,cancelarse, o perderse por diversas razones. El turista, un informático con conocimientos de planificación, quiere arriesgar lo menos posible y para ello estudia las diferentes combinaciones, en basea estadísticas que ha encontrado de incidencias en vuelos de los destinos y compañías que operan entre ellos. Según estas estadísticas, las probabilidades de incidencias en una época del año son lassiguientes:
origen destino frecuencia no despega
Airline A1
IB BE 30% 10%
IB RO 60%
Airline A2
BE IB 10%
BE PA 10%
BE RO 80%
PA RO 70% 30%
IB PA 90% 10%
Airline A3
BE MO 60% 40%Airline A4
RO MO 80%
RO PA 20%
Estos porcentajes se han calculado de forma relativa al valor de mayor frecuencia, que corresponde al 100%.
1. Elige los estados y las acciones para resolver elproblema como MDP. Dibuja el diagrama de estados y acciones con sus probabilidades asociadas.
Los estados van a ser las ciudades y las acciones serán las aerolíneas.
Las ciudades secodificarán con números de la siguiente forma:
Ibiza – 1
Berlín – 2
Roma – 3
París – 4
Moscú – 5
2. Comprueba la convergencia de “iteración_valor”. ¿En cuántos pasosconverge? ¿Cuál es el valor de la Utilidad óptima para todos los estados? Representa gráficamente la evolución de las utilidades hasta convergencia. ¿Se produce algún cambio al modificar el factor dedescuento?
“iteración_valor” converge en 95 pasos.
El valor de utilidad óptima para todos los estados es el siguiente:
Utilidad Estado
14.7129 4
15.1235 1
16.8750...
Regístrate para leer el documento completo.