Aprendizaje por refuerzo
Caso de estudio – Aprendizaje por refuerzo
Laberinto El problema del laberinto trata de enseñar a un robot a alcanzar la salida de un laberinto desconocido. Problema El problema del laberinto tiene múltiples variantes. Aquí se adopta un sencillo laberinto de 3x3 sin obstáculos en él, aunque la solución adoptada puedegeneralizarse a casos más complejos. 1 2 3
1
Salida
2
3
-1
+1
En el ejemplo propuesto hay 2 estados terminales, (3,2) y (3,3), que tienen asignadas respectivamente utilidades de -1 y +1, que también consideramos como sus recompensas. El robot sale del estado (1,1). El modelo de transición del sistema permite al robot desplazarse en cualquier dirección: N (Norte), E (Este), S (Sur) yO (Oeste). En todos los casos, el robot logra realizar el movimiento deseado con probabilidad 0,8, pero pasa a su izquierda o derecha con probabilidad 0,1 en cada caso. El robot no puede realizar ningún movimiento que le saque del laberinto. Se consideran para los experimentos 3 trazas: Traza 1 2 3 Serie → E → → E → → S → → S → → E → → S → → N → → E → → S → → S → → S → → N → → E → → E → → S →→ S →
Máster en Ingeniería de Sistemas y de Control - Sistemas Inteligentes (2010-2011)
Máster en Ingeniería de Sistemas y de Control – Sistemas Inteligentes
Caso de estudio – Aprendizaje por refuerzo
Ejercicio Dados los datos anteriores, se pide: 1) Calcular el valor V de los estados utilizando aprendizaje ADP, en particular V(1,1) y V(2,2). 2) Calcular el valor V de los estadosutilizando aprendizaje TDL, en particular V(1,3) y V(2,3). 3) Calcular los valores Q utilizando aprendizaje Q, en particular Q(1,3) y Q(2,3).
Máster en Ingeniería de Sistemas y de Control – Sistemas Inteligentes
Caso de estudio – Aprendizaje por refuerzo Soluciones
1) Calcular el valor V de los estados utilizando aprendizaje ADP, en particular V(1,1) y V(2,2). Para este aprendizaje asimilamosel valor pedido de V con el de presentaciones. de las
En primer lugar, debemos calcular el modelo de transiciones P. Para ello consideramos para cada estado el número de veces que se observa una cierta transición cuando se toma una decisión en relación con el total de transiciones observadas para esa decisión. Formalmente: | , , , ′ , , ′′
∑
Donde , , ′ es el número de veces que se haobservado la transición al estado s’ desde el estado s al tomar la decisión d. La tabla que define la función de probabilidad queda como: (1,1) 0 0 0 1 0 0 ? (1,2) 0,75 0 0 0 1 0 ? (1,3) 0 0,75 0 0 0 0 ? (2,1) 0,25 0 0 0 0 0 ? (2,2) 0 0,25 0 0 0 0 ? (2,3) 0 0 1 0 0 0 ? (3,1) 0 0 0 0 0 0 ? (3,2) 0 0 0 0 0 0 ? (3,3) 0 0 0 0 0 1 ?
(1,1), E (1,2), E (1,3), S (2,1), N (2,2), N (2,3),S (3,1),EFíjese que no se sabe nada acerca de (3,1) porque nunca se ha observado. A continuación hay que aprender la función de utilidad, cuya ecuación es: ∗ | , ∗
Suponemos los siguientes parámetros para los cálculos: 0,9 Así nos encontramos: 1,1 0 0,9 ∗ 0,75 ∗ 1,2 0,25 ∗ 1,2 0 0,9 ∗ 0,75 ∗ 1,3 2,1 2,2 2,3 0 0,9 ∗ 3,3 0 0 0 0,9 ∗ 0,9 ∗ 0,9 ∗ 1,3 0,25 ∗ 2,3 1,1 1,2
2,1 2,2
si se admiten movimientosadicionales o 3,3 1,0
2,3
1 si
no se permiten movimientos adicionales
Máster en Ingeniería de Sistemas y de Control – Sistemas Inteligentes
Caso de estudio – Aprendizaje por refuerzo
No se puede afirmar nada acerca de las utilidades de los estados (3,1) y (3,2) porque se carece de información. 2) Calcular el valor V de los estados utilizando aprendizaje TDL, en particular V(1,3) yV(2,3). Para este aprendizaje asimilamos el valor pedido de V con el de presentaciones. En este caso la ecuación a emplear es: ← ∝∗ γ∗ Nótense 2 detalles. El primero la aparición del parámetro para representar un valor decreciente de las utilidades cuanto más se alejan en el futuro. La fórmula presente en la diapositiva 43 de los apuntes asume que este valor es 1. Para mostrar su influencia aquí...
Regístrate para leer el documento completo.