Información
a
Alan Ledesma Arista
Resumen
Este apunte busca rescatar las herramientas matem´ticas que se utilizaran en el curso.
a
1.
Programaci´n din´mica
o
a
La programaci´n din´mica es un problema que busca determinar la trayectoria ´ptima de un
o
a
o
conjunto de variables controlables, de tal manera que se maximice una funci´n de pol´
o
ıtica gobernada por unsistema din´mico. Todo problema de programaci´n din´mica tiene los siguientes
a
o
a
elementos:
Una funci´n de pol´
o
ıtica, que es la funci´n que expl´
o
ıcitamente se desea maximizar o minimizar.
Un vector de variables de estado, que son un conjunto de variables que reflejan el estado
de la din´mica. Estas variables no son controlables.
a
Un vector de variables de control, que son unconjunto de variables que afectan a la din´mia
ca y son controlables.
Un sistema din´mico, que determina la din´mica de las variables de estado condicionado
a
a
a las variables de control.
Existen varias formas de resolver este tipo de planteamientos, entre los m´s utilizados tenemos:
a
Multiplicadores de Lagrange.
Ecuaciones de Bellman.
Dada la simplicidad de la t´cnica, resulta convenienterevisar en este texto la t´cnica de las
e
e
ecuaciones de Bellman, primero en un entorno determin´
ıstico y luego en un entorno estoc´stico.
a
1.0.1.
Las ecuaciones de Bellman con horizonte temporal infinito sin incertidumbre
El problema de optimizaci´n din´mica a resolver es del tipo:
o
a
∞
m´x ∞ J
a
{ut+k ∈Ω}k=0
β k F (xt+k , ut+k , t + k)
=
k=0
s.a.:
xt+1 = f (xt, ut , t)
x0 = x0
ut
∈ Ω
1
(1)
Donde xt ∈ Rn , ut ∈ Rm , J y f (xt , ut , t) es el vector de variables de estado, vector de
variables de control, funci´n de pol´
o
ıtica y sistema din´mico, respectivamente.
a
Para entender este problema, analicemos el problema de tiempo finito. El proceso consiste en
escoger las variables de control en cada per´
ıodo de tal manera que seobtenga las variables de
estado adecuadas que permitan maximizar la funci´n objetivo, veamos:
o
Figura 1: Controles y estados
u0
u1
u2
u3
un‐2
un‐1
…... .…..
X0
X1
X2
X3
X4
Xn‐2
Xn‐1
Xn
Partiendo de un nivel inicial de la variable de estado (x0 ), el agente que controla ut escoge
el valor de esta variable en el momento cero (u0 ), con elloobtiene el primer valor de la funci´n
o
objetivo F (x0 , u0 , 0); ya con esta informaci´n de acuerdo a f (x0 , u0 , 0) en [1] se define x1 . En
o
el siguiente per´
ıodo, el agente observa (x1 ) y procede a escoger la variable de control para ese
momento (u1 ), nuevamente de acuerdo a F (x1 , u1 , 1) se determina el nuevo valor de la funci´n
o
objetivo (F (x0 , u0 , 0)+βF (x1 , u1 , 1));ahora, correspondiente a f (x1 , u1 , 1) se determina x2 . As´
ı,
se repite este proceso de manera sucesiva hasta el momento n − 1. De donde se obtiene la senda
de expansi´n tanto de la variable de control y la variable de estado, y de acuerdo a los valores
o
adoptados por estas variables, es que la funci´n objetivo alcanzara un nivel. El problema es
o
escoger estas sendas de expansi´n, demanera que se alcance el nivel ´ptimo de la funci´n de
o
o
o
pol´
ıtica.
La mejor manera de resolver el problema es de manera regresiva, pues as´ se consideran todas
ı
las alternativas. Para entender mejor la l´gica ser´ recomendable revisar el ejemplo utilizado
o
ıa
por Emilio Cerda Tena en Optimizaci´n Din´mica, ejercicio llamado el Problema de las Rutas,
o
a
desarrollado en el capitulo6.
Nuestra dificultad aparece cuando tratamos de resolver este problema con horizonte temporal infinito, pues dado que la metodolog´ nos sugiere resolverlo de manera regresiva, en este
ıa
caso el ultimo per´
´
ıodo ser´ el infinito (por as´ decirlo), por lo que no habr´ forma de resolverlo.
ıa
ı
ıa
Para ello nuestros problemas de optimizaci´n deben cumplir al menos un requisito, es que la...
Regístrate para leer el documento completo.