maquinas de aprendizage
1. Maquinas de Aprendizaje
H´ctor Allende
e
Universidad T´cnica Federico Santa Mar´
e
ıa
Febrero 2006
H´ctor Allende (UTFSM)
e
1. M´quinas de Aprendizaje
a
Febrero 2006
1 / 65
Agenda
1
Modelo Estad´
ıstico del Problema
2
´
Generalizacion y Teor´ VC
ıa
3
´
Regularizacion
4
Temas Pendientes
H´ctor Allende (UTFSM)
e
1. M´quinas deAprendizaje
a
Febrero 2006
2 / 65
Problema General
Materia Prima. Datos, observaciones, mediciones.
Objetivo. Obtener descripciones de alto nivel de esos datos,
relaciones, modelos, patrones.
Problema de Inducci´n. ¿Cu´l es el alcance de estas descripciones?
o
a
¿Son v´lidas m´s all´ de los datos que permitieron construirlas?
a
a
a
Supuesto: Existe una regularidad subyacente alas observaciones:
Sistema Generador.
H´ctor Allende (UTFSM)
e
1. M´quinas de Aprendizaje
a
Febrero 2006
3 / 65
Problema General
Identificar al Sistema: White-Box Models
Imitar al Sistema: Black-Box Models
¿Identificar o imitar al sistema?
H´ctor Allende (UTFSM)
e
1. M´quinas de Aprendizaje
a
Febrero 2006
4 / 65
Modelo Estad´
ıstico del Problema
Espacio deObservaciones Z = X × Y ( ... con una medida P que
implementa el supuesto de “regularidad” subyacente a las
observaciones)
Espacio de Hip´tesis H: Colecci´n de todos los modelos
o
o
seleccionables para explicar los datos
Funci´n de P´rdida Q(f (x), y ): ¿Cu´l es el costo de responder f (x) a
o
e
a
una entrada x si el sistema responde con y ?
H´ctor Allende (UTFSM)
e
1. M´quinasde Aprendizaje
a
Febrero 2006
5 / 65
Modelo Estad´
ıstico del Problema
Aprendizaje: Elegir F ∈ Ω para minimizar el Riesgo asociado al
modelo
E [Q(F (x), y )] = Q(F (x), y )dP(x, y )
(1)
No conocemos P!!, ¿C´mo elegir una hip´tesis de H si no podemos
o
o
computar (1)?
H´ctor Allende (UTFSM)
e
1. M´quinas de Aprendizaje
a
Febrero 2006
6 / 65
´
Principiosde Induccion
No conocemos P, pero s´ un conjunto de ejemplos
ı
D = {(x1 , y1 ), . . . , (xm , ym )} que supondremos obtenidos i.i.d. de P.
Funcional de Inducci´n: Criterio para elegir f s´lo en base a la
o
o
muestra D.
ˆ
R : H × Zn → R
(f , D) → R(f , D)
(2)
Elecci´n Cl´sica: Funcional de Riesgo Emp´
o
a
ırico
m
ˆ
R m (f , D) =
Q(f (xi ), yi )
(3)
i=1
H´ctorAllende (UTFSM)
e
1. M´quinas de Aprendizaje
a
Febrero 2006
7 / 65
´
Principios de Induccion
Se obtiene al reemplazar P por
m
ˆ
P=
δ(x − xi )δ(y − yi )
(4)
i=1
Alternativas a este principio b´sico se pueden obtener al considerar
a
otros estimadores de P, por ejemplo
m
ˆ
P=
k(x − xi , y − yi )
(5)
i=1
con k(·, ·) un kernel centrado en (0, 0).Obtenemos el denominado Vicinal Risk
m
ˆ
R(f , D) =
Q(f (xi ), yi )k(x − xi , y − yi )
(6)
i=1
H´ctor Allende (UTFSM)
e
1. M´quinas de Aprendizaje
a
Febrero 2006
8 / 65
´
Principios de Induccion
H´ctor Allende (UTFSM)
e
1. M´quinas de Aprendizaje
a
Febrero 2006
9 / 65
´
Regresion
¿Qu´ principio de inducci´n es mejor?
e
o
Antes de responder estapregunta veamos como el modelo estad´
ıstico
del aprendizaje puede servir para responder a problemas cl´sicos en
a
estad´
ıstica.
Regresi´n: La relaci´n entre X e Y es estoc´stica, i.e., dado un x
o
o
a
existe un conjunto probable de respuestas y . Nos interesa estimar
r (x) =
ydP(y |x)
(7)
denominada funci´n de regresi´n
o
o
H´ctor Allende (UTFSM)
e
1. M´quinas deAprendizaje
a
Febrero 2006
10 / 65
´
Regresion
Consideremos el funcional de riesgo asociado a la funci´n de p´rdida
o
e
cuadr´tica,
a
R(f ) =
(y − f (x))2 dP(x, y )
(8)
Entonces es posible mostrar que
R(f ) =
(y − r (x))2 dP(x, y ) +
(f (x) − r (x))2 dP(x)
La primera parte cuantifica la varianza de y y la segunda la diferencia
entre el modelo f y la curva de...
Regístrate para leer el documento completo.