Tema3 MLP
Redes de Neuronas. Perceptron Multicapa
© José Mª Valls 2007
1
Introducción
•
Minsky y Papert (1969) demostraron que el perceptron simple (y Adaline)
no pueden resolver problemas no lineales (como XOR).
•
La combinación de varios perceptrones podría resolver ciertos problemas
no lineales pero no sabían como adaptar los pesos de las capas ocultas
•
Rumelhart y otrosautores (1986) presentaron la Regla Delta Generalizada
para adaptar los pesos propagando los errores hacia atrás
(retropropagación), para múltiples capas y funciones de activación no
lineales
•
(Applet: http://neuron.eng.wayne.edu/software.html)
Redes de Neuronas. Perceptron Multicapa
© José Mª Valls 2007
2
1
Introducción
•
Se demuestra que el Perceptron Multicapa (MLP) es un APROXIMADORUNIVERSAL
•
Un MLP puede aproximar relaciones no lineales entre datos de entrada y
de salida
•
Es una de las arquitecturas más utilizadas en la resolución de problemas
reales:
– por ser aproximador universal
– por su fácil uso y aplicabilidad
•
Se ha aplicado con éxito en:
–
–
–
–
–
reconocimiento de voz
reconocimiento de imágenes
OCR
conducción de vehículos
diagnósticos médicos, etc…
Redesde Neuronas. Perceptron Multicapa
© José Mª Valls 2007
3
Arquitectura
•
Capa de entrada: sólo se encargan de recibir las señales de entrada y
propagarlas a la siguiente capa
•
Capa de salida: proporciona al exterior la respuesta de la red para cada
patrón de entrada
•
Capas ocultas: Realizan un procesamiento no lineal de los datos recibidos
•
Son redes "feedforward": alimentadas haciaadelante
•
Generalmente cada neurona está conectada a todas las neuronas de la
siguiente capa (conectividad total)
Redes de Neuronas. Perceptron Multicapa
© José Mª Valls 2007
4
2
Arquitectura
w111
Redes de Neuronas. Perceptron Multicapa
wcij
© José Mª Valls 2007
5
Propagación de los patrones de entrada
•
El perceptron multicapa define una relación entre las variables de entrada y
lasvariables de salida de la red
•
Esta relación se obtiene propagando hacia adelante los valores de las
variables de entrada
•
Cada neurona de la red procesa la información recibida por sus entradas y
produce una respuesta o activación que se propaga, a través de las
conexiones correspondientes, hacia las neuronas de la siguiente capa.
Redes de Neuronas. Perceptron Multicapa
© José Mª Valls2007
6
3
Propagación de los patrones de
entrada. Notación
– C capas, nc neuronas en la capa c=1, 2, …C
– Matriz de pesos y vector de umbrales de cada capa:
w11c
c
w21
c
c
W = ( wij ) =
M
wnc 1
c
w12c
c
w22
M
wncc 2
w1cnc+1
... w2cnc+1
M
... wncc nc+1
uc
– Activación de la neurona i:
u1c
c
u2
c
c
U = (ui ) =
M
unc
c
...
aic
i
ac
wj
a cj +1
i
capa c
Redes de Neuronas. Perceptron Multicapa
u c +1
c
ij
capa c+1
© José Mª Valls 2007
7
Propagación de los patrones de
entrada. Activaciones
•
Activación de las neuronas de entrada
donde
•
representa el vector de entrada
Activación de las neuronas de la capa oculta
donde ajc-1 son las activaciones de la capa j-1
Redes de Neuronas. Perceptron Multicapa
© José Mª Valls2007
8
4
Propagación de los patrones de
entrada. Activaciones
•
Activación de las neuronas de la capa de salida
donde
es el vector de salida de la red
Redes de Neuronas. Perceptron Multicapa
© José Mª Valls 2007
9
Función de activación
•
Las funciones más utilizadas son
– Función Sigmoidal
Redes de Neuronas. Perceptron Multicapa
- Tangente Hiperbólica
© José Mª Valls 2007
10
5Función de activación
•
Ambas son crecientes con dos niveles de saturación
•
Normalmente f es común a todas las neuronas
•
La elige el diseñador según el valor de activación que se desee
[-1,1] o [0,1]
•
Ambas funciones están relacionadas:
•
El perceptron multicapa define, a través de sus conexiones y
neuronas, una función continua no lineal del espacio
en el
espacio
Redes de Neuronas....
Regístrate para leer el documento completo.