Analisis de componentes principales

Solo disponible en BuenasTareas
  • Páginas : 22 (5340 palabras )
  • Descarga(s) : 0
  • Publicado : 3 de diciembre de 2010
Leer documento completo
Vista previa del texto
Análisis de Componentes Principal.

Introducción.-

Los orígenes del análisis de Componentes Principales (ACP) se remontan al año 1901, en el que Karl Pearson publicó un trabajo sobre el ajuste de un sistema de puntos de un multiespacio a un plano. Este enfoque fue retomado en 1933 por Harold Hotelling , quien fue el primero en formular el ACP tal como se ha difundido hasta nuestro días.
Elenfoque de Hotteling se centraba en el análisis de los componentes que sintetizan la mayor variabilidad del sistema de puntos, ello implica quizás el calificativo de “principal”.
La técnica de ACP puede ser considerada desde diversas perspectivas, según el énfasis del objetivo del investigador. En primer lugar, puede ser considerada como una técnica multivariada descriptiva, que permite tratarmatrices de grandes dimensiones, así, la podemos entender como una técnica exploratoria, en el sentido de que, explorar los datos, sin restricción alguna sobre ellos, será el primer paso para entenderlos. Otra forma de verla es como una técnica estadística que nos sirve para probar las hipótesis que se formulen de los datos, buscando reducir el número de dimensiones originales a un conjunto de kvariables, logrando la mayor interpretabilidad de los datos. Finalmente podemos ver el ACP como una técnica geométrica, la cual busca colocar de forma óptima, en algún sentido, a los ejes de coordenadas.

El ACP es una técnica multivariada interdependiente que busca condensar la información en un número reducido de nuevas variables que expliquen la máxima variabilidad total de los datos.Objetivos.-
Entre los principales objetivos que persigue el ACP están:
.- Reducir la dimensionalidad del problema que se está estudiando.
.- Eliminar, cuando sea posible, algunas de las variables originales, si ellas aportan poca información.
.- Generar un nuevo conjunto de variables incorrelacionadas, que puedan expresar la máxima información contenida en el conjunto original de datos, con lamínima perdida posible.
El ACP no requiere de un modelo estadístico para explicar la estructura probabilística de los errores y no necesita hacer supuestos acerca de la distribución de probabilidad de las variables originales. Sin embargo, si se supone que las variables tienen distribución Normal multivariada, se pueden obtener algunas ventajas en la manipulación de los Componentes Principales.

Elmétodo de C.P. transforma un conjunto de p variables correlacionadas, en un nuevo conjunto de variables incorrelacionadas, llamadas Componentes Principales.

|X1, |X2, |..... Xp |V’s. originales |
|Y1, |Y2, |..... Yp |Componentes Principales. originales |

ComponentesPrincipales Poblacionales.-
Sea X el vector de p variables aleatorias, definido por [pic][pic] cuya matriz de varianzas y covarianzas viene dado por COV(X)=(.

Los componentes principales, denotados por Y, serán combinaciones lineales de las variables originales, luego:
Y1= a11X1 + a21X2 + ... + ap1Xp
Y2= a12X1 + a22X2 + ... + ap2Xp
. . . .
Yp=a1pX1 + a2pX2 + ... + appXp
O en forma matricial:

Y1= a1´X
Y2= a2´X Con a1, a2,..., ap, vectores con p - componentes
. .... cada uno, es decir, [pic]
Yp= ap´X.

Se demuestra que las varianzas de estas nuevas variables aleatorias son:

Var(Y1)= a1´(a1 , Var(Y2)= a2´(a2 , ...... , Var(Yp)= ap´(ap.
En formageneral: Var(Y)=a´(a.

Y además están incorrelacionadas, es decir que, Cov(Yj,Yk)=0, i, k =1,2,.., p.

Los componentes principales se derivarán tal que ellos recojan la máxima variabilidad de los datos, luego, debemos maximizar a estas varianzas, generando así, un sistema de p ecuaciones. Para evitar la indeterminación del sistema le imponemos la condición de que cada uno de estos vectores sea de...
tracking img