Componentes Principales con R
a
´
1 INTRODUCCION
1.
1
Introducci´n
o
Muchos estudios estad´
ısticos presentan un modelo de datos en que el que, para un conjunto de individuos, se han medido una serie de caracter´
ısticas que los investigadores han
considerado importantes. Dado que los responsables de la investigaci´n no quieren dejar
o
de considerarinformaci´n que podr´ ser relevante, dentro de las restricciones establecidas
o
ıa
de econom´ de recursos y tiempo, la cantidad de variables que incorporan en primera
ıa
instancia a la base de datos suele ser muy grande.
En general, para alcanzar los objetivos marcados en un estudio se necesitar´ inforıa
maci´n de distinta naturaleza que suele clasificarse en varios bloques homog´neos. Por
o
eejemplo, un estudio epidemiol´gico requerir´ de informaci´n sobre par´metros fisiol´gicos,
o
a
o
a
o
bioqu´
ımicos, medioambientales, etc. Y dentro de cada uno de esos bloques se medir´n vaa
rias caracter´
ısticas, que a menudo presentar´n rasgos comunes. Siguiendo con el ejemplo,
a
ser´ habitual que si se analizan par´metros fisiol´gicos, individuos que tengan valores ala
a
o
tos dealguna caracter´
ıstica–talla alta–, conserve la tendencia en el resto–peso alto, brazos
largos–, etc.
Las reflexiones anteriores plantean dos cuestiones que seg´n el caso pueden llegar a ser
u
problem´ticas, una evidente de dimensi´n, es decir de tama˜o del problema a resolver, y
a
o
n
otra m´s sutil derivada de la existencia de informaci´n redundante entre variables, que se
a
o
puedecalibrar, “grosso modo”, a trav´s de la matriz de correlaciones. En realidad ambos
e
problemas est´n muy relacionados, dado que si se restringe el estudio a unas pocas variables
a
y el investigador tiene un cierto grado de conocimiento de la situaci´n, es muy factible que
o
pueda elegir grupos de variables de forma que las correlaciones entre variables de grupos
distintos se aproximen a cero.El An´lisis de Componentes Principales(ACP) viene a dar respuesta a las dos cuestiones
a
planteadas, clasific´ndose, dentro del conjunto de t´cnicas multivariantes de Reducci´n de
a
e
o
la dimensi´n. El ACP puede ser una t´cnica finalista que de respuesta a alguno de los
o
e
objetivos del estudio, aunque lo m´s habitual es que sea un algoritmo previo a la aplicaci´n
a
o
de otras t´cnicasm´s sofisticada, como puede ser el An´lisis Factorial, o incluso una
e
a
a
herramienta que construya variables incorreladas para aplicar, por ejemplo, una Regresi´n
o
M´ltiple.
u
Formalmente, el ACP es una t´cnica estad´
e
ıstica multivariante de simplificaci´n o reo
ducci´n de la dimensi´n, que permite transformar un conjunto de variables correlacionadas
o
o
en otro conjunto devariables ortogonales denominadas Componentes o Ejes principales.
Para aplicar el ACP se requiere que todas las variables de la matriz de datos sean cuantitativas o asimilables a ´stas. La consecuencia inmediata de esta restricci´n es que, en
e
o
general, los datos van a tener una distribuci´n Normal multidimensional, o bien podr´n
o
a
ser transformados o divididos para que se de este supuesto.El objetivo concreto del ACP
es encontrar un subespacio k-dimensional, k < p, desde el que “ver” de forma ´ptima la
o
configuraci´n geom´trica de la nube de puntos p–dimensional.
o
e
´
2 ENFOQUE GEOMETRICO DEL ACP
2.
2
Enfoque geom´trico del ACP
e
El punto de partida para la aplicaci´n de un ACP es una matriz nxp de individuos–
o
variables.
X=
x11 x12
x21x22
··· ···
xn1 xn2
· · · x1p
· · · x2p
··· ···
· · · xnp
Desde un punto de vista geom´trico, la matriz de datos se puede ver como la repree
sentaci´n de los individuos(filas) mediante puntos en el espacio de p dimensiones definido
o
por las variables(columnas), conformando lo que se conoce como una nube de puntos. Las
coordenadas del individuo i-´simo ser´n (xi1...
Regístrate para leer el documento completo.