3
Objetivos:
1. Una aproximación a la terminología del análisis cluster o de conglomerados
2. Uso de las funciones oportunas de R para realizar el análisis
3. Interpretación de los resultados
I. Ejemplo (datos ficticios en eje1.sav)
1.Datos
2. Representación gráfica previa
3. Exploración de la matriz de distancias entre los casos (distancia euclidea)
4. Análisiscluster jerárquico: AC
5. Dendrograma
6. bannerplot:
II. Ejemplo (datos reales en archivo ccaa1.sav)
1. Datos
2. Análisis con las variables estandarizadas
Tabla de agrupamiento
Dendrograma
3. Otras funciones usadas con hclust
Función cutree()
4. Análisis cluster con método kmeans
4.1. Kmeans indicando sólo el número de grupos
4.2. Representación gráfica de las Comunidades Autónomas en las 2
primerascomponentes de Z, identificación de grupo y centroides.
4.3. Kmeans indicando las medias de los grupos
Departamento de Estadística e Investigación Operativa
1
Ejemplos de análisis cluster
Proponemos 2 ejemplos. Uno con datos ficticios, relativamente simple, con objeto de
efectuar una primera aproximación metodológica a la técnica de A.C (análisis cluster),
indicando los resultados usualesrelativos a este tratamiento estadístico.
Otro ejemplo con datos reales, sobre las comunidades autónomas. Los datos, de acceso
libre, se han obtenido de la Web (Ministerio de Trabajo y Asuntos Sociales).
I. Ejemplo (datos ficticios en eje1.sav)
Mediante este ejemplo simple con sólo dos variables (por tanto podría determinarse
visualmente el agrupamiento) pretendemos mostrar el modo en que opera latécnica de
A.C.
Tenemos 11 elementos o casos sobre los que se observan dos variables X e Y.
Deseamos encontrar la mejor agrupación de los casos en función de sus valores en
ambas variables.
1. Datos:
#Análisis cluster eje1
require(foreign)
a=read.spss("eje1.sav",use.value.labels = TRUE, to.data.frame = T)
>a
1
2
3
4
5
6
7
8
9
10
11
CASO
1
2
3
4
5
6
7
8
9
10
11
X
1
2
3
10
22
21
23
44
45
48
49
Y
8
4
823
25
25
26
9
5
8
6
> d=a[,-1] #Dos columnas de datos con valores en X e Y
2. Representación gráfica previa:
El aspecto visual del gráfico parece indicar que hay 3 ó 4 grupos claramente
diferenciados.
Realizaremos un análisis cluster para determinar cómo agrupa el método seleccionado
estos 11 casos.
Departamento de Estadística e Investigación Operativa
2
Diagrama de dispersión
50
40
30657
4
20
8
10 1 3
9
Y
2
10
11
0
0
10
20
30
40
50
X
3. Exploración de la matriz de distancias entre los casos (distancia euclidea)
La matriz de distancias expresa el distanciamiento entre pares de casos. La medida de
distancia seleccionada es la distancia euclídea al cuadrado.
> dist(d)^2
2
3
4
5
6
7
8
9
10
11
1
17
4
306
730
689
808
1850
1945
2209
2308
2
3
17
425
841
802
925
17891850
2132
2213
274
650
613
724
1682
1773
2025
2120
4
5
6
7
8
9
10
148
125
1
178
2
5
1352 740 785 730
1549 929 976 925
1669 965 1018 949
1810 1090 1145 1076
17
17
34
18
17
5
4. Análisis cluster jerárquico: AC
Resultados:
Tabla de agrupamiento (merge)
Resultado con método “complete”:
> cj=hclust(dist(d), method = "complete")
> cj$merge
[,1] [,2]
[1,]
-5
-6
[2,]
-1
-3
[3,]
-7
1
[4,] -10-11
[5,]
-2
2
[6,]
-8
-9
[7,]
4
6
[8,]
-4
3
[9,]
5
8
[10,]
7
9
Según la tabla anterior, en el paso 1, se unen los cluster formados por una sola
observación 5 y 6. Los signos negativos indican que cuando se unen están formados
Departamento de Estadística e Investigación Operativa
3
por una sola observación cada uno. En paso 2, se unen los cluster 1 y 3. Cuando se une
el cluster 7 (formado por unasola observación) lo hace con el formado por otro cluster
anterior que se formó en el paso 1 (es decir, al formado por 5 y 6) etc. En el paso 5, el
elemento 2 se une por primera vez a otro cluster formado en el paso 2 (es decir, al
constituido por los elementos 1 y 3). En el paso 7: el cluster formado en el paso 4 se une
al formado en el paso 6. En el paso 8: por primera vez el elemento 4 se...
Regístrate para leer el documento completo.