Conglomerados

Solo disponible en BuenasTareas
  • Páginas : 8 (1918 palabras )
  • Descarga(s) : 0
  • Publicado : 4 de septiembre de 2012
Leer documento completo
Vista previa del texto
ANÁLISIS DE CONGLOMERADOS

Para el análisis de conglomerados será utilizado la muestra de 58 individuos, utilizando el nivel educativo (primaria, secundaria y universitaria) como subgrupos de la variable EDUCACIÓN. El objetivo es agrupar por individuos, tomando 3 grupos, ordenándolas en grupos homogeneos por la similitud de los datos.
Tomaremos en cuenta las técnicas de K-medias yjerarquización para la agrupación de los individuos para observar si la clasificación es óptima.

La primera técnica usada para agrupar los datos es el algoritmo de K-medias que consiste en construir a priori y calculando sus centros, luego calculando las distancias euclídeas de cada individuo a los centros de cada grupo la cuál este más próximo.

Para fijar el número de grupos se escogió realizar untest f de reducción de variabilidad, comparando la suma de cuadrados dentro de cada grupo SMDG y calculando la reducción relativa de variabilidad al aumentar un grupo adicional. Para la aplicación de este método se escogió realizar el test f con 2 y 3 grupos para asimilarlo a cada una de las variables cuantitativas del nivel educativo (primaria, secundaria y universitaria), de los cuales seobtuvieron los siguientes datos:

Cluster Error
Mean Square df Mean Square df F Sig
EDU 679.235 1 5.207 56 130.439 .000



Cluster Error
Mean Square df Mean Square df F Sig
EDU 419.295 2 2.405 55 174.368 .000

Para decidir entre 2 o 3 grupos se calcula un criterio de optimalidad con base en un test F de reducción de variabilidad. Para ello, de las respectivas tablas ANOVA tomamos elvalor de la suma de cuadrados dentro de los grupos (SCDG), que para 2 grupos es igual a 679.235 y para 3 es igual a 419.295.
Se calcula la estadística F = [SCDG (2) – SCDG(3)] / [SCDG(3)/(58-2-1)], cuyo resultado fue 34.09. Si comparamos este valor con una distribución F de (1, 50) grados de libertad que es igual a 4.034 con .05 de significancia, en este caso se incluiría un grupo más y setomarían 3.

Desde aca empezamos a trabajar con 3 clusters obteniendo así los siguientes resultados:
Número de individuos para cada grupo.
Number of Cases in each Cluster
Cluster 1 17.000
2 31.000
3 10.000
Valid 58.000
Missing .000

Observamos en la anterior tabla el número de observaciones en cada grupo, para el grupo 1, tiene 17 individuos, para el grupo 2 se obtuvieron 31 individuos ypara el último grupo con 10 individuos.

Centros finales de cada grupo

Cluster
1 2 3
EDU 4 9 16

Vemos que el punto 4 es el dato central dentro del primer grupo, que como observaremos más adelante son lo de nivel educativo primaria, para el segundo grupo que serian los de secundaria su punto central es 9, y para el último que serian de nivel universitario su punto central es 16.Distancias de los centros entre grupos
Distances between Final Cluster Centers
Cluster 1 2 3
1 5.120 11.465
2 5.120 6.345
3 11.465 6.345







Observamos que las distancias de los centros de cada grupo es de 5.120 entre el primer y segundo grupo, para el primer y tercer grupo es de 11.455, y entre el segundo y tercer grupo tiene una distancia de 6.345, mostrando así que entre elprimer y segundo grupo son los más cercanos.


Cluster de pertenencia.

Cluster Membership Cluster Membership Cluster Membership
Case Number Nivel Cluster Distance Case Number Nivel Cluster Distance Case Number Nivel Cluster Distance
1 Secundaria 2 0.645 21 Secundaria 2 1.355 40 Secundaria 2 1.645
2 Secundaria 2 1.645 22 Primaria 1 1.235 41 Universitaria 3 1.33 Secundaria 2 1.355 23 Universitaria 3 0.3 42 Primaria 1 1.235
4 Secundaria 2 0.355 24 Primaria 1 0.765 43 Universitaria 3 0.3
5 Primaria 1 0.765 25 Universitaria 3 0.3 44 Secundaria 2 1.645
6 Universitaria 3 0.3 26 Secundaria 2 1.645 45 Secundaria 2 2.645
7 Secundaria 2 0.355 27 Secundaria 2 1.355 46 Secundaria 2 2.355
8...
tracking img