21conglk SPSS
Análisis de conglomerados (I):
El procedimiento Conglomerados de K medias
Introducción
El análisis de conglomerados (en inglés, cluster analisys) es una técnica multivariante que permite agrupar los casos o variables de un archivo de datos en función del parecido o similaridad
existente entre ellos.
Como técnica de agrupación de variables, el análisis de conglomerados es similar alanálisis factorial; pero, mientras que la factorización es más bien poco flexible en algunos de sus
supuestos (linealidad, normalidad, variables cuantitativas, etc.) y siempre estima de la misma
manera la matriz de distancias, la aglomeración es menos restrictiva en sus supuestos (no exige
linealidad, ni simetría, permite variables categóricas, etc.) y admite varios métodos de estimación de lamatriz de distancias.
Como técnica de agrupación de casos, el análisis de conglomerados es similar al análisis
discriminante. Sin embargo, mientras que el análisis discriminante efectúa la clasificación tomando como referencia un criterio o variable dependiente (los grupos de clasificación), el análisis de conglomerados permite detectar el número óptimo de grupos y su composición únicamente a partirde la similaridad existente entre los casos; además, el análisis de conglomerados
no asume ninguna distribución específica para las variables. Por simplicidad, en este capítulo
se comienza exponiendo la agrupación de casos.
El programa SPSS dispone de dos tipos de análisis de conglomerados: el análisis de conglomerados jerárquico y el análisis de conglomerados de K medias. El método jerárquicoes
idóneo para determinar el número óptimo de conglomerados existente en los datos y el contenido de los mismos. El método de K medias permite procesar un número ilimitado de casos,
pero sólo permite utilizar un método de aglomeración y requiere que se proponga previamente
el número de conglomerados que se desea obtener.
Capítulo 21. Conglomerados de K medias
2
Ambos métodos de análisis son detipo aglomerativo, en el sentido de que, partiendo del
análisis de los casos individuales, intentan ir agrupando casos hasta llegar a la formación de
grupos o conglomerados homogéneos. Pero existen también métodos divisivos que parten de
la muestra global como un sólo grupo y la van dividiendo en subgrupos hasta llegar a la formación de grupos o conglomerados homogéneos con un númerorelativamente reducido de sujetos. Las técnicas divisivas son especialmente adecuadas para el análisis de variables categóricas. Uno de los métodos divisivos más difundido es el CHAID (disponible como un procedimiento autónomo dentro del módulo AnswerTree de SPSS).
Capítulo 21. Conglomerados de K medias
3
Análisis de conglomerados de K medias
El análisis de conglomerados de K medias es un método deagrupación de casos que se basa
en las distancias existentes entre ellos en un conjunto de variables (este método de aglomeración no permite agrupar variables). Versiones anteriores del procedimiento comenzaban el análisis con la asignación de los K primeros casos a los centros de los K conglomerados (los centros multivariantes de los conglomerados se denominan centroides). En la versión actual secomienza seleccionado los K casos más distantes entre sí (el usuario debe determinar inicialmente el número K de conglomerados que desea obtener). Y a continuación se inicia la lectura
secuencial del archivo de datos asignando cada caso al centro más próximo y actualizando el
valor de los centros a medida que se van incorporando nuevos casos. Una vez que todos los
casos han sido asignados a uno delos K conglomerados, se inicia un proceso iterativo para
calcular los centroides finales de esos K conglomerados.
El análisis de conglomerados de K medias es especialmente útil cuando se dispone de un
gran número de casos. Existe la posibilidad de utilizar la técnica de manera exploratoria, clasificando los casos e iterando para encontrar la ubicación de los centroides, o sólo como técnica
de...
Regístrate para leer el documento completo.