Clusters en spss

Solo disponible en BuenasTareas
  • Páginas : 2 (317 palabras )
  • Descarga(s) : 0
  • Publicado : 29 de agosto de 2010
Leer documento completo
Vista previa del texto
CLUSTER JERARQUICO EN DOS FASES EN SPSS

El procedimiento de análisis de clusters en dos pasos es una herramienta exploratoria diseñada conseguir agrupaciones (clusters) naturales. El algoritmoempleado tiene algunas características importantes que lo diferencian de las técnicas tradicionales:

• La habilidad para crear clusters basados en variables categóricas y continuas.

•Selección automática del número de clusters

• La habilidad para analizar eficientemente bases de datos grandes

Para manejar las variables categóricas y continuas, el procedimiento usa una medidade distancia probabilística que asume que las variables en el modelo son independientes, además se supone que las variables continuas siguen una distribución normal y cada variable categórica se asumeque sigue una distribución multinomial. Pruebas empíricas internas indican que el procedimiento es bastante robusto para violaciones de ambas hipótesis, pero se debe tener cuidado averiguando comoinfluyen éstas variables que no se cumplen estas hipótesis.
El algoritmo del análisis cluster en dos pasos puede resumirse como sigue:
Paso 1. El procedimiento empieza con la construcción de un árbolcon la metodología Cluster Features (CF). El árbol empieza ubicando el primer caso en la raíz y coloca un nodo en la hoja que contiene la información acerca de ese caso. Cada caso sucesivo es sumado aun nodo existente o forma un nuevo nodo, basado en su similaridad a los nodos existentes y usando la distancia como criterio de similaridad. Un nodo que contiene múltiples casos contiene un resumende variables que explican esos casos. Así el árbol CF proporciona un resumen del archivo de datos.
Paso 2. Los nodos hojas del árbol CF son agrupados usando un algoritmo de agrupación de clusters.Este algoritmo puede ser usado para producir una rango de soluciones. Para determinar que número de clusters es “mejor”, cada solución de los clusters es comparada usando el Criterio de Bayesiano de...
tracking img