Analisis de cluster

Solo disponible en BuenasTareas
  • Páginas : 21 (5046 palabras )
  • Descarga(s) : 0
  • Publicado : 8 de febrero de 2011
Leer documento completo
Vista previa del texto
Análisis de conglomerados o cluster

El Análisis Cluster, también conocido como Análisis de Conglomerados, Taxonomía Numérica o Reconocimiento de Patrones, es una técnica estadística multivariante cuya finalidad es dividir un conjunto de objetos en grupos (cluster en inglés) de forma que los perfiles de los objetos en un mismo grupo sean muy similares entre sí (cohesión interna del grupo) y losde los objetos de clusters diferentes sean distintos (aislamiento externo del grupo).
En esta lección aprenderemos los pasos a seguir para llevar a cabo un Análisis Cluster.
Cinco son los objetivos de la lección:
• Plantear el problema a resolver por un Análisis Cluster
• Establecer medidas de semejanza y de distancia entre los objetos a clasificar en función del tipo de datos analizado
•Analizar algunos de los métodos de clasificación propuestos en la literatura haciendo especial énfasis en los métodos jerárquicos aglomerativos y en el algoritmo de las k-medias, y determinar el número de grupos.
• Interpretar los resultados obtenidos
• Analizar la validez de la clasificación obtenida
1.- PLANTEAMIENTO DEL PROBLEMA
Sean X1,...,Xp p variables numéricas observadas en nobjetos.
Sea xij = valor de la variable Xj en el i-ésimo objeto i=1,...,n; j=1,...,p.
El objetivo del Análisis Cluster es obtener grupos de objetos de forma que, por un lado, los objetos pertenecientes a un mismo grupo sean muy semejantes entre sí, es decir, que el grupo esté cohesionado internamente y, por el otro, los objetos pertenecientes a grupos diferentes tengan un comportamiento distintocon respecto a las variables analizadas, es decir, que cada grupo esté aislado externamente de los demás grupos.
Es una técnica eminentemente exploratoria puesto que la mayor parte de las veces, no utiliza ningún tipo de modelo estadístico para llevar a cabo el proceso de clasificación. Se la podría calificar como una técnica de aprendizaje no supervisado, es decir, una técnica muy adecuada paraextraer información de un conjunto de datos sin imponer restricciones previas en forma de modelos estadísticos, al menos de forma explícita y, por ello, puede llegar a ser muy útil como una herramienta de elaboración de hipótesis acerca del problema considerado sin imponer patrones o teorías previamente establecidas.
Conviene, sin embargo, estar siempre alerta ante el peligro de obtener, comoresultado del análisis, no una clasificación de los datos sino una disección de los mismos, en distintos grupos que sólo existen en la memoria del ordenador. El conocimiento que el analista tenga acerca del problema decidirá cuáles de grupos obtenidos son significativos y cuáles no.
En lo que sigue, analizaremos los pasos a seguir para llevar a cabo un Análisis Cluster, ilustrándolos con aplicacionesal Análisis Económico Internacional.
Ejemplo 1 (Clasificación de paises de la UE con datos binarios)
En este ejemplo los datos corresponden a la situación de 6 países europeos en 1996 con respecto a los 4 criterios exigidos por la UE para entrar en la Unión Monetaria: Inflación, Interés, Déficit Público y Deuda Pública y vienen dados en la tabla siguiente:
País Inflación Interés Déficit DeudaAlemania 1 1 1 0
España 1 1 1 0
Francia 1 1 1 1
Grecia 0 0 0 0
Italia 1 1 0 0
Reino Unido 1 1 0 1

Este es un ejemplo en el que todas las variables son binarias de forma que, este caso 1 significa que el país sí satisfacía el criterio exigido y 0 que no lo satisfacía.
Ejemplo 2 (Clasificación de paises de la UE con datos binarios)
Este ejemplo corresponde a datos sobre diversasvariables económicas, sanitarias y demográficas correspondientes a 102 países del mundo en el año 1995. Dichas variables vienen detalladas en la siguiente tabla:
Variable Significado
POB Logaritmo de la Población
DENS Logaritmo de la Densidad
ESPF Logaritmo de 83-Esperanza de vida Femenina
ESPM Logaritmo de 78 - Esperanza de vida masculina
ALF Logaritmo de 101-Tasa de Alfabetización
MINF...
tracking img