Analisis cluster

Solo disponible en BuenasTareas
  • Páginas : 5 (1167 palabras )
  • Descarga(s) : 0
  • Publicado : 21 de mayo de 2011
Leer documento completo
Vista previa del texto
CONGLOMERADOS


Ilustración 1. Diagrama de arbol para 51 casos. Metodo de Ward. Distancias euclidianas.

El término fue usado por Tryon 1939, implica un diferente número de algoritmos y métodos para agrupar objetos de un tipo o carácter similares en una categoría común. El Análisis Cluster es una herramienta multivariada que permite el análisis exploratorio de los datos y que ayuda aclasificar diferentes objetos. Permite descubrir asociaciones y estructuras en los datos que no son evidentes a priori pero que pueden ser útiles una vez que se han encontrado. Los resultados de un Análisis de Clusters pueden contribuir a la definición formal de un esquema de clasificación tal como una taxonomía para un conjunto de objetos, a sugerir modelos estadísticos para describir poblaciones, aasignar nuevos individuos a las clases para diagnóstico e identificación, etc. El Análisis de cluster (AC) no es una típica prueba estadística, es más una colección de diferentes algoritmos que pone objetos en diferentes cluster, aglomerados o conjuntos de acuerdo a las reglas de similitud. En resumen, el AC encuentra la solución posible más significativa.

Objetivo general

Ordenar objetos(personas, cosas, animales, plantas, variables, etc.) en grupos (conglomerados o clusters) de forma tal que el grado de asociación o similitud entre miembros del mismo cluster sea más fuerte que el grado de asociación o similitud entre los miembros de diferentes clusters.

Podemos encontrarnos dos tipos fundamentales de métodos de clasificación:
a) Jerárquicos: la clasificación resultante tieneun número creciente de clases anidadas.

Jerarquicos
Aglomerativos Disociativos
Linkange Simple
Linkage Completo
Promedio entre grupos
Método de Centroide
Método de mediana
Método de Ward Linkage Simple
Linkage completo
Promedio entre grupos
Método de centroide
Método de la mediana
Método de Ward
Análisis de Asociación

b) No Jerárquicos: las clases no son anidadas.

Nojerárquicos
(K-Medias):
Umbral secuencial
Umbral paralelo
Optimización

Los métodos pueden dividirse en:

a) Aglomerativos: Se parte de tantas clases como objetos tengamos que clasificar y en pasos sucesivos vamos obteniendo clases de objetos similares.

b) Divisivos: Se parte de una única clase formada por todos los objetos que se va dividiendo en clases sucesivamente.

Medida de asociación:Estas son medidas numéricas que caractericen las relaciones entre las variables o los individuos. Existen diferentes medidas y cada una refleja la asociación en un sentido particular. Es necesario elegir una medida apropiada para el problema concreto que se esté tratando. La medida de asociación puede ser una distancia o una similaridad. Cuando se elige una distancia como medida de asociación losgrupos formados contendrán individuos parecidos, la distancia entre ellos ha de ser pequeña. Cuando se elige una medida de similaridad, los grupos formados contendrán individuos con una similaridad alta entre ellos.

Medidas de asociación para variables:
1.- Coseno de ángulo de vectores
2.- Coeficiente de correlación
3.- Medidas para datos dicotómicos:
– Ochiai
– de Russel y Rao
– deParejas simples
– de Jaccard
– de Dice
– de Rogers-Tanimoto

Medidas de Asociación para Individuos
– Distancia Euclídea
– Distancia de Minkowski
– City Block
– Mahalanobis
– Distancia de x2

El método comúnmente usado es el jerárquico y es por medio del cual se obtiene los árboles jerárquicos o dendogramas que son representación gráfica en forma de árbol resume el proceso de agrupación enun análisis de clusters. Los objetos similares se conectan mediante enlaces cuya posición en el diagrama está determinada por el nivel de similitud/disimilitud entre los objetos. Los objetos se representan como nodos y las ramas del árbol indican los sujetos que se han fusionado en un cluster, la longitud de las ramas indican la distancia de la fusión. Un dendrograma que diferencie grupos de...
tracking img