Cluster

Solo disponible en BuenasTareas
  • Páginas : 16 (3929 palabras )
  • Descarga(s) : 0
  • Publicado : 1 de febrero de 2011
Leer documento completo
Vista previa del texto
-1-

INTRODUCCION AL ANÁLISIS DE CLUSTER

-2-

DEFINICION E INTRODUCCION
El Análisis de Clusters (o Análisis de conglomerados) es una técnica de Análisis Exploratorio de Datos para resolver problemas de clasificación. Su objeto consiste en ordenar objetos (personas, cosas, animales, plantas, variables, etc, …) en grupos (conglomerados o clusters) de forma que el grado deasociación/similitud entre miembros del mismo cluster sea más fuerte que el grado de asociación/similitud entre miembros de diferentes clusters. Cada cluster se describe como la clase a la que sus miembros pertenecen. El análisis de cluster es un método que permite descubrir asociaciones y estructuras en los datos que no son evidentes a priori pero que pueden ser útiles una vez que se han encontrado. Losresultados de un Análisis de Clusters pueden contribuir a la definición formal de un esquema de clasificación tal como una taxonomía para un conjunto de objetos, a sugerir modelos estadísticos para describir poblaciones, a asignar nuevos individuos a las clases para diagnóstico e identificación, etc … Podemos encontrarnos dos tipos fundamentales de métodos de clasificación: Jerárquicos y No Jerárquicos.En los primeros, la clasificación resultante tiene un número creciente de clases anidadas mientras que en el segundo las clases no son anidadas. Los métodos pueden dividirse en aglomerativos y divisivos. En los primeros se parte de tantas clases como objetos tengamos que clasificar y en pasos sucesivos vamos obteniendo clases de objetos similares, mientras que en los segundos se parte de unaúnica clase formada por todos los objetos que se va dividiendo en clases sucesivamente. Estudiaremos fundamentalmente métodos jerárquicos aglomerativos. Los pasos que seguiremos para una clasificación jerárquica son

fundamentalmente los siguientes

-3-

1.- Decidir que datos tomamos para cada uno de los casos. Generalmente tomaremos varias variables todas del mismo tipo (continuas,categóricas, etc.) ya que suele ser difícil mezclar tipos distintos.. 2.- Elegimos una medida de la distancia entre los objetos a clasificar, que serán los clusters o clases iniciales.

3.- Buscamos que clusters son más similares. 4.- Juntamos estos dos clusters en un nuevo cluster que tenga al menos 2 objetos, de forma que el número de clusters decrece en una unidad. 5.- Calculamos la distancia entre estenuevo cluster y el resto. No es necesario recalcular todas las distancias, solamente las del nuevo cluster con los anteriores. 6.- Repetimos desde el paso 3 hasta que todos los objetos estén en un único cluster. Los pasos se resumen en el diagrama siguiente.

Los distintos métodos o algoritmos dependen del método utilizado en el paso 5 para calcular la distancia entre clusters. Es necesarioresaltar, que los distintos métodos para el cálculo de las distancias entre clusters producen distintas clasificaciones, por lo que no existe una clasificación correcta única.

-4-

LA REPRESENTACION GRÁFICA DE UNA CLASIFICACIÓN JERÁRQUICA: EL DENDROGRAMA
Un dendrograma es una representación gráfica en forma de árbol que resume el proceso de agrupación en un análisis de clusters. Los objetossimilares se conectan mediante enlaces cuya posición en el diagrama está determinada por el nivel de similitud/disimilitud entre los objetos. Para entender la construcción de un dendrograma y su significado utilizaremos un ejemplo sencillo que lo ilustre. Consideremos un ejemplo sencillo con solo 5 objetos y dos variables.

objeto 1 2 3 4 5

v1 1 2 4 7 5

v2 1 1 5 7 7

Los puntosrepresentados en el espacio euclídeo bidimensional aparecen en el gráfico siguiente.

A partir de estos datos consideramos la matriz de distancias euclídeas entre los objetos.

-5-

1 2 3 4 5

1 0.0 1.0 5.0 8.5 7.2

2 0.0 4.5 7.8 6.7

3

4

5

0.0 3.6 2.2

0.0 2.0

0.0

Inicialmente tenemos 5 clusters, uno por cada uno de los objetos a clasificar. De acuerdo con la matriz de...
tracking img