Analisis De Clusters
Ulises Acosta Robledo 09756843-6 UNAM 10 de enero de 2010
1
´ Indice
1. An´lisis de Clusters a 1.1. Introducci´n . . . . . . . . . . . . . . . . . . . . o 1.2. ¿Qu´ es un cluster? . . . . . . . . . . . . . . . . e 1.3. Problemas de Agrupaci´n . . . . . . . . . . . . o 1.4. Medidas de similaridad o disimilaridad . . . . . 1.5. Agrupaci´n Jer´rquica. . . . . . . . . . . . . . o a 1.5.1. Dendrograma . . . . . . . . . . . . . . . 1.5.2. Anidaci´n aglomerativa (agnes) . . . . . o 1.5.3. An´lisis divisivo (diana) . . . . . . . . . a 1.6. M´todos No Jer´rquicos o de Partiocionamiento e a 1.6.1. Agrupamiento de K-medias (kmeans) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . 3 3 3 4 4 5 5 6 7 8 8
2. An´lisis pr´ctico a a 9 2.1. An´lisis de Datos en R . . . . . . . . . . . . . . . . . . . . . . 10 a 2.2. Programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.
1.1.
An´lisis de Clusters a
Introducci´n o
An´lisis de clusters es un t´rmino gen´rico para un amplio rango de a e e m´todos paraexaminar datos multivariados, con el objetivo de descubrir e grupos o clusters de observaciones que sean homog´neos y separados de de e otros grupos. Las t´cnicas de clustereo esencialmente tratan de formalizar lo e que los observadores humanos hacen muy bien en dos o tres dimensiones. Este tipo de an´lisis es el mejor ejemplo de aprendizaje no supervisado. En a o la comunidad de miner´ de datostambi´n es conocido como ”segmentaci´n ıa e de datos”, y dentro de la comunidad de aprendizaje de m´quinas se le a conoce como ”descubrimiento de clases”. La metodolog´ consiste en una ıa serie de algoritmos, los cuales buscan organizar un conjunto de datos dados, en subgrupos homog´neos o ”clusters”. En el an´lisis de clusters el n´mero e a u de clases, en las cuales se van a clasificar los datos, esdesconocido, al igual que la pertenencia de los elementos a alguna clase. Tambi´n en el an´lisis de e a clusters no se tiene informaci´n a priori de la estructura de los datos en las o clases. Por ultimo el an´lisis de clusters puede ser aplicado a observaciones o ´ a variables o a ambas simult´neamente, dependiendo del contexto. a Los m´todos para agrupar elementos depende en qu´ tan similareso e e dis´ ımiles son estos elementos entre s´ Los elementos similares son tratados ı. como grupos homog´neos, y los dis´ e ımiles forman grupos o clases adicionales.
1.2.
¿Qu´ es un cluster? e
Actualmente no existe una definici´n universal de cluster, pero podr´ o ıa definirse como ”un grupo de elementos, en donde cada uno de estos elementos es ”cercano” a un elemento central del cluster,y miembros de clusters diferentes se encuentran ”lejanos” entre s´ Por lo tanto los clusters pueden ser vistos ı. como ”regiones de alta densidad” en alg´n espacio multidimensional. Esta u noci´n es correcta si los clusters son concebidos como regiones el´ o ıpticas convexas, pero podr´ darse situaciones en donde el arreglo natural de los ıan elementos no siga este patr´n. Cuando lasdimensionalidad del espacio es alta, o los elementos pueden congregarse en clusters que se curven y enrenden entre s´ En estos ultimos casos o en el caso de que los clusters tengan formas raras, ı. ´ estos clusters son casi imposibles de identificar con las t´cnicas actuales. e
1.3.
Problemas de Agrupaci´n o
Existen varias maneras de agrupar un conjunto de datos en ”n” observaciones independientespara cada ”r” variables correlacionadas. Agrupar Observaciones Agrupar Variables Agrupaci´n de dos v´ o ıas
1.4.
Medidas de similaridad o disimilaridad
Puesto que el an´lisis de clusters intenta identificar los vectores de las a observaciones que son similares y agruparlas en clusters, muchas t´cnicas e utilizan un ´ ındice de similaridad o proximidad entre cada par de observaciones. La...
Regístrate para leer el documento completo.