Redcraf

Páginas: 5 (1238 palabras) Publicado: 30 de noviembre de 2010
Etapa de Descubrimiento.-

Clustering en la minería de datos.

El Clustering es la partición de los datos en segmentos de objetos semejantes. Para realizar la medición de la similitud entre datos se suelen utilizar diferentes formas las cuales son: distancia euclídea, de Manhatan, de Mahalanobis, etc. El mostrar los datos por una serie de clusters provoca inevitablemente la pérdida dedetalles, pero se obtiene la simplificación de los mismos.
El clustering en minería de texto se refiere a la generación automática de un listado de documentos relacionados, por ejemplo, documentos que traten un mismo tema. En las etapas de clustering no existe un conjunto de categorías preestablecido, sino que el propio algoritmo a utilizar debe generar automáticamente esas categorías, contribuyendo deesta forma a generar un nuevo conocimiento.
Tanto la categorización como el clustering pueden analizarse como un proceso de clasificación, en el primer caso se habla de clasificación supervisada mientras que en el segundo se utiliza el concepto de clasificación no supervisada o automática.
El principal propósito de la clasificación de documentos, es reducir la diversidad de datos y lasobrecarga de información mediante la agrupación de documentos similares. Con respecto a la gestión del conocimiento, la clasificación de documentos puede ser vista como una herramienta que permite simplificar el acceso y procesamiento del conocimiento explícito, facilitando la recuperación, organización, visualización e intercambio de conocimientos.
Existen también los algoritmos específicos que seaplican a problemas de clustering y que se inspiran igualmente en comportamientos observados en colonias de hormigas. En este caso se reproducen los Cobo A., Rocha, R., Alonso, M. mecanismos utilizados por las hormigas para ordenar sus nidos, mecanismos que aplican a tareas variadas, como el agrupamiento de las larvas, organización de cadáveres en cementerios, o la colocación de los alimentos en lacolonia.
En (Garnier, 2007) puede encontrarse una descripción de estos procesos observados en diferentes especies de hormigas. Básicamente, la tarea realizada por las hormigas en todos esos casos consiste en una sucesión de procesos de recogida y colocación de objetos en función de la densidad de objetos detectada en un entorno local. El trabajo pionero en el desarrollo de este tipo de técnicasmatemáticas es (Deneubourg, 1990). Este tipo de algoritmos de clustering se denominan de manera general algoritmos de ant clustering.

¿Cómo se representan los objetos?
* Los objetos se representan como vectores, donde cada característica es una dimensión.
* Se requiere buen conocimiento del dominio y también de como funcionan las técnicas de clustering.

¿Cómo se calcula la semejanza?* Medidas de distancia geométrica en un espacio vectorial: distancia euclıdea, coseno de los vectores, etc.
* Medidas de diferencia de distribuciones de probabilidad: divergencia de Kullback-Leibler.

¿Cómo se agrupan los elementos?
* Métodos jerárquicos vs. Planos.
* Métodos partitivos vs. Aglomerativos.
* K-means.
* Diferentes criterios (algoritmos) para crear o dividirclusters: el cluster con mayor semejanza, con mayor disparidad, media.

¿Cómo sabemos si una solución de clustering es buena?
* Un experto inspecciona el contenido de los clusters.
* Se ofrece contenido representativo: el medoide, las características más frecuentes.
* Pureza: mayor semejanza entre los elementos de un cluster, mayor disparidad entre los elementos de distintos clusters.* Poder clasificador del modelo resultante.
* Comparación con algunas clases parcialmente supervisado.
* Agrupar clientes con el mismo comportamiento, con los mismos gustos, para recomendar a unos lo que gusto a los otros (p.ej., Netflix Prize).
* Detectar clientes con un alto riesgo para una compañía aseguradora.
* Detectar pacientes con un alto riesgo de desarrollar...
Leer documento completo

Regístrate para leer el documento completo.

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS