Algoritmos De Mineria De Datos
Como ya se ha comentado, las técnicas de Minería de Datos (una etapa dentro del proceso completo de KDD [FAYY96]) intentan obtener patrones o modelos a partir de los datos recopilados. Decidir si los modelos obtenidos son útiles o no suele requerir una valoración subjetiva por parte del usuario. Las técnicas de Minería de Datos se clasifican en dos grandescategorías: supervisadas o predictivas y no supervisadas o descriptivas.
Las predicciones se utilizan para prever el comportamiento futuro de algún tipo de entidad mientras que una descripción puede ayudar a su comprensión. De hecho, los modelos predictivos pueden ser descriptivos (hasta donde sean comprensibles por personas) y los modelos descriptivos pueden emplearse para realizar predicciones. Deesta forma, hay algoritmos o técnicas que pueden servir para distintos propósitos, por lo que la figura anterior únicamente representa para qué propósito son más utilizadas las técnicas. Por ejemplo, las redes de neuronas pueden servir para predicción, clasificación e incluso para aprendizaje no supervisado. El aprendizaje inductivo no supervisado estudia el aprendizaje sin la ayuda del maestro;es decir, se aborda el aprendizaje sin supervisión, que trata de ordenar los ejemplos en una jerarquía según las regularidades en la distribución de los pares atributo-valor sin la guía del atributo especial clase. Éste es el proceder de los sistemas que realizan clustering conceptual y de los que se dice también que adquieren nuevos conceptos. Otra posibilidad contemplada para estos sistemas esla de sintetizar conocimiento cualitativo o cuantitativo, objetivo de los sistemas que llevan a cabo tareas de descubrimiento.
1.1 Clustering Segmentación
También llamada agrupamiento, permite la identificación de tipologías o grupos donde los elementos guardan gran similitud entre sí y muchas diferencias con los de otros grupos. Así se puede segmentar el colectivo de clientes, el conjunto devalores e índices financieros, el espectro de observaciones astronómicas, el conjunto de zonas forestales, el conjunto de empleados y de sucursales u oficinas, etc. La segmentación está teniendo mucho interés desde hace ya tiempo dadas las importantes ventajas que aporta al permitir el tratamiento de grandes colectivos de forma pseudoparticularizada, en el más idóneo punto de equilibrio entre eltratamiento individualizado y aquel totalmente masificado. Las herramientas de segmentación se basan en técnicas de carácter estadístico, de empleo de algoritmos matemáticos, de generación de reglas y de redes neuronales para el tratamiento de registros. Para otro tipo de elementos a agrupar o segmentar, como texto y documentos, se usan técnicas de reconocimiento de conceptos. Esta técnica suele servirde punto de partida para después hacer un análisis de clasificación sobre los clústeres. La principal característica de esta técnica es la utilización de una medida de similaridad que, en general, está basada en los atributos que describen a los objetos, y se define usualmente por proximidad en un espacio multidimensional. Para datos numéricos, suele ser preciso preparar los datos antes derealizar datamining sobre ellos, de manera que en primer lugar se someten a un proceso de estandarización.
Una de las técnicas empleadas para conseguir la normalización de los datos es utilizar la medida z (z-score) que elimina las unidades de los datos. Esta medida, z, es la que se muestra en la ecuación 2.1, donde µf es la media de la variable f y σf la desviación típica de la misma.
Entre lasmedidas de similaridad destaca la distancia euclídea, ecuación 2.2.
Hay varios algoritmos de clustering. A continuación se exponen los más conocidos.
1.1.1 Clustering numerico (K-Medias)
Uno de los algoritmos más utilizados para hacer clustering es el k-medias (k-means), que se caracteriza por su sencillez. En primer lugar se debe especificar por adelantado cuantos clústeres se van a crear, éste es...
Regístrate para leer el documento completo.