Data mining
Definiciones
"Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos". Fayyad-1996
"El uso de software de computadora para examinar grandes volúmenes de datos - por ejemplo, los registros de ventas de un negocio al por menor - con el fin de extraer tendencias y relaciones quepueden ser de utilidad en la planificación de la empresa [...]." El pingüino Concise Dictionary of Computing, 2003
"La acción de búsqueda a través de los archivos de datos en busca de patrones; una forma de análisis estadístico, con la diferencia que el usuario puede no ser consciente de lo que existen patrones." Informática y TI , 2003.
"La recopilación de la información almacenadaelectrónicamente, por ejemplo, acerca de los patrones de compra de tarjetas de fidelidad;" El diccionario de los compartimientos
"La minería de datos es el análisis de (a menudo grande) los datos de observación fija de encontrar relaciones insospechadas y resumir los datos en nuevas formas que sean comprensibles y útiles para el titular de los datos." Mano, Mannila y Smyth (2001)
"La minería dedatos, también conocido como el conocimiento descubrimiento en bases de datos (KDD), es la práctica de buscar automáticamente grandes almacenes de datos para los patrones. Para ello, la minería de datos utiliza técnicas de cálculo de estadísticas y reconocimiento de patrones." Wikipedia (2005)
"La minería de datos se define como el proceso de descubrimiento de patrones en los datos. Elproceso debe ser automático o (más habitualmente) semi-automática. Los patrones descubiertos debe ser significativa en cuanto a que conducen a una cierta ventaja, por lo general una ventaja económica. Los datos se invariablemente presente en cantidades sustanciales ". Witten y Frank (2000)
Modelos de Data Mining
Un modelo de data mining es el conjunto de patrones y tendencias que se recopilangracias a la minería de datos. Existen los siguientes modelos:
Modelos de Clasificación
Modelos de Clustering
Modelos de Asociación
Modelos de Detección de Anomalías
Modelos de Análisis de Tendencia
Escenarios del Data Mining
Pronóstico: cálculo de las ventas y predicción de las cargas del servidor o del tiempo de inactividad del servidor.
Riesgo y probabilidad: elección de los mejoresclientes para la distribución de correo directo, determinación del punto de equilibrio probable para los escenarios de riesgo, y asignación de probabilidades a diagnósticos y otros resultados.
Recomendaciones: determinación de los productos que se pueden vender juntos y generación de recomendaciones.
Búsqueda de secuencias: análisis de los artículos que los clientes han introducido en el carrito dela compra y predicción de posibles eventos.
Agrupación: distribución de clientes o eventos en grupos de elementos relacionados, y análisis y predicción de afinidades.
Pasos del Data Mining
Definir el problema
El primer paso del proceso de minería de datos, tal como se resalta en el siguiente diagrama, consiste en definir claramente el problema y considerar formas de usar los datos paraproporcionar una respuesta para el mismo.
Este paso incluye analizar los requisitos empresariales, definir el ámbito del problema, definir las métricas por las que se evaluará el modelo y definir los objetivos concretos del proyecto de minería de datos. Estas tareas se traducen en preguntas como las siguientes:
¿Qué está buscando? ¿Qué tipos de relaciones intenta buscar?
¿Refleja el problema queestá intentando resolver las directivas o procesos de la empresa?
¿Desea realizar predicciones a partir del modelo de minería de datos o solamente buscar asociaciones y patrones interesantes?
¿Qué resultado o atributo desea predecir?
¿Qué tipo de datos tiene y qué tipo de información hay en cada columna? En caso de que haya varias tablas, ¿cómo se relacionan? ¿Necesita limpiar, agregar o...
Regístrate para leer el documento completo.