El proceso de Data Mining

Páginas: 18 (4431 palabras) Publicado: 30 de noviembre de 2014
El Proceso de Data Mining
Tomado del paper Introduction to Data Mining and Knowledge Discovery
Third Edition
by
Two Crows Corporation


EL PROCESO DE DATA MINING
Modelos de Proceso
Dado que es esencial un enfoque sistemático para hacer un data mining exitoso, muchas organizaciones que brindan consultoría han especificado un modelo de proceso que guíe al usuario (sobre todo paraconstruir modelos predictivos) indicando una serie de pasos que lo conduzcan a obtener buenos resultados.
SPSS usa las 5 A Assess, Access, Analyze, Act and Automate (evaluar, acceder, analizar, actuar y automatizar)
SAS usa SEMMA Sample, Explore, Modify, Model, Assess (muestrear, explorar, modificar, modelar, evaluar).

El modelo de proceso de Two Crows
Hay que tener en cuenta que a pesar deque hay una lista de pasos a seguir, el proceso de data mining no es lineal, en forma inevitable hay que volver atrás y volver a efectuar pasos anteriores.
Por ejemplo, lo que se aprenda en el paso “explorar datos” puede requerir que se agreguen nuevos datos a la base de datos de data mining. Los modelos que se creen al principio pueden dar una visión más completa que lleve a crear nuevasvariables.

Los pasos básicos de data mining para descubrir el conocimiento son:

1. Definir el problema de negocios
2. Construir la base de datos de data mining
3. Explorar los datos
4. Preparar los datos para armar el modelo
5. Construir el modelo
6. Evaluar el modelo
7. Entregar el modelo y los resultados

1. Definir el problema de negocios. El primer prerrequisito para descubrir elconocimiento es entender los datos y el negocio. Sin esa comprensión, ningún algoritmo, por más sofisticado que sea va a proporcionar resultados confiables y tampoco se va a poder identificar el problema que se está tratando de resolver ni preparar los datos para data mining ni se van a poder interpretar los resultados.
2. Para poder usar técnicas de data mining se debe establecer el objetivo enforma muy clara.
Puede ser que se quiera “aumentar la cantidad de respuestas obtenidas en una campaña por correo” o “aumentar el valor de las respuestas”, el modelo a construir puede ser muy diferente
3. El establecer claramente cuál es el problema tiene que incluir la forma de medir los resultados del proyecto de descubrimiento del conocimiento. También tiene que incluir una justificación decostos.
2. Construir una base de datos de data mining. Este paso y el siguiente constituyen la parte central de la preparación de los datos. En total insumen la mayor parte del tiempo y esfuerzo que todo el resto de los pasos juntos (50% al 90% del total)
Puede haber iteraciones en la preparación de los datos y construcción del modelo, a medida que se aprende con el modelo aparece la necesidad demodificar los datos del modelo.
Hay que reunir los datos a minar en una base de datos. Dependiendo del volumen y complejidad de los datos, esta “base de datos” puede ser un archivo plano o una planilla de cálculo.
Como el uso de los datos va a ser muy intenso, ya que muchos algoritmos requieren varias pasadas, no es buena idea usar directamente el Datawarehouse, es mejor crear un data martseparado para no causar problemas en el resto de los usuarios de datawarehouse.
Muchas veces va a hacer falta modificar los datos, incluir datos que están fuera de la organización o agregar nuevos campos calculados a partir de los existentes o traer datos de encuestas.
Puede hacer falta guardar los datos con una estructura diferente a la que tiene en el Datawarehouse.
Podría usarse el Datawarehousesi permite crear data marts lógicos y puede manejar el uso de recursos que demandan los procesos de data mining.
Las tareas para construir una base de datos para data mining son:

a. Recopilación de datos
b. Descripción de datos
c. Selección
d. Control de calidad de datos y limpieza de datos
e. Consolidación e integración
f. Construcción de Metadata
g. Carga de la base de datos de...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Data mining
  • Data Mining
  • Data Mining
  • data mining
  • Data mining
  • Data Mining
  • DATA MINING
  • Data Mining

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS