Data Mining
Desarrollo de
Proyectos en
Minería de Datos
CRISP-DM
EPB 603 Sistemas del Conocimiento
!
" #$ %
&
$
%'
Modelos de proceso para proyectos de Data Mining (DM)
Son diversos los modelos de proceso que han sido propuestos para el desarrollo de proyectos de
Data Mining tales como SEMMA (Sample, Explore, Modify, Model, Assess) [SAS, 2003],
DMAMC (Definir,Medir, Analizar, Mejorar, Controlar) [Isixsigma, 2005], o CRISP-DM
(Cross Industry Standard Process for Data Mining) [CRISP-DM, 2000], sin embargo uno de los
modelos principalmente utilizados en los ambientes académico e industrial es el modelo CRISPDM.
CRISP-DM (Cross Industry Standard Process for Data Mining)
CRISP–DM [CRISP-DM, 2000], es la guía de referencia más ampliamente utilizada en eldesarrollo de proyectos de Data Mining, como se puede constatar en la gráfica presentada en la
figura 2.3. Esta gráfica, publicada el año 2007 por kdnuggets.com, representa el resultado
obtenido en sucesivas encuestas efectuadas durante los últimos años, respecto del grado de
utilización de las principales guías de desarrollo de proyectos de Data Mining. En ella se puede
observar, que a pesarde que el uso de aun frente a otras, la guía de referencia más ampliamente
utilizada.
Los orígenes de CRISP-DM, se remontan hacia el año 1999 cuando un importante consorcio de
empresas europeas tales como NCR (Dinamarca), AG(Alemania), SPSS (Inglaterra), OHRA
(Holanda), Teradata, SPSS, y Daimer-Chrysler, proponen a partir de diferentes versiones de
KDD (Knowledge Discovery in Databases)[Reinartz, 1995], [Adraans, 1996], [Brachman,
1996], [Fayyad, 1996], el desarrollo de una guía de referencia de libre distribución denominada
CRISP-DM (Cross Industry Standard Process for Data Mining).
Figura No. 2.3. Metodologías utilizadas en Data Mining ([kdnuggets, 2007]).
CRISP-DM, está dividida en 4 niveles de abstracción organizados de forma jerárquica (figura
2.4) en tareas que vandesde el nivel más general, hasta los casos más específicos y organiza el
desarrollo de un proyecto de Data Mining, en una serie de seis fases (figura 2.5):
Figura No. 2.4. Esquema de los 4 niveles de CRISP-DM ([CRISP-DM, 2000]).
La sucesión de fases no es necesariamente rígida. Cada fase es estructurada en varias tareas
generales de segundo nivel. Las tareas generales se proyectan a tareasespecíficas, donde
finalmente se describen las acciones que deben ser desarrolladas para situaciones específicas,
pero en ningún momento se propone como realizarlas.
Figura No. 2.5. Modelo de proceso CRISP–DM ([CRISP-DM, 2000]).
A continuación se describen cada una de las fases en que se divide CRISP-DM.
1. Fase de comprensión del negocio o problema
La primera fase de la guía dereferencia CRISP-DM, denominada fase de comprensión del
negocio o problema (figura 2.6), es probablemente la más importante y aglutina las tareas de
comprensión de los objetivos y requisitos del proyecto desde una perspectiva empresarial o
institucional, con el fin de convertirlos en objetivos técnicos y en un plan de proyecto. Sin lograr
comprender dichos objetivos, ningún algoritmo por muysofisticado que sea, permitirá obtener
resultados fiables. Para obtener el mejor provecho de Data Mining, es necesario entender de la
manera más completa el problema que se desea resolver, esto permitirá recolectar los datos
correctos e interpretar correctamente los resultados. En esta fase, es muy importante la capacidad
de poder convertir el conocimiento adquirido del negocio, en un problema de DataMining y en
un plan preliminar cuya meta sea el alcanzar los objetivos del negocio. Una descripción de cada
una de las principales tareas que componen esta fase es la siguiente:
Determinar los objetivos del negocio. Esta es la primera tarea a desarrollar y tiene como metas,
determinar cuál es el problema que se desea resolver, por qué la necesidad de utilizar Data
Mining y definir los...
Regístrate para leer el documento completo.