mexico
EL PROCESO DE KDD
1. Determinar las fuentes de información que pueden ser útiles y dónde conseguirlas.
2. Diseñar el esquema de un almacén de datos (Data Warehouse) que consiga unificar de manera operativa toda la información recogida.
3. Implantación del almacén de datos que permita la “navegación” y visualización previa de sus datos, paradiscernir qué aspectos puede interesar que sean estudiados.
4. Selección, limpieza y transformación de los datos que se van a analizar. La selección incluye tanto una criba o fusión horizontal (filas) como vertical (atributos).
5. Seleccionar y aplicar el método de minería de datos apropiado.
6. Evaluación, interpretación, transformación y representación de los patrones extraídos.
7. Difusión y usodel nuevo conocimiento.
RECOGIDA DE DATOS
Las primeras fases del KDD determinan que las fases sucesivas sean capaces de extraer conocimiento válido y útil a partir de la información original. Generalmente, la información que se quiere investigar sobre un cierto dominio de la organización se encuentra: en bases de datos y otras fuentes muy diversas, tanto internas como externas. Muchas de estasfuentes son las que se utilizan para el trabajo transaccional.
El proceso subsiguiente de minería de datos: Depende mucho de la fuente:
OLAP u OLTP.
Datawarehouse o copia con el esquema original. ROLAP o MOLAP.
• Depende también del tipo de usuario:
‘picapedreros’ (o ‘granjeros’): se dedican fundamentalmente a realizar informes periódicos, ver la evolución de determinados parámetros,controlar valores anómalos, etc.
* ‘exploradores’: encargados de encontrar nuevos patrones significativos utilizando técnicas de minería de datos.
Recogida de Información Externa:
• Aparte de información interna de la organización, los almacenes de datos pueden recoger información externa:
Demografías (censo), páginas amarillas, psicografías (perfiles por zonas), uso de Internet, informaciónde otras organizaciones.
Datos compartidos en una industria o área de negocio, organizaciones y colegios profesionales, catálogos, etc.
Datos resumidos de áreas geográficas, distribución de la competencia, evolución de la economía, información de calendarios y climatológicas, programaciones televisivas deportivas, catástrofes,..
Bases de datos externas compradas a otras compañíasPREPARACION DE DATOS
Limpieza (data cleansing) y criba (selección) de datos:
• Se deben eliminar el mayor número posible de datos erróneos o inconsistentes (limpieza) e irrelevantes (criba).
Métodos estadísticos casi exclusivamente.
Resúmenes e histogramas (detección de datos anómalos).
Selección de datos (muestreo, ya sea verticalmente, eliminando atributos, denominado “selección decaracterísticas”, u horizontalmente, eliminando tuplas, denominado “muestreo”).
Redefinición de atributos (agrupación o separación).
La selección y la limpieza pueden acompañarse de “transformación” de atributos (numerización, discretización,…).
• El resultado es un conjunto de filas y columnas denominado:
• La vista minable integra datos de diferentes fuentes, los limpia, selecciona ytransforma, y los tipa, con el fin de prepararlos para la modelización.
MINERIA DE DATOS Patrones a descubrir:
• Una vez recogidos los datos de interés, un explorador puede decidir qué tipo de patrón quiere descubrir.
• El tipo de conocimiento que se desea extraer va a marcar claramente la técnica de minería de datos a utilizar.
• Según como sea la búsqueda del conocimiento se puede distinguir...
Regístrate para leer el documento completo.