preprocesamiento de datos
Francisco Herrera
Grupo de Investigación SCI2S
Dpto. Ciencias de la Computación e I.A.
Universidad de Granada
José Riquelme, Roberto Ruiz
Grupo de Investigación MLG
Dpto. Lenguajes y Sistemas Informáticos
Universidad de Sevilla
Reunión Red Nacional DM & ML
Madrid, 6-7 Mayo, 2004
Preprocesamiento de Datos
Sumario
Introducción
Importancia de la Preparaciónde Datos
¿Qué incluye la Preparación de Datos?
Reducción de Datos
Selección de Instancias
Selección de Características
Preprocesamiento de Datos
Introducción
D. Pyle, 1999, pp. 90:
“The fundamental purpose of data preparation
is to manipulate and transforrm raw data so
that the information content enfolded in the
data set can be exposed, or made more easily
accesible.”
DorianPyle
Data Preparation for Data Mining
Morgan Kaufmann Publishers, 1999
Preprocesamiento de Datos
Introducción
Problem
Specification
Post Data Mining
Evaluation
Interpretation
Exploitation
Resourcing
Data Mining
Data Preparation
Data Collecting
Data cleaning
Data Transformation
Data Reduction
Preprocesamiento de Datos
Importancia de la Preparación de Datos
1. Los datosreales pueden ser impuros, pueden conducir
a la extracción de patrones/reglas poco útiles.
Esto se puede deber a:
Datos Incompletos: falta de valores de atributos, …
Datos con Ruido
Datos inconsistentes (incluyendo discrepancias)
Preprocesamiento de Datos
Importancia de la Preparación de Datos
2. La preparación de datos puede generar un conjunto de
datos más pequeño que el original,lo cual puede
mejorar la eficiencia del proceso de Minería de Datos.
Esta actuación incluye:
Selección relevante de datos: eliminando registros
duplicados, eliminando anomalías, …
Reduccion de Datos: Selección de características,
muestreo o selección de instancias, discretización.
Preprocesamiento de Datos
Importancia de la Preparación de Datos
3. La preparación de datos genera “datosde calidad”, los
cuales pueden conducir a patrones/reglas de calidad.
Por ejemplo, se puede:
Recuperar información incompleta.
Eliminar outliers
Resolver conflictos, …
Preprocesamiento de Datos
¿Qué incluye la Preparación de Datos?
“El Preprocesamiento de Datos” / “La Preparación de
Datos” engloba a todas aquellas técnicas de análisis de
datos que permite mejorar la calidad de unconjunto de
datos de modo que las técnicas de extracción de
conocimiento/minería de datos puedan obtener mayor y
mejor información (mejor porcentaje de clasificación,
reglas con más completitud, etc.)
Bibliografía:
S. Zhang, C. Zhang, Q. Yang. Data preparation for data mining.
Applied Artificial Intelligence 17:5-6, 375-381, 2003.
Special Issue Data Cleaning and Preprocessing: 13 artículosPreprocesamiento de Datos
¿Qué incluye la Preparación de Datos?
Es difícil dar una lista exacta de tareas o tópicos.
Diferentes autores dan diferentes tareas y clasificaciónes.
Se pueden incluir las siguientes tareas o tópicos:
-
Data collecting and integration
-
Data cleaning
-
Data transformation
-
Data reduction (Feature Selection, Instance Selection,
Discretization)Preprocesamiento de Datos
¿Qué incluye la Preparación de Datos?
Data collecting and integration
Obtiene los datos de diferentes fuentes de información
Resuelve problemas de representación y codificación
Integra los datos desde diferentes tablas para crear
información homogénea, ...
Bibliografía
específica para
cada aplicación.
Bibliografía:
V. Detours, J. E. Dumont, H. Bersini andC. Maenhaut. Integration
and cross-validation of high-throughout gene expression data:
Ejemplo en el ámbito comparing heterogeneous data sets, FEBS Letters 546:1, 2003,
de la Bioinformática 98-102.
Preprocesamiento de Datos
¿Qué incluye la Preparación de Datos?
Data cleaning
Resuelve conflictos entre datos
Elimina outliers
Chequea y resuelve problemas de ruido, valores
perdidos, …...
Regístrate para leer el documento completo.