selecci9n de datos aberrantes
DE TÉCNICAS DE DEPURACIÓN DE DATOS
IVÁN AMÓN URIBE
UNIVERSIDAD NACIONAL DE COLOMBIA
FACULTAD DE MINAS, ESCUELA DE SISTEMAS
MEDELLÍN
2010
GUÍA METODOLÓGICA PARA LA SELECCIÓN
DE TÉCNICAS DE DEPURACIÓN DE DATOS
IVÁN AMÓN URIBE
TESIS DE MAESTRÍA
MAESTRÍA EN INGENIERÍA - INGENIERÍA DE SISTEMAS
Directora:
CLAUDIA JIMÉNEZ RAMÍREZ, Ph.DUNIVERSIDAD NACIONAL DE COLOMBIA
FACULTAD DE MINAS, ESCUELA DE SISTEMAS
MEDELLÍN
2010
AGRADECIMIENTOS
A la profesora Claudia Jiménez Ramírez, adscrita a la Escuela de Sistemas de
la Universidad Nacional de Colombia Sede Medellín, por su disponibilidad
permanente y acompañamiento continuo durante el desarrollo de este trabajo.
A la Universidad Pontificia Bolivariana, por costear misestudios de maestría.
A mis familiares, por su apoyo y comprensión.
3
CONTENIDO
pág.
INTRODUCCIÓN ............................................................................................. 11
1.
OBJETIVOS Y ALCANCE............................................................. 12
1.1.
ObjetivoGeneral................................................................................... 12
1.2.
Objetivos específicos ............................................................................ 12
1.3.
Alcance ................................................................................................. 12
2.
FUNDAMENTOS TEÓRICOS ........................................................ 14
2.1.
La Calidad de losDatos......................................................................... 14
2.2.
Trabajos Relacionados .......................................................................... 15
2.3.
Necesidad de una Metodología para seleccionar técnicas ..................... 17
3.
DETECCIÓN DE DUPLICADOS .................................................... 20
3.1. Funciones de similitud sobre cadenas de texto..................................... 22
3.1.1. Funciones de similitud basadas en caracteres........................................ 23
3.1.2. Funciones de similitud basadas en tokens ............................................. 27
3.2. Evaluación de funciones de similitud sobre cadenas de texto ............... 28
3.2.1. Función de discernibilidad................................................................... 29
3.3.
Diseño del Experimento para la comparación de las técnicas ............... 30
3.4. Resultados de la comparación de las funciones de similitud sobre
cadenas de texto ........................................................................................... 32
3.5. Guía Metodológica para la selección de técnicas para la detección de
duplicados..................................................................................................... 39
3.6.
Conclusiones y Trabajo Futuro sobre la Detección de Duplicados ......... 41
4.
CORRECCIÓN DE VALORES FALTANTES ..................................... 43
4.1. Técnicas de imputación ........................................................................ 50
4.1.1. Imputación usando la media............................................................... 50
4.1.2. Imputación usando la Mediana ............................................................ 52
4.1.3. Imputación Hot Deck ......................................................................... 52
4.1.4. Imputación por Regresión ................................................................... 56
4.2.
Métricas de Evaluaciónpara Técnicas de Imputación ........................... 57
4.3.
Diseño del Experimento para Comparación de Técnicas de Imputación 58
4.4.
Resultados de la Comparación de Técnicas de Imputación ................... 59
4
4.4.1.
Análisis de los resultados del experimento para Valores Faltantes. ........... 67
4.5. Guía Metodológica para la Selección de las Técnicas para...
Regístrate para leer el documento completo.