selecci9n de datos aberrantes

Páginas: 69 (17111 palabras) Publicado: 24 de julio de 2014
GUÍA METODOLÓGICA PARA LA SELECCIÓN
DE TÉCNICAS DE DEPURACIÓN DE DATOS

IVÁN AMÓN URIBE

UNIVERSIDAD NACIONAL DE COLOMBIA
FACULTAD DE MINAS, ESCUELA DE SISTEMAS
MEDELLÍN
2010

GUÍA METODOLÓGICA PARA LA SELECCIÓN
DE TÉCNICAS DE DEPURACIÓN DE DATOS

IVÁN AMÓN URIBE

TESIS DE MAESTRÍA
MAESTRÍA EN INGENIERÍA - INGENIERÍA DE SISTEMAS

Directora:
CLAUDIA JIMÉNEZ RAMÍREZ, Ph.DUNIVERSIDAD NACIONAL DE COLOMBIA
FACULTAD DE MINAS, ESCUELA DE SISTEMAS
MEDELLÍN
2010

AGRADECIMIENTOS

A la profesora Claudia Jiménez Ramírez, adscrita a la Escuela de Sistemas de
la Universidad Nacional de Colombia Sede Medellín, por su disponibilidad
permanente y acompañamiento continuo durante el desarrollo de este trabajo.

A la Universidad Pontificia Bolivariana, por costear misestudios de maestría.

A mis familiares, por su apoyo y comprensión.

3

CONTENIDO

pág.
INTRODUCCIÓN ............................................................................................. 11

1.

OBJETIVOS Y ALCANCE............................................................. 12

1.1.

ObjetivoGeneral................................................................................... 12

1.2.

Objetivos específicos ............................................................................ 12

1.3.

Alcance ................................................................................................. 12

2.

FUNDAMENTOS TEÓRICOS ........................................................ 14

2.1.

La Calidad de losDatos......................................................................... 14

2.2.

Trabajos Relacionados .......................................................................... 15

2.3.

Necesidad de una Metodología para seleccionar técnicas ..................... 17

3.

DETECCIÓN DE DUPLICADOS .................................................... 20

3.1. Funciones de similitud sobre cadenas de texto..................................... 22
3.1.1. Funciones de similitud basadas en caracteres........................................ 23
3.1.2. Funciones de similitud basadas en tokens ............................................. 27
3.2. Evaluación de funciones de similitud sobre cadenas de texto ............... 28
3.2.1. Función de discernibilidad................................................................... 29
3.3.

Diseño del Experimento para la comparación de las técnicas ............... 30

3.4. Resultados de la comparación de las funciones de similitud sobre
cadenas de texto ........................................................................................... 32
3.5. Guía Metodológica para la selección de técnicas para la detección de
duplicados..................................................................................................... 39
3.6.

Conclusiones y Trabajo Futuro sobre la Detección de Duplicados ......... 41

4.

CORRECCIÓN DE VALORES FALTANTES ..................................... 43

4.1. Técnicas de imputación ........................................................................ 50
4.1.1. Imputación usando la media............................................................... 50
4.1.2. Imputación usando la Mediana ............................................................ 52
4.1.3. Imputación Hot Deck ......................................................................... 52
4.1.4. Imputación por Regresión ................................................................... 56
4.2.

Métricas de Evaluaciónpara Técnicas de Imputación ........................... 57

4.3.

Diseño del Experimento para Comparación de Técnicas de Imputación 58

4.4.

Resultados de la Comparación de Técnicas de Imputación ................... 59

4

4.4.1.

Análisis de los resultados del experimento para Valores Faltantes. ........... 67

4.5. Guía Metodológica para la Selección de las Técnicas para...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • ABERRACIONES
  • Aberraciones
  • Aberraciones
  • aberraciones
  • Aberraciones
  • ABERRACIONES
  • Aberraciones Cromosomicas
  • aberraciones esféricas

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS