Tecnicas De Analisis De Datos
APLICACIONES PRÁCTICAS UTILIZANDO MICROSOFT
EXCEL Y WEKA
José Manuel Molina López
Jesús García Herrero
2006
PRÓLOGO
Estos apuntes pretenden dar una visión general de las técnicas de análisis de
datos y de las aplicaciones que las implementan, permitiendo entender los
conceptos y algoritmos sobre los que se basan las técnicas así como el
resultado desu aplicación sobre diversas fuentes de ficheros.
Estos apuntes son una recolección de información de muy variadas fuentes,
páginas de intenet, artículos etc.. todas ellas aparecen citadas. De entre todas
ellas cabe resaltar el trabajo fin de carrera de David Sánchez titulado “Data
Mining mediante Sistemas Clasificadores Genéticos. Análisis comparativo con
las técnicas clásicasimplementadas en WEKA”, en la titulación de Ingeniería
Informática (Julio 2003) donde se realiza un gran esfuerzo por explicar el
funcionamiento interno de la herramienta WEKA y de dónde se ha extraído la
información acerca de las clases y el código que implementa los algoritmos
para estos apuntes. Así también resulta necesario resaltar la tesis doctoral de
Félix Chamorro, ya que el capítulo 2 (el estadodel arte) se pormenorizan todas
las técnicas de análisis de datos y que ha sido utilizado para la elaboración de
estos apuntes.
Esperamos que estos apuntes sean de utilidad para los alumnos que se
acerquen al análisis de datos y en particular para aquellos que tengan interés
en aplicar los conocimientos teóricos en el campo de la práctica.
José Manuel Molina López
Jesús GarcíaHerrero
Índice
Índice
CAPÍTULO 1. INTRODUCCIÓN
1
1.1. KDD Y MINERÍA DE DATOS
1
1.1.2. EL PROCESO DE KDD
3
1.1.3. MINERÍA DE DATOS
5
1.1.4. TECNOLOGÍAS DE APOYO
6
1.1.5. ÁREAS DE APLICACIÓN
9
1.1.6. TENDENCIAS DE LA MINERÍA DE DATOS
13
1.2. MINERÍA DE DATOS Y ALMACENAMIENTO DE DATOS
14
1.2.1. ARQUITECTURA, MODELADO, DISEÑO, Y ASPECTOS DE LAADMINISTRACIÓN 14
1.2.2. DATA MINING Y FUNCIONES DE BASES DE DATOS
16
1.2.3. DATA WAREHOUSE
17
1.2.4. DATA WAREHOUSE Y DATA MINING
21
1.3. HERRAMIENTAS COMERCIALES DE ANÁLISIS DE DATOS
22
1.4. ARQUITECTURA SOFTWARE PARA DATA MINING
33
1.4.2. ARQUITECTURA FUNCIONAL
35
1.4.3. ARQUITECTURA DEL SISTEMA
36
1.4.4. EL DATA MINING EN LA ARQUITECTURA DEL SISTEMA
38CAPÍTULO 2. ANÁLISIS ESTADÍSTICO MEDIANTE EXCEL
41
2.1. ANÁLISIS DE UNA VARIABLE. ESTADÍSTICA DESCRIPTIVA E
INFERENCIA
Técnicas de Análisis de Datos
43
i
Índice
2.2. TÉCNICAS DE EVALUACIÓN DE HIPÓTESIS
57
2.2.1. ANÁLISIS DE RELACIONES ENTRE ATRIBUTOS
57
2.2.2. RELACIÓN ENTRE VARIABLES NOMINALES-NOMINALES
57
2.2.3. RELACIONES NUMÉRICAS-NOMINALES
2.2.3.1.Comparación de dos medias
2.2.3.2. Análisis de la varianza
59
60
61
2.2.4. RELACIONES NUMÉRICAS-NUMÉRICAS:
2.2.4.1. Regresión lineal
64
64
2.2.5. EVALUACIÓN DEL MODELO DE REGRESIÓN
2.2.5.1. Medidas de Calidad
2.2.5.2. Test de Hipótesis sobre modelo de regresión
65
65
66
2.3. EJEMPLOS DE APLICACIÓN DE TÉCNICAS DE EVALUACIÓN DE
HIPÓTESIS
67
2.3.1. EJEMPLOS DE VALIDACIÓN DEHIPÓTESIS
67
2.4. TÉCNICAS CLÁSICAS DE CLASIFICACIÓN Y PREDICCIÓN
76
2.4.1. CLASIFICACIÓN BAYESIANA:
80
2.4.2. REGRESIÓN LINEAL
90
CAPÍTULO 3. TÉCNICAS DE MINERÍA DE DATOS
BASADAS EN APRENDIZAJE AUTOMÁTICO
96
3.1. TÉCNICAS DE MINERÍA DE DATOS
96
3.2. CLUSTERING. (“SEGMENTACIÓN”)
98
3.2.1. CLUSTERING NUMÉRICO (K-MEDIAS)
99
3.2.2. CLUSTERINGCONCEPTUAL (COBWEB)
100
3.2.3. CLUSTERING PROBABILÍSTICO (EM)
104
3.3. REGLAS DE ASOCIACIÓN
107
3.4. LA PREDICCIÓN
110
3.4.1. REGRESIÓN NO LINEAL.
110
3.4.2. ÁRBOLES DE PREDICCIÓN
111
3.4.3. ESTIMADOR DE NÚCLEOS
115
3.5. LA CLASIFICACIÓN
120
3.5.1. TABLA DE DECISIÓN
121
3.5.2. ÁRBOLES DE DECISIÓN
123
3.5.3. REGLAS DE CLASIFICACIÓN
135...
Regístrate para leer el documento completo.