Arboles de decision
AITOR PUERTA GOICOECHEA JUNIO 2002
RESUMEN
5
INDICE OBJETIVOS.........................................................................................................................................4 INTRODUCCIÓN Y ANTECEDENTES ............................................................................................5 INTRODUCCIÓN A LAIMPUTACIÓN DE DATOS ......................................................................................5 ASUNCIONES DE NO-RESPUESTA .........................................................................................................8 TRATAMIENTO DE LA NO-RESPUESTA..................................................................................................9 ESTRATEGIAS DE IMPUTACIÓN.........................................................................................................17 CRITERIOS DE CUMPLIMIENTO POR LA IMPUTACIÓN ..........................................................................18 IMPUTACIÓN MÚLTIPLE..............................................................................................................20 SOFTWARE DE IMPUTACIÓN MÚLTIPLE..............................................................................................22 ARBOLES DE CLASIFICACIÓN Y REGRESIÓN.........................................................................23 ÁRBOLES BASADOS EN MODELOS DE SEGMENTACIÓN RECURSIVOS BINARIOS ..........28 ÁRBOLES BASADOS EN MODELOS DE SEGMENTACIÓN DE K-HIJOS (CHAID) ................29 IMPUTACIÓN MEDIANTE ÁRBOLES DECLASIFICACIÓN ....................................................31 EVALUACIÓN DE LA IMPUTACIÓN .....................................................................................................31 WAID 4.0.......................................................................................................................................35 APLICACIÓN A LA ESTADÍSTICA DE POBLACIÓN YVIVIENDA..........................................36 INTRODUCCIÓN ..........................................................................................................................36 DESCRIPCIÓN DE LOS FICHEROS.............................................................................................36 ANÁLISIS DE LA APLICACIÓN AL CENSO..............................................................................37 ESTUDIO DESCRIPTIVO DE LAS VARIABLES.........................................................................38
TASAS DE NO-RESPUESTA DE EUSKADI Y LLANADA ALAVESA 38 PATRONES DE NO-RESPUESTA........................................................... 40
MEDIDAS DE ASOCIACIÓN .......................................................................................................42CONSERVACIÓN DE LA DISTRIBUCIÓN DE FRECUENCIAS REAL ......................................44 CALIDAD DE LA IMPUTACIÓN .................................................................................................49 IMPUTACIÓN MULTIPLE DE LA RELACIÓN CON LA ACTIVIDAD ......................................57 CONCLUSIONES..............................................................................................................................63 BIBLIOGRAFÍA................................................................................................................................64 ANEXO I.............................................................................................................................................68 ANEXOII............................................................................................................................................70 ANEXO III...........................................................................................................................................72 ANEXO IV ..........................................................................................................................................76
3...
Regístrate para leer el documento completo.