Estadisticq

Páginas: 42 (10367 palabras) Publicado: 26 de septiembre de 2012
ESTADÍSTICA ESPAÑOLA Vol. 48, Núm. 162, 2006, págs. 241 a 270

Métodos de inferencia estadística con datos faltantes. Estudio de simulación sobre los efectos en las estimaciones
por JUAN GÓMEZ GARCÍA Departamento de Métodos Cuantitativos para la Economía. Universidad de Murcia JAVIER PALAREA ALBALADEJO Departamento de Informática de Sistemas Universidad Católica. San Antonio JOSEP ANTONIMARTÍN FERNÁNDEZ Departament d'Informática i Matemática Aplicada. Universitat de Girona

RESUMEN En la práctica estadística es frecuente encontrar muestras con datos que no han podido observarse. En este artículo se comparan mediante un ejercicio de simulación el rendimiento y las propiedades de distintas estrategias de inferencia a partir de muestras con datos faltantes según un patrón arbitrario. Seestudian desde métodos heurísticos hasta métodos basados en verosimilitudes, bajo distintos mecanismos para la no respuesta y con variables de características dispares. Se analiza el efecto sobre las estimaciones puntuales y la cobertura de los intervalos de confianza. Finalmente, se extraen conclusiones de utilidad para la práctica del análisis de datos. Palabras clave: datos faltantes,imputación múltiple, inferencia estadística.

242

ESTADÍSTICA ESPAÑOLA

Clasificación AMS: 62-07, 62F99.

1. INTRODUCCIÓN Y OBJETIVOS En el desarrollo teórico de la mayoría de técnicas y modelos estadísticos no se tienen en cuenta algunas cuestiones que surgen en su aplicación práctica, en concreto, un problema al que con seguridad se ha enfrentado cualquier analista de datos es el de los datosfaltantes, también denominados perdidos o incompletos. Cuando se toma una muestra, en general con k variables, de tamaño n obtenemos una matriz de datos de dimensiones n × k . Habitualmente esa matriz es incompleta en el sentido de que faltan datos sobre alguna o algunas de las variables para alguno o algunos de los casos, u observaciones, de la muestra. El estudio sistemático y la formalización deeste problema desde un punto de vista probabilístico no se inicia hasta mediados de los años setenta, destacando principalmente el trabajo de Rubin (1976). Aún hoy, se tiende a infravalorar el efecto de eliminar de la matriz de datos aquellos casos con valores perdidos o a sustituirlos por valores que intuitivamente parecen razonables con el fin de eludir el problema y disfrutar de una nuevamatriz completa sobre la cual aplicar los análisis pertinentes. De hecho, muchos de los programas informáticos de análisis de datos de uso generalizado incorporan dichas pseudo-soluciones en sus versiones estándar, de modo que son las empleadas por la mayor parte de los usuarios no especialistas. Hasta hace relativamente poco, los únicos métodos generalmente utilizados para tratar el problema de losdatos perdidos eran métodos como la eliminación del caso con valores perdidos, la sustitución/imputación de éstos por valores plausibles como la media de la variable o la predicción obtenida mediante regresión sobre las demás variables del vector, etc. Este tipo de métodos clásicos no suelen tener una base teórica sólida y, aunque fáciles de implementar y adecuados en situaciones concretas,presentan en general importantes inconvenientes y carencias, especialmente en contextos multivariantes. Los principales problemas inferenciales asociados son ineficiencia, aparición de sesgos, distorsión de la estructura de covarianzas; además de no incorporar la incertidumbre asociada a los datos faltantes. Frente a estos métodos clásicos, en los últimos años, y de forma paralela a la formalización delproblema de los datos faltantes, se han ido desarrollando métodos con una base teórica más sólida. Así, en Dempster, Laird y Rubin (1977) se establece una formulación general y rigurosa para la inferencia en presencia de datos faltantes mediante el algoritmo EM. Por otro lado, Rubin (1987) desarrolla una nueva metodología de propósito general, flexible y fundamentada que denomina imputación...
Leer documento completo

Regístrate para leer el documento completo.

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS