Diagnósticos de Regresión
1 Universidad de Córdoba
Departamento de Matemáticas y Estadística
Mayo de 2013
(UNICORDOBA)
Mayo de 2013
1 / 78
RLM, residuales y diagnóstico
(UNICORDOBA)
Mayo de 2013
2 / 78
RLM, residuales y diagnóstico
Residuales
Los principales problemas que se pueden presentar en la construcción
de un Modelo de Regresión Múltiple son lossiguientes:
Error de especicación: el modelo de regresión no proporciona
un buen ajuste a la nube de observaciones. Esto puede ser por
diferentes motivos: la relación no es lineal; existen variables
explicativas relevantes que no han sido incluídas en el modelo.
Falta de Normalidad: los residuos no son normales.
Heterocedasticidad: la varianza de los errores no es constante.
Existencia devalores atípicos o heterogéneos: existen datos
atípicos que se separan de la nube de datos muestrales que pueden
inuir en la estimación del modelo de regresión o que no se ajustan
al modelo.
(UNICORDOBA)
Mayo de 2013
3 / 78
RLM, residuales y diagnóstico
Residuales
Dependencia (autocorrelación): existe dependencia entre las
observaciones.
Multicolinealidad: las variablesregresoras son muy dependientes
entre sí, y es difícil separar su contribución individual al modelo.
Consecuencia de ésto es que los parámetros del modelo son muy
inestables, con varianzas muy grandes.
(UNICORDOBA)
Mayo de 2013
4 / 78
RLM, residuales y diagnóstico
Análisis de residuos
Considérese el modelo de regresión lineal múltiple:
Y = Xβ +
Los residuos mínimo-cuadráticosvienen dados son
ei = yi − yi , i = 1, 2, ..., n
ˆ
o en forma matricial
ˆ
e=Y−Y
Donde
ˆ
Y = HY,
siendo
H = X(X t X)−1 X t .
Se puede probar que
H
es
simétrica e idempotente.
(UNICORDOBA)
Mayo de 2013
5 / 78
RLM, residuales y diagnóstico
Análisis de residuos
Deesarrollando lo anterior se llega a:
V ar(e) = σ 2 (I − H)
Por tanto,
ei
es unavariable aleatoria con distribución:
ei ∼ N 0, σ 2 (1 − hii ) , i = 1, 2, ..., n
donde
hii
es el valor de inuencia de
Xii ,
que mide la distancia de
Xii
a
X.
Un residuo grande indica que la observación está lejos del modelo
estimado y, por tanto, la predicción de esta observación es mala. Las
observaciones con residuos grandes se denominan
atípicas o heterogéneas(outliers).
(UNICORDOBA)
observaciones
Mayo de 2013
6 / 78
RLM, residuales y diagnóstico
Residuos estandarizados
Los residuos estandarizados tienen media cero y varianza
aproximadamente 1, en consecuencia un residual estandarizado grande
(di > 3)
indica que se trata de un dato potencialmente atípico.
di = √
(UNICORDOBA)
ei
, i = 1, 2, , ..., 3
CM E
Mayo de2013
7 / 78
RLM, residuales y diagnóstico
Residuos estudentizados
Como los residuos tienen varianza variable y son dimensionados (tienen
las unidades de la variable
Y
), normalmente se tipican
e
√ i
∼ tn−(k+1) , i = 1, 2, ..., n
σ 1 − hii
los residuos tipicados siguen una distribución normal estándar, pero
como
σ2
residual
es desconocido, se sustituye por suestimador, la varianza
σ2
y se obtienen los
residuos estudentizados, denidos como :
ei
ri = √
∼ t(n−1)−(k+1)
σ 1 − hii
ˆ
(UNICORDOBA)
Mayo de 2013
8 / 78
RLM, residuales y diagnóstico
Residual R-Student
El residual estudentizado
ri
que se describió arriba se considera con
frecuencia como diagnóstico para valores atípicos. Otro método sería
usar unestimado de
σ2
basado en un conjunto de datos con la
i − ésima
observación eliminada.
2
S(i) =
(UNICORDOBA)
(n − p)ˆ 2 −
σ
ei
1−hii
n−p−1
Mayo de 2013
9 / 78
RLM, residuales y diagnóstico
Se obtiene un residual estudentizado externamente que se denomina
R-Student
ti =
ei
2
S(i) (1 − hii )
ti será poco distinto del residual estudentizado ri Sin...
Regístrate para leer el documento completo.