Regresion
Outliers y "Leverage Points"
En el caso univariado, cuando se tiene un conjunto de datos, se dice que un dato es un outlier, si es un punto que no esta de acuerdo con el conjunto de datos, o es un valor atípico o raro, o es una observación extrema.
[pic]
Figura 1. Valoratípico en un conjunto de datos
Estos valores crean muchos problemas, tienen mucha influencia sobre las estadísticas, razón por la cual, deben identificarse utilizando estadísticas adecuadas. Los outliers pueden ser debido a:
|[pi|Errores de digitación |
|c] | |
|[pi|Datos realesque proporcionan gran información. |
|c] | |
En regresión Simple, un outlier es el dato que se sale de la relación lineal de un conjunto de datos. Para identificar estos puntos se deben utilizar estadísticas. Una forma preliminar de detectar los outliers es calculando los residuales, se espera que, sitodos los puntos están ubicados muy cerca de recta, los residuales sean pequeños y si un residual es grande es señal que el punto puede ser Outlier. Se considera que es un potencial outlier si está a más de 3 desviaciones de la media.
[pic]
Figura 1. Valor atípico en regresión lineal simple
En a) se produce un salto en el posible valor de Y porque [pic]está ubicado en el rango de valores de X.En b) como el punto está lejos del rango de valores de X se denomina “Leverage Points”, “Puntos de apalancamiento” o “Puntos altamente influyentes”. Este punto “Leverage Point” puede o no ser Outlier.
El caso b) es dramático, ya que en este caso el residual puede ser el mas pequeño y en este caso el residual no podrá detectar Outliers.
[pic]
Figura 1. Oulier no leverage point y leverage pointque es outlier
|Estadísticas para detectar outliers y “Leverage Points” |
Existen muchas estadísticas que permiten detectar outliers y “Leverage Points”, Las mas conocidas son:
1. La matriz H
2. Distancia de Cook
3. DFFITS
4. DFBETAS
5. COVRATIO
La Matriz H
Hoaglin y Welsch en su artículo del año 1978:, "The hat matrix in regression and ANOVA", Am.Statist., 32 [pic], [pic]Presentan una discusión sobre el papel de matriz [pic]en la identificación de observaciones influyentes (leverage points). Como se puede demostrar [pic]y también [pic]. Vemos que [pic] determina la varianza y covarianza de los vectores de estimadores [pic] y del vector de residuales [pic]. Los elementos [pic] de la matriz [pic] pueden ser interpretados como LA CANTIDAD DEINFLUENCIA EMPLEADA POR [pic] sobre su estimación [pic]. [pic]Luego la inspección de los elementos de [pic] puede mostrar los puntos que son potencialmente influyentes de acuerdo a su localización en el rango de las [pic].
La atención es focalizada sobre los elementos de la diagonal. Debido a que [pic] es idempotente, [pic]entonces el i-ésimo elemento de la diagonal de [pic] es igual al i-ésimoelemento de la diagonal de [pic]. Ilustremos para el caso de un matriz [pic]
[pic]
Pero, como H es simétrica:
|[pic] | |[pic] | |[pic] |
Luego,
[pic]
vemos que el i-ésimo elemento de la diagonal de H es igual al i-ésimo elemento de la diagonal de [pic]
[pic]
En general
[pic]
Por ejemplo
[pic]
La anterior relación es satisfecha por números que estén entre 0 y1. Recuerde que [pic]
|Teorema: |
Si A es una matriz idempotente con [pic] valores propios iguales a uno, entonces [pic].
|Teorema: |
Sea A una matriz idempotente nxn. Entonces se tienen los siguientes resultados:
i) Los valores propios de A son todos igual a 0 o 1.
ii) [pic]
La demostración en libro de Jan R. Magnus y Heinz Neudecker: Matrix differential...
Regístrate para leer el documento completo.