Correlacion Lineal
CORRELACION Y REGRESION LINEAL (Profesor Ms. Sc. Juan Garrido Z.) Correlación: El objetivo es medir la magnitud de la asociación lineal entre dos variables. Covarianza: Sean X e Y dos variables aleatorias cuyas medias son E ( X ) y E (Y ) y cuyas varianzas son V ( X ) y V (Y ) respectivamente. Se define la covarianza entre las variables aleatorias X e Y por la expresión:
Cov ( X , Y ) = E[(( X − E ( X )) ((Y − E (Y ))] = E [ X Y ] − E ( X ) E (Y )
Observaciones: 1) Para dos variables aleatorias X e Y se tiene que:
V ( X + Y ) = V ( X ) + V (Y ) + 2 Cov ( X , Y )
V ( X − Y ) = V ( X ) + V (Y ) − 2 Cov ( X , Y )
2) Si X e Y son variables aleatorias independientes, entonces: E[X Y ] = E ( X ) E (Y ) y por lo tanto Cov ( X , Y ) = 0 . En consecuencia en las fórmulas anteriores,resulta que:
V ( X + Y ) = V ( X ) + V (Y )
y
V ( X − Y ) = V ( X ) + V (Y )
3) Si Cov ( X , Y ) > 0 , entonces valores altos de X están asociados con valores altos de Y y valores bajos de X están asociados con valores bajos de Y . 4) Si Cov( X , Y ) < 0 , entonces valores altos de X están asociados con valores bajos de Y y valores bajos de X están asociados con valores altos de Y .Comentario: La covarianza no es útil para evaluar la fuerza de la relación entre las variables aleatorias X e Y debido a que su valor depende de las unidades en las que estén medidas X e Y . Afortunadamente es simple corregir la covarianza, dividiéndola por el producto de las desviaciones estandar de X e Y . El resultado de ello se denomina Coeficiente de Correlación Lineal de Pearson. Coeficientede Correlación Lineal: Sean X e Y dos variables aleatorias cuyas medias son E ( X ) y E (Y ) y cuyas varianzas son V ( X ) y V (Y ) respectivamente. Se define el Coeficiente de Correlación por la expresión siguiente:
2
ρ ( X ,Y ) =
Observaciones: 1) 2) 3) 4)
Cov ( X , Y ) V ( x) V (Y )
=
E ( X − E ( X )) 2 E (Y − E (Y )) 2
[
E [[ X − E ( X ) ] [Y − E (Y ) ]]
] [
]−1 ≤ ρ ( X , Y ) ≤ 1 ρ ( X , Y ) = 1 implica correlación lineal positiva perfecta ρ ( X , Y ) = − 1 implica correlación lineal negativa perfecta ρ ( X , Y ) = 0 implica que no existe asociación lineal entre X e Y
El Coeficiente de Correlación ρ ( X , Y ) es un parámetro poblacional desconocido y por lo tanto debemos estimarlo a partir de datos muestrales
( x1 , y1 ) , ( x 2 , y 2 ), ......., (x n , y n ) , obteniéndose entonces el coeficiente de
correlación muestral r ( X , Y ) :
ˆ ρ ( X ,Y ) = r( X ,Y ) =
[n ∑ x
n ∑ xi y i − ∑ xi
2 i
− (∑ xi ) 2 n ∑ yi2 − (∑ yi ) 2
][
∑y
i
]
El coeficiente de correlación muestral r ( X , Y ) es útil como medida descriptiva de la intensidad de la relación (lineal) en una muestra de n pares de valores ( xi , y i ) , con i =1, 2, ....., n . Ejemplo 1:
Aplicando estos resultados en la fórmula anterior resulta: r ( X , Y ) = 0.908
3
Inferencias sobre el Coeficiente de Correlación: 1) Contraste de Hipótesis: (Test de independencia)
H0 : ρ = 0
v/s
H1 : ρ ≠ 0
Un estadístico inferencial (pivot) para resolver esta prueba de hipótesis esta dado por:
T0 =
r( X ,Y ) 1 − r( X ,Y ) 2 n − 2
~ t(n − 2)
siempre que X e Y tengan distribución conjunta Normal. Dado que esta prueba de independencia entre las variables X e Y es bilateral se rechaza la hipótesis nula y se confirma que X e Y están relacionadas si:
T0 < t α ; n − 2 ó T0 > t1 − α ; n − 2 .
2 2
En el ejemplo 1: r ( X , Y ) = 0.908 ; T0 = 6.85 ; t0.975;10 = 2.23 y por lo tanto se rechaza H 0 y así las variables X e Y estánrelacionadas significativamente al 5 %. 2) Contraste de Hipótesis:
ρ > ρ0 H 0 : ρ = ρ 0 ≠ 0 v / s H1 : ρ < ρ 0 ρ≠ρ 0
1 + r( X ,Y ) 1 Usamos el hecho de que el estadístico W = 2 ln 1 − r ( X , Y ) se distribuye aproximadamente normal con una media y una desviación estandar dadas por:
1 + ρ0 µW = 1 ln 2 1 − ρ 0
; σW =
1 n−3
El estadístico del...
Regístrate para leer el documento completo.