Multivariado
Regresión Lineal
Asignatura: Análisis Multivariado
Profesor: Juan Garrido Z. Alumnas: Carolina Honores Campos. Daniela Marín Castillo. Vanessa Pozo Cabello.
Análisis Multivariado 2 Regresión Lineal
CORRELACIÓN LINEAL
Objetivo: estudiar la posible relación lineal entre dos variables x e y con el propósito de ajustar un modelo lineal para predecir la variable y, a partirde la variable x. Objetivo final y = f(x)
X: variable independiente o explicativa Y: variable dependiente o respuestas Correlación: El objetivo es medir la magnitud de la asociación lineal entre dos variables. Covarianza: Sean X e Y dos variables aleatorias cuyas medias son E(X) y E (Y) y cuyas varianzas son V(X) y V (Y) respectivamente. Se define la covarianza entre las variables aleatorias Xe Y por la expresión: Cov(X, Y) = E [((X − E(X )) ((Y − E(Y))] = E[ X Y ] − E(X ) E (Y) Observaciones: 1) Para dos variables aleatorias X e Y se tiene que: V (X +Y) = V (X ) +V (Y ) + 2Cov(X ,Y) V (X −Y ) = V (X ) +V (Y ) − 2Cov (X ,Y ) 2) Si X e Y son variables aleatorias independientes, entonces: E[X Y] =E(X)E(Y) y por lo tanto Cov(X ,Y ) = 0 . En consecuencia en las fórmulas anteriores, resultaque: V (X +Y ) = V (X ) +V (Y ) y V (X −Y ) = V (X ) +V (Y ) 3) Si Cov(X ,Y ) > 0 , entonces valores altos de X están asociados con valores altos de Y y valores bajos de X están asociados con valores bajos de Y . 4) Si Cov(X ,Y) < 0 , entonces valores altos de X están asociados con valores bajos de Y y valores bajos de X están asociados con valores altos de Y . Comentario: La covarianza no esútil para evaluar la fuerza de la relación entre las variables aleatorias X e Y debido a que su valor depende de las unidades en las que estén medidas X e Y. Afortunadamente es simple corregir la covarianza, dividiéndola por el producto de las desviaciones estandar de X e Y. El resultado de ello se denomina Coeficiente de Correlación Lineal de Pearson. Coeficiente de Correlación Lineal: Sean X e Y dosvariables aleatorias cuyas medias son E(X ) y E(Y) y cuyas varianzas son V(X ) y V(Y) respectivamente. Se define el Coeficiente de Correlación por la expresión siguiente:
( x, y )
Cov( x, y ) V ( x) V (Y )
E[[ X E ( X )][Y E (Y )]] E[( X E ( X )) 2 ]E[(Y E (Y )) 2 ]
Observaciones: 1) −1 ≤ ρ (X ,Y ) ≤ 1 2) ρ (X ,Y ) = 1 implica correlación lineal positiva perfecta 3) ρ(X ,Y ) = −1 implica correlación lineal negativa perfecta 4) ρ (X ,Y ) = 0 implica que no existe asociación lineal entre X e Y
2
Análisis Multivariado 3 Regresión Lineal
El Coeficiente de Correlación ρ (X,Y) es un parámetro poblacional desconocido y por lo tanto debemos estimarlo a partir de datos muéstrales (x1,y1),(x2,y2),….(xn,yn), obteniéndose entonces el coeficiente de correlaciónmuestral r(X ,Y) :
( X ;Y ) r( X ;Y )
n x x n y
2 i i
n xi y i xi y i
2 i
yi
2
El coeficiente de correlación muestral r(X ,Y) es útil como medida descriptiva de la intensidad de la relación (lineal) en una muestra de n pares de valores (xi, yi) con i =1, 2,....., . Inferencias sobre el Coeficiente de Correlación: 1) Contraste de Hipótesis:(Test de independencia)
H 0 : 0 v / s H1 : 0
Un estadístico inferencial (pivot) para resolver esta prueba de hipótesis esta dado por:
T0
r ( X ;Y ) 1 r( X ;Y ) 2 n2
siempre que X e Y tengan distribución conjunta Normal. Dado que esta prueba de independencia entre las variables X e Y es bilateral se rechaza la hipótesis nula y se confirma que X e Y están relacionadas si:En el ejemplo: r(X,Y) = 0.908 ; T0 =0.85 = ; t 0.975;10 =2.23 y por lo tanto se rechaza H0 y así las variables X e Y están relacionadas significativamente al 5 %. 2) Contraste de Hipótesis:
0 H 0 : 0v / sH1 : 0 0
Usamos el hecho de que el estadístico
W
1 1 r ( X ;Y ) ln 2 1 r( X ;Y )
se distribuye aproximadamente...
Regístrate para leer el documento completo.