Estadisticas Correlacion Lineal
Marcelo Rodríguez
Ingeniero Estadístico - Magister en Estadística
Universidad Católica del Maule
Facultad de Ciencias Básicas
Ingeniería (E) en Administración
Estadística II
4 de abril de 2011
mrodriguez@ucm.cl
(UCM)
Marcelo Rodríguez G.
04/04/2011
1 / 35
Introducción
Comúnmente, cuando se realiza un estudio estadístico, se miden a una
mismaunidad de análisis,
más de una variable.
Denición (Variable Dependiente)
Es la variable por predecir (o por modelar) y se denota con la letra
Y.
Denición (Variable Independiente)
Son las variables que se utilizan para predecir y se denota con la letra
X.
Denición (Relación entre variables)
Se dice que dos variables están relacionadas, si cambios producidos (causa)
enla
variable independiente
mrodriguez@ucm.cl
(UCM)
producen un efecto en la
Marcelo Rodríguez G.
variable dependiente.
04/04/2011
2 / 35
Relación entre las variables
Denición (Covarianza)
La covarianza entre dos variables cuantitativas, nos indica si la posible
relación entre dos variables es directa o inversa. La covarianza muestral se
calcula de la siguientemanera:
n
(xi − x)(yi − y )
covxy =
i=1
n−1
=
Sxy
n−1
Si la covarianza es negativa, entonces la relación es inversa.
Si la covarianza es positiva, entonces la relación es directa.
Si la covarianza es cero, entonces la relación es nula (no relacionados).
El signo de la covarianza nos dice si el aspecto de la nube de puntos es
creciente o no, pero no nos dice nada sobre elgrado de relación entre las
variables.
mrodriguez@ucm.cl
(UCM)
Marcelo Rodríguez G.
04/04/2011
3 / 35
Relación entre las variables
Ejemplo
Considere un estudio donde se mide el ingreso mensual (X ) y el gastos
mensual (Y ). Se considera una muestra de 10 individuos, los datos son:
0,75
14,8
18,4
1,25
1,75
2,1875
15,5
16,5
1,95
-0,15
-0,292512,5
15,2
-1,05
-1,45
1,5225
14,2
19,9
0,65
3,25
2,1125
15,7
22,1
2,15
5,45
11,7175
12,3
14,8
-1,25
-1,85
2,3125
14,2
17,3
0,65
0,65
0,4225
8,8
La covarianza sería
2,05
10,3
-4,75
-6,35
30,1625
14,6
-1,65
11,9
covxy =
16,65
55,065
9
= 6, 118.
-2,05
Suma
(xi
− x)(xi − x)17,4
13,55
(yi
− y)
Gasto (yi )
15,6
Promedio
(xi
− x)
Ingreso (xi )
1,5375
3,3825
55,065
Lo que indica es que el Ingreso
y el Gasto están relacionados, de forma directa (a medida que aumenta el
Ingreso aumenta el gasto).
mrodriguez@ucm.cl
(UCM)
Marcelo Rodríguez G.
04/04/2011
4 / 35
Grado de relación entre las variables
Coeciente decorrelación de Pearson
Denición (Correlación)
El coeciente de correlación de Pearson, indica la fuerza y la dirección de
una relación lineal entre dos variables aleatorias. Se considera que dos
variables cuantitativas están correlacionadas cuando los valores de una de
ellas varían sistemáticamente con respecto a los valores de la otra.
n
(xi − x)(yi − y )
i=1
r=
=
n
n(xi − x)2 ·
i=1
mrodriguez@ucm.cl
(UCM)
(yi − y )2
Sxy
Sxx Syy
i=1
Marcelo Rodríguez G.
04/04/2011
5 / 35
Grado de relación entre las variables
Coeciente de correlación de Pearson
Indica si los puntos tienen una tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales). Es útil para determinar si
hay relación lineal (y
= β0 + β1 ·x) entre dos variables.
Covxy . La diferencia radica en
Tiene el mismo signo que
acotado en
que
r
está
[−1, 1].
Si está cercana a -1, indica que las variables están relacionadas en
forma inversa, si está cercana a +1, la relación es directa y si está
cercana a 0, las variables no están relacionadas.
Cuanto más cerca esté
r
de
−1
o
+1
mejor será el grado de...
Regístrate para leer el documento completo.