COVARIANZA, CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE
CONCEPTO DE COVARIANZA MUESTRAL
Supongamos que se quiere establecer un paralelo entre la edad y el clearance de creatinina. Por ejemplo, se dispone de los siguientes datos:
Edad (años)
Clearance de creatinina (mL/min)
62,0
112,1
68,5
85,7
73,0
79,5
77,8
76,2
82,5
64,5
87,0
52,7
90,3
45,0
A simple vista, se aprecia quea mayor edad, el clearance de creatinina tiende a disminuir. Entonces se podría afirmar que supuestamente existe una covariación entre ambas variables.
Dado el caso, se puede definir como la variable X a aquella que explica el resultado de la otra variable. La llamaremos variable predictora (también se conoce como variable independiente)
La variable Y se define como aquella que es explicadapor la variable predictora. La llamaremos variable respuesta (también se conoce como variable dependiente).
En el ejemplo, la variable X es la edad y la variable Y es el clearance de creatinina.
Sean X e Y dos variables continuas y n pares de observaciones de una muestra evaluadas en una unidad de observación. Si e son sus respectivas medias, entonces la covarianza muestral está dada por:La covarianza muestral también se conoce como
Propiedades de la covarianza
Varía entre y , y solo permite ver una tendencia, no pudiendo cuantificar la relación que pudiera existir.
Si indica que existe una relación lineal directa, vale decir, al aumentar X aumenta Y.
Si indica que existe una relación lineal inversa, vale decir, al aumentar X disminuye Y.
Si indica ausencia derelación lineal entre X e Y.
En forma gráfica, las situaciones son las siguientes:
Ejercicio: Se utilizarán los valores de la tabla anteriormente expuesta para obtener la covarianza muestral.
Edad (años)
Clearance de creatinina (mL/min)
62,0
112,1
6950,2
68,5
85,7
5870,5
73,0
79,5
5803,5
77,8
76,25928,4
82,5
64,5
5321,3
87,0
52,7
4584,9
90,3
45,0
4063,5
Entonces (años mL/min)
La media de X es años.
La media de Y es (mL/min)
Al reemplazar los valores en la fórmula, queda:
(añosmL/min). Lo que indica una relación lineal inversa entre las variables predictora y respuesta.
COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON
El valor de la covarianza permiteverificar la existencia y el tipo de relación lineal entre dos variables, si la hubiere, pero no sirve para conocer la magnitud de la relación. En ese sentido, existe una medida que sí indica que tan intensa es esa relación, la cual se denomina Coeficiente de Correlación Lineal de Pearson, que corresponde a la siguiente expresión:
Si se desarrolla esta ecuación, se obtiene la siguiente expresiónequivalente:
El coeficiente de correlación también puede ser expresado en función de la covarianza y las respectivas desviaciones estándar:
Propiedades del coeficiente de correlación de Pearson.
varía entre
Si la relación lineal es perfecta, será 1 ó –1.
Si , indica que a medida que aumenta X, también Y aumenta.
Si , indica que a medida que aumenta X, Y disminuye.
Si , implicaausencia de correlación.
Mientras mayor sea el valor absoluto de , mayor será la correlación o fuerza de relación entre las variables.
Es importante destacar que la existencia de correlación no implica necesariamente una relación causa-efecto.
En términos muy generales:
Si , se dice que la correlación es débil.
Si , implica una correlación moderada.
Si , implica alta correlación.Al graficar cada punto observado, y según el coeficiente de correlación que está en juego, se puede apreciar lo siguiente:
Ejemplo: calcular el coeficiente de correlación lineal de Pearson que se obtiene con los valores antes dados de edad y clearance de creatinina.
Se sabe que (añosmL/min). Se calculará la desviación estándar para cada variable.
Edad (años)
Clearance...
Regístrate para leer el documento completo.