Correlación y regresión 1
y regresión
Universidad de Puerto Rico en Ponce
Departamento de Matemáticas
MATE 3015 Estadística elemental
Dra. María de L. Zayas Torres
maria.zayas@upr.edu
Definiciones
La correlación es un método estadístico que se
emplea para determinar si existe o no una
relación entre variables.
La regresión es una técnica estadística usada
para describir la naturalezade la relación entre
las variables.
Diagrama de dispersión (scatter plot)
• Representación gráfica de los datos pareados
(x , y) en el sistema de coordenadas.
• Es la forma más sencilla de percatarnos si
existe una relación entre dos variables.
Ejemplo
Trace el diagrama de dispersión de las horas semanales
dedicadas al estudio de la clase de matemática y la
nota final del curso de 6 estudiantestomados al azar.
Estudiante
Horas
nota
Julia
10
93
Carlos
3
57
Luis
7
85
María
12
98
Javier
5
79
Carmen
4
68
Horas dedicadas al estudio de MATE y Calificación
obtenida
120
100
Calificación
80
60
40
20
0
0
2
4
6
8
Horas
10
12
14
Ejemplo
Trace el diagrama de dispersión del número de
ausencias durante el semestre y la nota final del
curso de 7 estudiantestomados al azar.
Estudiante
Ausencias
nota
Gladys
15
40
Luisa
6
75
Mirta
5
86
Eddie
2
86
Anita
9
73
Nereida
12
56
Poly
3
96
Número de ausencias durante el semester y Calificación
obtenida
120
100
Calificación
80
60
40
20
0
0
2
4
6
8
Ausencias
10
12
14
16
Definición
El coeficiente de correlación lineal r mide la fuerza de la
relación lineal entre los valorescuantitativos pareados x y y en
una muestra. [El coeficiente de correlación lineal también se
conoce como coeficiente de correlación producto momento de
Pearson, en honor de Karl Pearson (1857-1936), quien lo
desarrolló originalmente]
Definición (continuación)
Puesto que el coeficiente de correlación lineal r se calcula
utilizando los datos muestrales, se trata de un estadístico
muestralempleado para medir la fuerza de la correlación entre
x y y. Si tuviéramos cada par de los valores poblacionales de x y
y, el resultado del coeficiente sería un parámetro poblacional,
representado por 𝜌 (rho griega).
Coeficiente de correlación lineal
𝑟=
𝑥−𝑥 𝑦−𝑦
𝑛 − 1 𝑆𝑥 𝑆𝑦
Fórmula computacional
𝑟=
𝑆𝑆 𝑥 =
𝑆𝑆 𝑥𝑦 =
𝑥 2-
𝑥𝑦-
𝑆𝑆 𝑥𝑦
𝑆𝑆 𝑥 𝑆𝑆(𝑦)
𝑥 2
𝑛
𝑥 𝑦
𝑛
𝑆𝑆 𝑦 =
𝑦2-
𝑦 2
𝑛
Notación para elcoeficiente de correlación
lineal
n - representa el número de pares de datos presentes.
∑ - denota la suma de los elementos indicados.
∑x – denota la suma de todos los valores de x.
∑x2 – indica que cada valor de x debe elevarse al cuadrado y después debe sumarse
esos cuadrados
(∑x) 2 – indica que los valores de x deben sumarse y el total elevarse al cuadrado.
Es sumamente importante evitarconfundirse entre ∑x2 y (∑x) 2
∑xy – indica que cada valor de x debe multiplicarse primero por su valor y
correspondiente. Después de obtener todos esos productos, se calcula la suma.
r – representa el coeficiente de correlación de lineal de una muestra.
p – la letra giega rho se usa para representar el coeficiente de correlación lineal de
una población.
Ejemplo de cálculo de r
Estudiante
Horas
xNota
y
𝑥𝑦
𝒙𝟐
𝒚𝟐
Julia
10
93
930
100
8649
Carlos
3
57
171
9
3249
Luis
7
85
595
49
7225
María
12
98
1176
144
9604
Javier
5
79
395
25
6241
Carmen
4
68
272
16
4624
n=6
∑x=41
∑y=480
∑𝑥𝑦=3539
∑𝑥 2 =343
∑𝑦 2 =39592
Cómputos
𝑆𝑆 𝑥 =
𝑆𝑆 𝑦 =
𝑥 2-
𝑥 2
𝑛
= 62.83
𝑦2-
𝑦 2
𝑛
= 1,192
𝑆𝑆 𝑥𝑦 =
𝑟=
𝑥𝑦-
𝑆𝑆 𝑥𝑦
𝑆𝑆 𝑥 𝑆𝑆(𝑦)
=
𝑥 𝑦
𝑛
=259
259
62.83 1192
= 0.946Fórmula
63539 41480
1554
r
0.946
6343 41639592 480 1642.04
Interpretación del coeficiente de
correlación lineal
Necesitamos interpretar un valor calculado de r, tal
como el valor de 0.946 obtenido en el ejemplo
anterior.
Dada la manera en que la fórmula está construida,
el valor de r siempre debe estar entre -1 y +1,
inclusive.
Si r se acerca a 0, concluimos que...
Regístrate para leer el documento completo.