Estadistica
Lección 3. Análisis conjunto de dos variables
Estadística I
1
Lección 3. Análisis conjunto de dos variables
3.1 Presentación de los datos 3.2 Distribuciones de frecuencias asociadas a una distribución bidimensional. Independencia estadística. 3.3 Medidas de asociación lineal: Covarianza y coeficiente de correlación lineal 3.4 Regresión lineal.
2
Pilar LópezESTADÍSTICA I
3.1 Presentación de los datos
3
Tabla doble entrada
Consideremos una población de N elementos, donde cada uno de ellos presenta dos caracteres que estudiaremos conjuntamente, X e Y
x1 x2 xi xk
n• j
y1 y2 ... n11 n12 ... n21 n22 ... ni1 ni2
...
yj n1j n2j nij nkj
n• j
... ... ... ... ... ...
yp n1p n2p nip nkp
n• p
n i•
n1• n 2•
n i•
nk1 nk2 ... n •1 n•2 ...
nk•
N
4
Pilar López
ESTADÍSTICA I
Ejercicio- Tabla doble entrada
Tenemos dos variables que son: número de hijos de una familia (X) y kilómetros de distancia entre el trabajo y el domicilio familiar (Y). Los datos corresponden a 63 familias:
x
y
0 1 2
1 24 6 4
3 8 1 2
5 4 2 12
Se pide: a. Distribuciones marginales b. Media y varianza de las distribucionesmarginales
5
Ejercicio- Tabla doble entrada
a. Marginales
y
x
0 1 2
n• j
1 24 6 4 34
3 8 1 2 11
5 4 2 12 18
n i•
36 9 18 63
6
Pilar López
ESTADÍSTICA I
Ejercicio- Tabla doble entrada
b.
xi n i• x i n i• x i2 ni•
yj
n• j
2 y jn • j y j n • j
0 1 2
36 9 18
0 9 36 45
0 9 72 81
S =
2 x
1 3 5
34 11 18
34 33 90 157
34 99450 583
x=
∑xn
i
i i•
N
45 = = 0.7143 63
157 = = 2.4921 63
∑x n
i
2 i i•
N
−x =
2
81 − 0.71432 = 0.7755 63
583 − 2.49212 = 3.0436 63
7
∑y n
y=
j
j •j
N
2 Sy =
∑y n
i
2 j •j
N
−y =
2
3.2 Distribuciones de frecuencias asociadas a una distribución bidimensional. Independencia estadística.
8
Pilar López
ESTADÍSTICA ICovariación-Casos
• • • • Dependencia causal unilateral x y Interdependencia x y Dependencia indirecta z x z y Covariación casual
9
3.3 Medidas de asociación lineal: Covarianza y coeficiente de correlación lineal
10
Pilar López
ESTADÍSTICA I
Diagramas de dispersión
No hay relación
Relación lineal directa
Relación lineal inversa
Relación no lineal
11
Diagrama dedispersión
II
y
I
III
x
IV
zona I zona II ( xi − x )( y j − y ) = zona III zona IV
+ - + -
12
Pilar López
ESTADÍSTICA I
Covarianza-Definición
Es una medida numérica de la variación conjunta de dos variables
S xy =
∑∑ (x
i j
i
− x y j − y nij N
)(
)
Si, como es habitual, nij = 1, la fórmula sería:
S xy =
∑ (x
i
i
−x yi − y N
)(
)
Interpretación: Sxy > 0 La covariación entre X e Y es positiva o directa Sxy = 0 No existe covariación lineal entre X e Y Sxy < 0 La covariación entre X e Y es negativa o inversa
13
Covarianza-Fórmula de cálculo
∑x y
i i
S xy =
i
N
− xy
14
Pilar López
ESTADÍSTICA I
Covarianza- cambios de origen y escala
- Los cambios de origen no afectan ala covarianza
x′ = x + a S x′y′ = S xy y′ = y + b
- Cambio de escala en ambas variables
x′ = ax y ′ = by S x′y′ = abS xy
15
Covarianza- cambios de origen y escala
- Cambio de escala en x
x′ = ax S x′y = aS xy
- Cambio de escala en y
y′ = by S x′y′ = bS xy
16
Pilar López
ESTADÍSTICA I
Coeficiente de correlación lineal
r= S xy Sx S y
17
Coeficiente de correlaciónlineal Interpretación
Se puede demostrar que:
0 ≤ r ≤1
Interpreta ción : • r = −1 Correlación lineal perfecta e inversa o negativa •r =1 Correlación lineal perfecta y directa o positiva •r = 0 No existe correlació n de tipo lineal • r ≈1 • r ≈0 Correlación lineal fuerte Correlación lineal débil
18
Pilar López
ESTADÍSTICA I
3.4 Regresión lineal.
19
Regresión y = y* + e...
Regístrate para leer el documento completo.