Estadística
1.
Para un determinado empleado de una empresa de consultoría, se ha determinado el tiempo
que invierte en elaborar una serie de informes que incluyen un cierto número de operaciones
económicas, mostrando los resultados obtenidos en la tabla que se adjunta a continuación:
Número de operaciones 1 2 4 5 7
1,5 2 3,2 2,5 1,3
Tiempo en horas
a) Obtener un modelode regresión que explique el tiempo invertido en función del número de
operaciones analizadas que incluye el informe.
Número de operaciones Tiempo en horas
XY X2 Y 2
X
Y
1,5 1 2,25
1
1,5
44
4
2
2
12,8 16 10,24
4
3,2
12,5 25 6,25
5
2,5
9,1 49 1,69
7
1,3
19
10,5
Medias Varianzas Desviaciones
X
3,8
K
2,135 S xy
4,56
h
2,1
0,476
i
X Yj Y nij
N
X i Y j nij
h
0,69
X
Covarianza
i 1 j 1
K
Y
39,9 95 24,43
N
i 1 j 1
XY
39,9
3,8 * 2,1 0
5
La covarianza es igual a 0. Si dos variables son estadísticamente independientes, su covarianza
es igual a 0. Sin embargo, su recíproco no es cierto:
Existen variables que no son estadísticamente independientes y sinembargo su covarianza es
nula.
S xy
Al obtener el coeficiente de correlación lineal, r
SxS y
, como el numerador es 0, el coeficiente
de correlación lineal es igual a 0. Concluimos que no hay relación lineal entre las dos variables.
Esto se puede comprobar muy bien viendo el diagrama de puntos que resulta:
Regresión
3,5
3
Horas
2,5
2
Regresión
1,5
1
0,5
0
0
2
46
8
Nº operaciones
Sin embargo, puede haber otro tipo de ajuste que relacione a las dos variables.
Probemos con un ajuste parabólico Y = a+bX+cX2:
1
X3
X4
Y XY X2 Y 2
1
1
1,5 1,5 1 2,25
44
4
8
16
2
3,2 12,8 16 10,24 64 256
2,5 12,5 25 6,25 125 625
1,3 9,1 49 1,69 343 2401
X2Y
1,5
8
51,2
62,5
63,7
19 10,5 39,9 95 24,43 541 3299 186,9
X
1
2
4
5
7Mediante un ajuste mínimo cuadrático las ecuaciones para obtener los parámetros a, b y c son:
k
h
y
k
k
j
Na b
i 1 j 1
h
x y
j
a
2
i yj
a
i
i 1 j 1
k
h
x
i 1 j 1
h
x
i 1 j 1
k
k
i
c
h
x
i 1 j 1
k
xi b
x i2 c
i 1 j 1
i 1
k
h
k
x i2 b
x i3 c
i 1 j 1
i 1h
10,5 5a 19b 95c
h
3
x i 39,9 19a 95b 541c
186,9 95a 541b 3299c
j 1
h
4
xi
j 1
2
i
Obsérvese que no aparecen las frecuencias absolutas conjuntas, nij, ya que cada par de valores
sólo se repite una vez.
Para su resolución lo más fácil es utilizar el método de Cramer:
a
A1
b
A
A2
Ac
A3
A
5
donde
19
95
A 19
95
541 8316
95 541 3299
10,5 19
95
A1
A1 39,9 95 541 1663 a
0,2
A
186,9 541 3299
5 10,5
95
A2
A2 19 39,9 541 11340 b
1,3636
A
95 186,9 3299
5
19
10,5
A3 19
95
39,9 1436,4 c
95 541 186,9
A3
A
0,1727
Por tanto, la ecuación del modelo será:
Modelo parabólico: Yt =0,2+1,36X-0,173 X2: Ajuste parabólico
Para obtener el coeficiente de determinación de la parábola hay que obtener los valores teóricos
de la variable dependiente, Y. Esto se hace sustituyendo en las ecuaciones la variable
independiente, X, por sus valores reales en la ecuación de la parábola. Posteriormente, se calcula
la varianza residual. Los cálculos necesarios son los siguientes:
Yreal Y parabola (Yi-Y parábola)2
1,5
1,391
0,012
2
2,236
0,056
3,2
2,891
0,096
2,5
2,700
0,040
1,3
1,282
0,000
0,204
2
La varianza residual es:
2
2 N Yi Yt 0,204 0,0407
Sr
N
5
i 1
El coeficiente de determinación es:
R2
parábola 1
0,0407
0,914
0,476
Por tanto, la dispersión explicada por el modelo parabólico es de 91,4%, frente...
Regístrate para leer el documento completo.