Estadistica
Un distribuidor de cervezas está analizando el sistema de entregas de su producto; en particular, está interesado en predecir el tiempo sugerido para servir a los detallistas. El ingeniero industrial a cargo del estudio ha sugerido que los factores que influyen sobre el tiempo de entrega son el número de cajas de cervezas y la máxima distancia que debeviajar el despachador. Se tomaron muestras y se obtienen los resultados que se muestran en la tabla 1.
Número de Cajas (X1) 10 15 10 20 25 18 12 14 16 22 24 17 13 30 Distancia (X2) 30 25 40 18 22 31 26 34 29 37 20 25 27 23 Tiempo (Y) 24 27 29 31 25 33 26 28 31 39 33 30 25 42
24 33 40 Tabla 1: Número de cajas transportadas, distancia recorrida y tiempo de servicio al cliente para 15 muestras de unsistema de reparto de cerveza
Primero se explorará las relaciones entre todas las parejas de variables, en particular la relación de Y con cada una de las variables independientes. Esto lo detectaremos a través de las correlaciones y la función pairs de R, la cual produce un gráfico matricial para las variables dadas. Comandos en R: cervezas=read.table('cervezas.txt',header=T) – Cargando losdatos pairs(cervezas)
20
25
30
35
40 30
No.cajas
30
35
40
Distancia
20
25
Tiempo
25 10 15 20 25 30 25 30 35 40 30
Figura 1: Plot matricial de las variables del conjunto de datos “cervezas”
cor(cervezas) - Correlaciones No.cajas Distancia Tiempo No.cajas 1.0000000 -0.4052976 0.7246466 Distancia -0.4052976 1.0000000 0.1269032 Tiempo 0.7246466 0.12690321.0000000 los gráficos bidimensionales hacemos: plot(No.cajas,Tiempo) y
Si deseamos observar plot(Distancia,Tiempo)
35
40
10
15
20
25
40
35
Tiempo
30
Tiempo
25 10 15 20 No.cajas 25 30
25
30
35
40
20
25
30 Distancia
35
40
Figura 2: Gráficos 2D de la variable respuesta en función de las variables independientes por separado
Sepuede observar que la variable independiente “No. de cajas” (X1) es la que tiene mejor relación lineal con el tiempo de entrega, es decir, a medida que aumenta una de ellas aumenta la otra. En tanto la máxima distancia (X2) que debe recorrer el despachador no parece tener una relación lineal muy marcada para predecir el tiempo. AJUSTE DE UN MODELO
Supongamos que se decide usar un modelo de laforma: yi = β0 + β1x1i + β2 x2i +εi De manera matricial tenemos, , donde
Y: vector n x 1 de respuestas (variable dependiente) X: matriz n x p que contiene ceros, unos y/o valores de variables independientes (matriz de diseño) : vector p x 1 de parámetros : vector n x 1 de errores aleatorios
Datos:
∑ x1i = 270 ,∑ x2i = 420 , ∑ yi = 463
i =1
15
15
15
i =1
i =1
Con lo cual lasecuaciones normales (sistema de mínimos cuadrados) toman la forma
−1 ˆ β 0 15 ˆ β 0 3, 478 −0, 069 −0, 078 463 270 420 463 ˆ ˆ β1 = 270 5.364 7.347 * 8.679 ⇒ β1 = −0, 069 0, 0024 0, 001 * 8.679 ˆ ˆ β 2 420 7.347 12.308 13.027 −0, 078 0, 001 0, 002 13.027 β2
y alresolver se obtiene:
De aquí que:
Tiempo = 2,31 + 0,88 No.cajas + 0, 46 Distancia
En R usamos la instrucción: lm(Tiempo~No.cajas+Distancia) Por las propiedades de los estimadores de mínimos cuadrados, se puede considerar que
donde es el elemento de la diagonal de la matriz tenemos que
−1
que corresponde a
. En este caso
3.478 −0.069 −0.078 ( X X ) = −0.069 0.0024 0.001 −0.078 0.001 0.002
t
Ahora bien, no conocemos , de manera que si queremos obtener algún tipo de inferencia sobre el modelo necesitaremos estimarlo. El vector de errores se puede calcular a través de la siguiente expresión: La suma de errores al cuadrado la obtenemos así: .
Luego podemos calcular
(estimador insesgado de
)
3 corresponde al número de parámetros del modelo...
Regístrate para leer el documento completo.