Estadistica
El An´lisis de Varianza a
Objetivo: Explicar (controlar) las variaciones de una v.a. Y continua (num´rica), mediante factores (variables cualitativas que definen categor´ e ıas) que controlamos (no aleatorios). Este an´lisis permite poner en evidencia a eventuales relaciones entre Y y estos factores.
1.1
1.1.1
An´lisis con un solo factor a
Un ejemplo
Queremos estudiar lainfluencia de la operadora sobre el importe de nuestra factura anual de tel´fono (Y ). e Denotamos: m1 el valor medio de Y con la operadora 1. m2 el valor medio de Y con la operadora 2. m3 el valor medio de Y con la operadora 3. PREGUNTA: ¿ m1 = m2 = m3 ?Disponemos de datos que corresponden al gasto anual de tel´fono en Euros (Y ) de 15 clientes: e Operadora 1 Operadora 2 Operadora 3 750 800 950 800 850 850810 880 820 815 890 900 815 900 820 Medias 798 864 868 Vocabulario:
• Y =”Gasto anual de tel´fono” es una variable cuantitativa. e • La Operadora es una variable cualitativa con la cual queremos explicar las variaciones de Y : un factor. 1
• Los factores tienen un cierto n´mero de niveles. El factor Operadora u tiene aqu´ 3 niveles. ı Notaciones:
• yij valor observado de Y para el jesimo cliente de la iesima operadora, i = 1, . . . , I, j = 1, . . . , ni = 5; y13 = 810. • y i• media observada de Y para la iesima operadora; y 2• = 864. • y •• media global observada de Y (media de las medias); y •• = 1 (y 1• + y 2• + y 3• ) = 3 843.3. Indicios para medir la variabilidad: Variabilidad explicada por el factor:
I
VE =
i=1
ni (y i• − y •• )2
Variabilidad no explicada:
Ini
V NE =
i=1 j=1
(yij − y i• )2
Descomposici´n de la variabilidad total: o
I ni
VT =
i=1 j=1
(yij − y •• )2
= V E + V NE Con los datos precedentes, obtenemos los valores V E = 22230, V N E = 15453.33 V T = 22230 + 15453.33 = 37683.33
2
1.1.2
El Modelo
Para contestar a nuestra pregunta (¿m1 = m2 = m3 ?) consideramos que cada dato observado yij es igual al valormedio en el nivel del factor que le corresponde (mi ) m´s una desviaci´n aleatoria εij (o perturbaci´n) respecto a o o a este valor medio: Para i = 1, . . . , I y j = 1, . . . , ni tenemos yij = mi + εij Supondremos que las desviaciones εij = yij − mi , verifican las hip´tesis siguo ientes: • Las desviaciones est´n centradas: E(εij ) = 0, para cualquier i, j. a • Homocedasticidad: Var(εij ) = σ 2 ,para cualquier i, j. • No correlaci´n: E(εij εik ) = 0, para cualquier i, j, k. o • Normalidad: εij tiene una distribuci´n normal, para cualquier i, j. o Otra formulaci´n del modelo: o yij = µ + αi + εij , donde • µ=
1 n I i=1
ni mi es el efecto global (o medio).
• αi = mi − µ es el efecto del iesimo nivel del factor. • Necesariamente
i
ni αi = 0.
Con esta nueva formulaci´n nuestrapregunta se puede escribir: o ¿α1 = α2 = α3 = 0?
3
1.1.3
Estimaci´n de los par´metros del modelo o a
El modelo depende de I + 1 par´metros: Las I medias mi , y la varianza a 2 com´n σ . u Para estimar estos par´metros utilizamos el criterio de m´ a ınimos cuadrados (minimizar las desviaciones): Para cada i = 1, . . . , I,
ni
mi valor de mi que m´ ınimiza
j=1
(yij − mi )2 ,Obtenemos: • mi = y i• Deducimos que • µ = y •• • αi = mi − µ = y i• − y •• (en el ejemplo: α1 = −45.33 y α2 = 20.66) Propiedad de los estimadores: Bajo las hip´tesis del modelo, tenemos o o que mi = y i• sigue una distribuci´n normal N mi , σ i . n Prueba: • E(y i• ) =E
1 ni 1 ni ni j=1
2
yij =
ni j=1
1 ni
ni j=1 E(yij ) 1 n2 i
= mi =
σ2 ni
• var(y i• ) =var
yij =
ni j=1var(yij )
• y i• es una combinaci´n lineal de variables normales, por tanto es tambi´n o e normal. Deducimos que µ sigue una normal N (µ, σ ) y αi una normal N αi , (I−1) σ 2 . n n
2
4
Estimaci´n de los residuos: Las desviaciones observadas eij (residuos o del modelo) se calculan por: eij = yij − mi = yij − y i• Por tanto, tenemos que
I
VE =
i=1 I
ni α 2 i
ni
V NE =
i=1...
Regístrate para leer el documento completo.