ANOVA probabilidad II
ANOVA, o análisis de varianza es un método de prueba de igualdad de tres o más medias poblacionales, por medio del análisis de las varianzas muéstrales. El ANOVA tiene varias aplicaciones, se puede utilizar en aplicaciones como:
Si tratamos un grupo con dos tabletas de aspirina diariamente, un segundo grupo con una tableta de aspirina diariamente y un tercer grupo con placebodiariamente, el posible hacer una prueba para determinar si ha y evidencia suficiente para sustentar la observación de que los tres grupos cuentan con distintos niveles medios de presión sanguínea.
Otra forma en la que se puede aplicar seria como en: Se asevera que los supermercados colocan los cereales con alto contenido de azúcar en estantes que están a la altura de los ojos de los niños, de manera queeso nos permite probar la aseveración de que los cereales en los estantes tienen el mismo contenido de azúcar.
En general conforme se incrementa el número de pruebas de significancia individuales, incrementamos la posibilidad de obtener una diferencia únicamente por el azar (en lugar de una diferencia real en las medias). El riesgo de encontrar una diferencia en uno de los pares cuando en realidadtal diferencia no existe, es demasiado alto. El método del análisis de varianza nos sirve para evitar este problema en particular (rechaza una hipótesis nula verdadera), si utilizamos una prueba de igualdad de varias medias.
Estos métodos de ANOVA requieren de la distribución F, la cual tiene las siguientes propiedades importantes:
La distribución F es no simétrica; se sesga hacia la derecha.Los valores de F pueden ser 0 o positivos, pero no negativos.
Hay una distribución F diferente para cada par de grados de libertad para el numerador y denominador.
El análisis de varianza se basa en una comparación de dos estimados diferentes de la varianza común de las distintas poblaciones.
El objetivo principal de muchos experimentos consiste en determinar el efecto que sobre
algunavariable dependiente Y tienen distintos niveles de algún factor X (variable
independiente y discreta). El factor puede ser la temperatura, la empresa que ha producido el
bien, el día de la semana, etc.
Esencialmente, el diseño para el análisis simple de la varianza consistirá en obtener muestras
aleatorias e independientes del valor de Y asociado a cada uno de los distintos niveles del
factorX1, X2,..., En . Entonces podremos determinar si los diferentes niveles del factor tienen
un efecto significativo sobre el valor de la variable dependiente.
El funcionamiento de la técnica ANOVA simple es, a grandes rasgos, el siguiente: a fin de
comparar las medias de Y asociadas a los distintos niveles del factor (X1, X2,..., Xn),
compararemos una medida de la variación entre diferentesniveles (MS-factor) con una
medida de la variación dentro de cada nivel (MS-error). Si el MS-factor es
significativamente mayor que el MS-error, concluiremos que las medias asociadas a
diferentes niveles del factor son distintas. Esto significa que el factor influye significativamente
sobre la variable dependiente Y. Si, por el contrario, el MS-factor no es significativamente
mayor que elMS-error, no rechazaremos la hipótesis nula de que todas las medias,
asociadas a diferentes niveles del factor, coinciden.
De forma similar a lo que ocurre con la regresión lineal, aquí también hay un modelo para los
datos. El modelo asociado al i-ésimo nivel del factor X será:
= µ + ε Y
i
dónde:
• Los errores ε están normalmente distribuidos con media 0
• Los errores ε son independientes
•Los errores ε tienen varianza constante σ
2
Para verificar estos supuestos suele ser útil realizar un gráfico que muestre la distribución de
las observaciones por niveles: si en el gráfico se aprecian diferencias entre niveles por lo que
a la variación de las observaciones se refiere, es muy probable que tengamos un problema
con el supuesto de varianza constante; si aparecen “outliers”,...
Regístrate para leer el documento completo.