Anova

7
4.1. ¿Qué es el análisis de varianza? Definición, aplicación, usos, ventajas, desventajas. El análisis de varianza (ANOVA) es un método de prueba de igualdad de tres o más medias poblacionales, por medio del análisis de las varianzas muestrales. El análisis de variancia es una técnica que se puede utilizar para decidir si las medias de dos o más poblaciones son iguales. La prueba se basa en una muestra única, obtenida a partir de cada población. El análisis de variancia puede servir para determinar si las diferencias entre las medias muestrales revelan las verdaderas diferencias entre los valores medios de cada una de las poblaciones, o si las diferencias entre los valores medios de la muestra son más indicativas de una variabilidad de muestreo. Cuando es necesario hacer comparaciones entre tres o más medias muestrales para determinar si provienen de poblaciones iguales utilizamos la técnica de análisis de variancia. Esta técnica se realiza utilizando la distribución de probabilidad. El análisis de la variancia tiene amplia aplicación en el análisis de datos derivados de experimentos. Esta técnica se utiliza para cumplir dos objetivos: 1) Estimar y probar hipótesis respecto a las variancias de las poblaciones. 2) Estimar y probar hipótesis respecto a las medias de las poblaciones. 3) Existen muchas aplicaciones de las técnicas de Análisis de la Variancia que son importantes para el mundo de los negocios. Cuando el valor promedio de alguna variable se compara con tres o más poblaciones, las conclusiones que

Transcript of Anova

Page 1: Anova

4.1. ¿Qué es el análisis de varianza? Definición, aplicación, usos, ventajas, desventajas.

El análisis de varianza (ANOVA) es un método de prueba de igualdad de tres o más medias poblacionales, por medio del análisis de las varianzas muestrales.

El análisis de variancia es una técnica que se puede utilizar para decidir si las medias de dos o más poblaciones son iguales. La prueba se basa en una muestra única, obtenida a partir de cada población. El análisis de variancia puede servir para determinar si las diferencias entre las medias muestrales revelan las verdaderas diferencias entre los valores medios de cada una de las poblaciones, o si las diferencias entre los valores medios de la muestra son más indicativas de una variabilidad de muestreo.

Cuando es necesario hacer comparaciones entre tres o más medias muestrales para determinar si provienen de poblaciones iguales utilizamos la técnica de análisis de variancia. Esta técnica se realiza utilizando la distribución de probabilidad.

El análisis de la variancia tiene amplia aplicación en el análisis de datos derivados de experimentos. Esta técnica se utiliza para cumplir dos objetivos:

1) Estimar y probar hipótesis respecto a las variancias de las poblaciones.

2) Estimar y probar hipótesis respecto a las medias de las poblaciones.

3) Existen muchas aplicaciones de las técnicas de Análisis de la Variancia que son importantes para el mundo de los negocios. Cuando el valor promedio de alguna variable se compara con tres o más poblaciones, las conclusiones que resultan de un estudio de Variancia pueden ser muy útiles para el administrador. Con frecuencia se modifican las variables de producción para determinar que combinación lleva al proceso de manufactura óptimo.

4.2. Lógica básica del análisis de varianza

4.2.1. Estimación de la varianza poblacional a partir de la variación dentro de cada muestra.

El método dentro de estimación de la varianza produce una estimación válida sin importar si la hipótesis nula de las medias poblacionales iguales es cierta. Esto se debe a que la variabilidad de los valores de la muestra se determina comparando cada elemento en los datos con la media muestral. Cada valor de la muestra obtenido de la población A se compara con la media muestral A; cada elemento

Page 2: Anova

obtenido de la población B se compara con la media muestral B, y así sucesivamente

4.2.2. Estimación de la varianza poblacional a partir de la variación entre las medias muestrales.

El segundo método para estimar la varianza común de la población produce una estimación válida sólo si la hipótesis nula es cierta. Para entender el método entre recuerde el teorema del límite central. Este importante teorema en estadística establece que la distribución de las medias muestrales tiende a una distribución normal conforme crece el tamaño de la muestra, con una media y una desviación estándar n. Si el error estándar de la media es n, entonces la varianza de la distribución es igual al error estándar al cuadrado. Esta varianza es una medida de las diferencias entre todas las medias muestrales que puedan obtenerse de la distribución y la media de la población. La raíz cuadrada de esta varianza es el error estándar de la media, es decir, la diferencia estándar entre una media muestral y la media poblacional.

En ANOVA, para estimar la varianza de la distribución muestral de medias, se debe estimar primero la mdia poblacional. La media de todos los valores muestrales proporciona esa estimación. Después, se determina la diferencia entre la media de cada grupo y esta media poblacional estimada, y estas diferencias se elevan al cuadrado y se suman.

4.2.3. Comparación de las estimaciones de la varianza.

Una vez que se ha usado el método dentro y entre, para estimar la varianza desconocida de las poblaciones, se forma un cociente con estas dos estimaciones.

Si la hipótesis nula es cierta, tanto el numerador como el denominador de la ecuación son estimaciones válidas de la varianza común de las poblaciones que se estudian. Este cociente se ajusta a la distribución F. Si la hipótesis nula es falsa el numerador de la ecuación en realidad es una estimación inflada de 2; el denominador sigue siendo una estimación válida. Bajo estas condiciones, el valor F será muy grande, y se puede concluir que la hipótesis nula es falsa. La figura que mostramos a continuación presenta la distribución muestral para la prueba ANOVA junto con las regiones de aceptación y rechazo.

La siguiente figura ilustra el paso final de la prueba de hipótesis ANOVA. Si la hipótesis nula de medias poblacionales iguales es cierta, el estadístico F calculado se obtuvo de esta distribución; esto parece razonable siempre que el valor F no sea demasiado grande. De los datos muestrales resulta un valor F muy grande, se

Page 3: Anova

concluye que medias poblacionales diferentes son las causas de que el numerador en el cálculo de F esté inflado, y la hipótesis nula se rechaza. En la figura siguiente se puede observar que alfa, la probabilidad de un error tipo I se indica en la cola superior. Si la hipótesis nula es en realidad cierta existe alguna posibilidad de que equivocadamente se declare falsa. La probabilidad de que esto ocurra es alfa, es decir, el nivel de significancia de la prueba.

4.3. Supuestos del análisis de varianza.

Las poblaciones tienen distribuciones que son aproximadamente normales. (Este requisito no es demasiado estricto, ya que el método funciona bien, a menos que la población tenga una distribución muy diferente de la normal. Si una población tiene una distribución muy diferente a la normal, utilice la prueba de Kruskal-Wallis.

Las poblaciones tienen la misma varianza s2(o desviación estándar s). (Este requisito no es demasiado estricto, ya que el método funciona bien, a menos que las varianzas poblacionales difieran en grandes cantidades. El estadístico de la Universidad de Wisconsin, George E. P. Box demostró que, siempre y cuando los tamaños muestrales sean iguales [o casi iguales], las varianzas llegan a diferir de tal forma que la más grande es nueve veces el tamaño de la más pequeña, en tanto que los resultados del ANOVA seguirán siendo esencialmente confiables).

Las muestras son aleatorias simples (es decir, muestras del mismo tamaño que tienen la misma probabilidad de ser elegidas).

Las muestras son independientes entre sí. (Las muestras no están aparejadas ni asociadas de ninguna forma).

Page 4: Anova

Las diferentes muestras provienen de poblaciones que se categorizaron de una sola forma. (De ahí el nombre del método: análisis de varianza de un factor).

Tenga cuidado al interpretar los resultados: Cuando concluimos que hay suficiente evidencia para rechazar la aseveración de medias poblacionales iguales, no podemos concluir a partir del ANOVA que cualquier media en particular es distinta de las demás. (Existen otras pruebas que permiten identificar las medias específicas, que son diferentes. Dichas pruebas se conocen como procedimientos de comparación múltiple. La comparación de intervalos de confianza, la prueba de Scheffé, la prueba de Tukey extendida y la prueba de Bonferroni son procedimientos de comparación múltiple comunes).

Page 5: Anova