nada

63
Unidad 3: La prueba CHI- CUADRADO y el Análisis de la Varianza. Sesiones: 11, 12, 13, 14, 15, 16, 17, 18, 19 y 20 Estadística Aplicada a la Administración

description

musica

Transcript of nada

  • Unidad 3: La prueba CHI- CUADRADO y el Anlisis de la Varianza.

    Sesiones: 11, 12, 13, 14, 15, 16, 17, 18, 19 y 20

    Estadstica Aplicada a la Administracin

  • El anlisis de la varianza (ANOVA) es una potente herramienta estadstica, de

    gran utilidad tanto en la industria, para el control de procesos, como en el

    laboratorio de anlisis, para el control de mtodos analticos.

    La ANOVA es un test estadstico paramtrico que analiza la varianza de tus

    muestras.

    Se utiliza para comparar las medias de tres o mas grupos (3, 4,5, 6...).

    Para comparar 2 grupos se utilizara la el test T.

    Tanto ANOVA como t-student son dos mtodos estadsticos buenos para ver si

    hay diferencias significativas entre la media de dos grupos. La nica diferencia

    que creo que existe es que ANOVA se utiliza cuando hay mas de tres grupos y t

    - student cuando solo hay 2 grupos que comparar.

    Para que es til el ANOVA?

  • Por qu no evitar hacer t- tests en vez de

    hacer un simple ANOVA?

    El hacer mltiples t tests es que aumentaramos nuestro error tpico I ( riesgo ) y eso se evita por lo tanto utilizando el ANOVA.

  • ANOVA de Una Va

    Esta modalidad de ANOVA puede sintetizarse en un diseo experimental, en donde se analiza un (1) factor, en mltiples niveles. Tpicamente, se llama a los niveles del factor tratamientos. De forma estricta, la ANOVA de Una Va es un OFAT. Su utilidad es de gran valor, tanto en la prctica como en el ejercicio conceptual.

  • ANOVA de Dos Vas

    Esta modalidad de ANOVA tiene la propiedad de poder incorporar dos , factores, cada uno con a cantidad de niveles. La ANOVA de Dos Vas no es un OFAT (one-factor-at-A-Time), y es un modelo experimental ms complejo. La ANOVA de dos vas, permite entender el efecto del factor A, el factor B, adems de su interaccin AB, lo que la convierte en una herramienta muy poderosa. Igualmente, es un diseo experimental de amplia utilidad prctica.

  • Por ejemplo usaras una ANOVA si compararas tres clases de

    alumnos en una escuela (Primero A, B y C) respecto a sus notas

    finales (cada alumno tiene una nota final sobre 10).

    Imagina que cada clase tiene 25 alumnos, cada uno con su

    nota. Se podra hacer una media de los 25 alumnos y obtendras

    un valor medio.

    La ANOVA comparara las medias de las tres clases. Te da un

    valor de significancia, de cuan diferentes son las tres clases. Se

    considera que la diferencia es significativa cuando el valor de

    significancia (P) es menor a 0.05.

  • Para utilizar el ANOVA de forma satisfactoria deben cumplirse tres tipos de hiptesis, aunque se aceptan ligeras desviaciones de las

    condiciones ideales: 1. Cada conjunto de datos debe ser independiente del resto. 2. Los resultados obtenidos para cada conjunto deben seguir una distribucin

    normal. 3. Las varianzas de cada conjunto de datos no deben diferir de forma significativa. La distribucin F tambin se usa para probar la igualdad de ms de dos medias con la tcnica llamada anlisis de variancia

    (ANOVA).

  • Procedimiento de anlisis de varianza:

    Hiptesis nula: las medias de las poblaciones son

    iguales. Hiptesis alterna: al menos una de las medias es

    diferente.

    Estadstico de prueba: F = (variancia entre

    muestras)/(variancia dentro de muestras).

    Regla de decisin: para un nivel de significancia a, la hiptesis nula se rechaza si F (calculada) es

    mayor que F (en tablas) con grados de libertad en el numerador y en el denominador.r

  • Caracterstica de la Distribucin F de

    Fisher

    1. Existe una familia de distribuciones F . La familia queda determinado

    por 2 parmetros : Grado de libertad en el numerador y grado de

    libertad en el denominador.

    2. La distribucin F es continua. Puede tomar una cantidad infinita de

    valores entre cero y ms infinito.

    3. La distribucin F no puede ser negativa. El menor valor que puede

    asumir es cero.

    4. La distribucin F es positivamente sesgada: La cola larga de la

    distribucin se encuentra a la derecha, conforme el nmero de

    grados de libertad aumenta. La distribucin se aproxima a la

    distribucin normal.

    5. La distribucin F es asntota, conforme a los valores de X aumentan

    la curva de la distribucin F se aproxima a X pero nunca la toca.

  • Modelo de Distribucin F de Fisher

  • Manejo de la Tabla de Fisher

  • Supuestos del ANOVA

    1. Observaciones Independientes.

    2. Varianzas Homogneas de los

    residuos.

    3. Distribucin Normal de los

    residuos.

  • 1.- Independencia de las

    Observaciones

    Con el fin de obtener inferencias vlidas, resulta

    importante determinar si los errores se encuentran

    correlacionados.

    El supuesto ms importante es la independencia de

    las observaciones, pues si no hubo asignacin

    aleatoria de tratamientos a unidades experimentales,

    entonces los resultados pueden incluir un efecto

    persistente de factores no considerados en el

    anlisis.

    Esto invalida el experimento

  • Comparacin de 2 Variables Poblacionales

    La distribucin F se utiliza para probar la Hiptesis de que la

    Varianza de una poblacin normal es igual a la varianza de otra

    poblacin normal.

    La distribucin F tambin se utiliza para validar los supuestos para

    alguna pruebas estadsticas.

    Se tiene que demostrar que:

    Si se tiene una poblacin P y de ella se sacan dos muestras random

    (aleatorio) , se tiene que demostrar que estas dos muestra son

    iguales o no son iguales. Este paso es una tarea de investigacin y

    de anlisis.

  • Grados de Libertad

  • Aplicacin

    Supongamos que estamos haciendo un estudio estadstico

    acerca de medir dos rutas exactas para ir de un lugar a otro y lo

    hacemos por diferentes vas y por lo tanto tambin tendremos

    diferentes tiempos. Por la Ruta # 1 tengo valores en minutos y

    por la Ruta # 2 tambin tengo valores en minutos . Utilizando un

    nivel de significancia de 0.10 existe alguna diferencia en la

    variacin de los tiempos de recorrido por ambas rutas? Todo

    esto se muestra en la siguiente tabla:

    X Y

    Ruta # 1

    Ruta # 2

    Comparacin de 2 Varianzas Poblacionales

  • Todo esto se muestra en la siguiente tabla:

    Ruta # 1 Ruta # 2

    52 59

    67 60

    56 61

    45 51

    70 56

    54 63

    64 57

    65

    Asumir un Nivel de Significancia del 0.10

  • Solucin:

    Clculos adicionales:

    Ruta # 1 Ruta # 2

    52 59

    67 60

    56 61

    45 51

    70 56

    54 63

    64 57

    65

    408 472

    Clculo de la las Medias:

    1

    40858.29

    7X

    2

    47259.00

    8X

  • Clculo de las Desviaciones Standard:

    Ruta # 1 ( X1 )

    Ruta # 2 ( X2 )

    52 59 2704 3481

    67 60 4489 3600

    56 61 3136 3721

    45 51 2025 2601

    70 56 4900 3136

    54 63 2916 3969

    64 57 4096 3249

    65 4225

    408 472 24.266 27.982

    2

    1X2

    2X

  • Para Ruta # 1:

    2(408)24266

    7 8,9977 1

    18,997x

    Frmula :

    Clculo de las Desviaciones Standard:

  • Para Ruta # 2 :

    2

    2(472)27982

    8 4,3758 1

    x

    24,375x

  • Pasos : los usados en Hiptesis

    1er Paso: Formulacin de las Hiptesis Nula y Alternativa

    Ho :

    H1 :

    2 2

    1 2

    2 2

    2 2

    2do. Paso : Se elige el Nivel de Significancia ; para

    nuestro caso:

    = 0.10

  • 3er Paso : Se establece el estadstico de prueba.

    Para este caso el la Distribucin de FISHER ( F )

    4to. Paso : Calculo del valor crtico o tabla de FISHER (F)

    previo clculo de los respectivos grados de libertad.

    Como se esta realizando una prueba de dos colas el

    nivel de significancia que se busca en la tabla es de

    0.05 que se obtiene de : / 2 = 0.10 / 2 = 0.05

    Continuacin////

  • Calculando los Grados de Libertad:

    gl= n - 1

    gl1 = 7 1 = 6 en el numerador (Ruta # 1)

    gl2 = 8 1 = 7 en el denominador ( Ruta # 2 )

    (grado de libertad)

    Se debe revisar la tabla de la Distribucin F y as

    podremos encontrar el valor de F(tab=Crtica) = 3.87

    As, la regla de decisin es : si la razn de las varianzas

    es mayor que 3.87, se rechaza la hiptesis nula.

  • gl2

    gl1

    Ftab

    numerador

    d

    e

    n

    o

    m

    i

    n

    a

    d

    o

    r

    Segn tabla de Distribucin de Fisher ,

    tenemos :

  • Fisher Calculada (Fcal ) :

    2 2

    1

    2 2

    2

    (8,997) 80,9464,2289 4,23

    (4,375) 19,141cal

    SF

    S

    Pero: Fcal > Ftab

    4,23 > 3,87

    Conclusin: Se rechaza la Ho y se acepta la H1

    Interpretacin: La ruta # 2 parece haber tenido mayor

    congestin por mayor trfico , mayor semforos , etc., que

    han dado mayor dificultad para trasladarse de X a Y.

    5to. Paso : Clculo de Fcal y tomar decisin final

  • ANOVA

  • Suposiciones para el ANOVA

    Otro uso para la Distribucin de F de Fisher es la tcnica

    del anlisis de la Varianza ANOVA con las que se comparten tres ms medias poblacionales para

    determinar si son iguales.

    Tambin se debe cumplir los siguientes parmetros:

    1. Las poblaciones estn distribuidas normalmente.

    2. Las poblaciones tienen desviaciones standards iguales.

    3. Las muestras se seleccionan independientemente.

    Anlisis de la Varianza

    ( ANVA ANOVA )

  • Prueba ANOVA

    La estrategia es calcular la varianza poblacional

    (desviacin standard al cuadrado) en dos formas y despus

    encontrar la razn de esas dos estimaciones.

    Si esta razn es aproximadamente igual a , entonces las

    dos estimaciones son iguales, y se concluye tambin que

    las medias poblacionales son iguales, caso contrario se

    rechazaran.

  • Aplicacin:

    Un profesor del curso de Mercadotecnia pidi a los alumnos de uno de

    sus grupos que evaluarn su desempeo como excelente, bueno,

    regular, o deficiente. Un estudiante egresado recopil las evaluaciones y

    asegur a los estudiantes que el profesor los recibira hasta que las

    calificaciones del curso se hubieran enviado a la oficina de registros. La

    evaluacin (es decir, el tratamiento) que cada alumno asign al profesor

    se compar con la calificacin, que poda ir de 0 a 100, que obtuvo el

    estudiante en el curso. A continuacin se presenta la informacin de la

    muestra .Existe diferencias entre los promedios de las calificaciones de

    los alumnos en cada una de las cuatro categoras de evaluacin?. Utilice

    un = 0.01

  • Excelente Bueneo Regular Deficiente

    94 75 70 68

    90 68 73 70

    85 77 76 72

    80 83 78 65

    88 80 74

    68 65

    65

    Tabla de Valores de la aplicacin :

    Tener presente que si se escoge R B E D , reflejen el mismo

    resultado.

    Calificaciones del Curso

  • Solucin :

    1er. Paso : Formulacin de las hiptesis.

    Si no se rechaza la hiptesis nula, se concluye que

    no hay diferencia en los promedios de las

    calificaciones del curso con base en las

    evaluaciones al profesor.

    Si se rechaza Ho se concluye que hay diferencia

    en al menos un par de promedios de

    calificaciones, pero por el momento no se sabe

    qu par o cuantos pares difieren.

  • 2do. Paso : Seleccionar el Nivel de Significancia.

    Se elige el Nivel de Significancia de = 0.01

    3er. Paso : Determinar el Estadstico de Prueba

    El estadstico de prueba sigue la distribucin

    de F de FISHER

  • Hallando el valor de Ftabla = crtico gl1

    gl2

    F tab = crt

  • 5to. Paso : Seleccionar la muestra, realizar los clculos y tomar una decisin.

    Es conveniente resumir los clculos estadsticos F en una

    tabla ANOVA , cuyo formato a utilizar despus de algunos

    clculos es:

    Formato

    Fuente de

    Variacin

    Suma de

    Cuadrados

    Grado de

    Libertad

    Media de

    Cuadrados

    F

    Tratamiento SST K - 1 SST/(k-1)= MST MST/MSE

    Error SSE n - k SSE/(n-k)= MSE

    Total SS Total n - 1

  • Construccin de la Tabla de ANOVA

    Excelente Bueno Regular Deficiente

    X X X X

    94 8836 75 5625 70 4900 68 4624

    90 8100 68 4624 73 5329 70 4900

    85 7225 77 5929 76 5776 72 5184

    80 6400 83 6889 78 6084 65 4225

    88 7744 80 6400 74 5476

    68 4624 65 4225

    65 4225

    349 30561 391 30811 510 37338 414 28634

    n= 4 n= 5 n= 7 n= 6

    2x

  • Hallando las sumatorias totales :

    2

    349 391 510 414 1.664

    4 5 7 6 22

    30561 30811 37338 28634 127.344

    X

    n

    x

  • Luego desarrollamos la prueba del ANOVA, pero tambin tenemos

    que ver que parmetros contiene esta tabla.

    Frmulas a utilizar :

    2

    2( )

    ( )xtratamientos

    SSTn n

    Nomenclatura :

    1. SStotal : Sumatoria de

    cuadrados, total

    2. MST : Cuadrado medio

    Tratamiento

    3. SST : Suma cuadrados

    tratamiento.

    4. SSE: suma cuadrados error

    5. MSE: Cuadrado Medio Error

    6. F : Fisher

    SSE= SStotal - SST

    2

    2( )X

    SStotal Xn

    ( 1)

    SSTMST

    k

    ( )

    SSEMSE

    n k

    MST

    FMSE

  • Desarrollando las frmulas :

    2 2 2 2 2(349) (391) (510) (414) (1664)890.68

    4 5 7 6 22SST

    2(1664)127344 1485.09

    22SStotal

    1485.09 890.68 594.41SSE

  • Los grados de libertad son:

    gltratamiento = k-1 = 3 y glerror = (n k ) 18 gltotal = 3+18= 21

    Calculando los cuadrados medios respectivamente:

    890.68296.89

    3MST

    594.4133.02

    18MSE

  • Calculamos el valor F de Fisher:

    296,898,99

    33,02ValorF

    MSTValorF

    MSE

  • Tabla ANOVA

    Componentes de la tabla ANOVA : Fuente de Variacin Suma de Cuadrados Grados de Libertad

    Cuadrado Medio Fisher

    Fuente de

    Variacin

    Suma de

    Cuadrados

    Grado de

    Libertad

    Media de

    Cuadrados

    F

    Tratamiento SST K - 1 SST/(k-1)= MST MST/MSE

    Error SSE n - k SSE/(n-k)= MSE

    Total SS Total n - 1

  • Tabla de la Varianza ANOVA completado.

    F.V SStotal gl MS Valor F

    Tratamiento 890,68 3 296,89 8,99

    Error 594,41 18 33,02

    Total 1485,09 21

    Conclusin : se rechaza Ho

    (F cal) 8,99 > 5,09 (F tab)

    Pero: gl tratamiento = K 1 = 4 -1 = 3

    gl Error = n K = 22 4 = 18

    gl Total = n 1 = 22 1 = 21 tambin : gl Total = 3 + 18 = 21

  • Interpretacin:

    Se concluye que las medias poblacionales no son

    iguales. Las calificaciones promedio no son iguales en

    los cuatro grupos de evaluacin.

    Es probable que las calificaciones que obtuvieron los

    estudiantes en el curso estn relacionadas con la

    opinin que tienen de la capacidad y desempeo del

    profesor en el aula. Por ahora slo se puede concluir

    que hay diferencias entre las medias de tratamiento.

    No se puede determinar cul o cuantos grupos de

    tratamiento difieren.

  • Anlisis de la Varianza en Dos

    Direcciones La organizacin Warren Area Regional Transit Authority (WARTA), en

    USA, realiza la ampliacin del servicio de autobuses desde el suburbio de

    Starbrick, hasta el distrito central de Warren. Hay cuatro rutas a

    considerar: Va U.S. 6; va West End ; va la Calle Hickory y; va la Ruta

    59.

    Se tiene que WARTA realiz varios recorridos de prueba para determinar

    si haba diferencias entre los tiempos en las cuatro rutas. Como habr una

    gran cantidad de conductores, la prueba se realiz de manera que cada

    uno de los conductores recorriera cada una de las cuatro rutas. A

    continuacin se muestra los tiempos del recorrido, en minutos, de cada

    combinacin conductor-ruta.

  • Tiempo del recorrido de Starbrick a Warren

    ( minutos)

    Conductor U.S. 6 West End Calle

    Hickory

    Ruta 59

    Deans 18 20 20 22

    Snaverly 21 22 24 24

    Ormson 20 23 25 23

    Zollaco 25 21 28 25

    Filbeck 26 24 28 25

  • Al nivel de significancia de 0,05. Existe alguna

    diferencia en el tiempo medio de viaje a lo largo de

    las 4 rutas? Si se elimina el efecto de los

    conductores, Existir alguna diferencia en el

    tiempo promedio de viaje?

  • Solucin :

    Para empezar, se realiza una prueba de hiptesis usando

    un ANOVA en una direccin. Es decir, se consideran slo

    las cuatro rutas. En estas condiciones la variacin se

    debe a los tratamientos o al azar.

    La hiptesis nula y la alternativa para comparar el tiempo

    medio de recorrido a lo largo de las cuatro rutas son.

    1er. Paso : Formulacin de las Hiptesis:

    0 1 2 3 4:H H 1 : No todas las medias de tratamiento son

    iguales.

  • 2do. Paso : El Nivel de Significancia.

    Este es = 0,05.

    3er. Paso: Estadgrafo de Prueba.

    El estadstico de prueba sigue la

    distribucin de F de FISHER

    4to. Paso : Establecer la Regla de Decisin.

    Hay cuatro rutas, as que los grados d

    libertad son:

  • gl = K 1 = 4-1= 3 para el numerador

    gl = n k = 20 4 = 16 para el denominador

    Si adems = 0,05

    Luego el valor de tabla o crtico es :

    F (tabla = crtico) = 3,24

  • F tab = crit

    Trabajando con la tabla de Fisher F.

  • Hallamos los grados de libertad:

    gl1 = K-1 = 4-1 = 3

    gl2 = n k = 20 -4 = 16

    La regla de decisin es rechazar la hiptesis nula si

    el valor F calculado es mayor que F tabla 0 crtica

    (3,24)

    F cal > F tab

    Se rechaza la hiptesis nula

  • Clculos necesarios para un ANOVA en una

    direccin y en dos direcciones

    Tiempo de recorrido de Starbrick a Warren (minutos)

    Conductor U.S. 6 West End Calle

    Hickory

    Ruta 59 Suma

    reglones

    Deans 18 20 20 22 80 Snaverly 21 22 24 24 91 Ormson 20 23 25 23 91 Zollaco 25 21 28 25 99 Filbeck 26 24 28 25 103 Total de columnas Tc

    110 110 125 119 464

    Suma de Cuadrados

    2466 2430 3169 2839 10904

  • Los clculos se realizan con las frmulas , como sigue

    2 22

    ( ) (464)10904 139,2

    20

    XSStotal X

    n

    Despus, se calcula la variacin de tratamiento:

    22 2 2 2 2 2( ) 110 110 125 119 464( ) 32.4

    5 5 5 5 20

    c

    c

    XTSST

    n n

  • Se determina la variacin del error.

    139.2 32.4 106.8SSE SStotal SST

    Al introducir estos datos en la tabla ANOVA

    tenemos:

    F . V. SS total gl MS F

    Tratamiento 32.4 3 10.8 1.618

    Error 106.8 16 6.675

    Total 139.2 19

  • Conclusin

    Debido a que el valor de F calculado = 1.618; es menor

    que el valor crtico 3.24, no se rechaza la hiptesis

    nula.

    Interpretacin:

    WARTA puede concluir que no hay diferencia

    en el tiempo medio del recorrido a lo largo de

    las 4 rutas. No hay razn para indicar que una

    de ellas es ms rpida que las otras.

  • En el ejemplo anterior se consider la variacin debida

    a los tratamientos (rutas) y se supuso que toda la

    variacin restante era random. Sin embargo, no se

    establecieron pruebas considerando que cada uno de

    los 5 conductores recorri cada una de las 4 rutas. Si se

    pudiera considerar el efecto de los diversos conductores

    ,esto permitira reducir el trmino SSE, lo que llevara a

    un valor F ms grande. La segunda variable de

    tratamiento los conductores en este caso se conoce como variable de bloqueo

  • Variable de Bloqueo.- Una segunda variable de

    tratamiento , que al ser considerada en el ANOVA , tiene el

    efecto de reducir al trmino SSE.

    En nuestro caso , los conductores son la variable de

    Bloqueo.

    Suma de Cuadrados en Bloque: ( SSB )

    2

    2

    tXB

    SSBK n

    Nomenclatura:

    1.- SSB : suma de cuadrados de

    bloqueo.

    2.- B t : total del bloque 3.- K : es el # de elementos en cada

    bloque

  • Suma de Cuadrados del Error, dos direcciones:

    SSE = SS total SST - SSB

    Fuente

    Variacin

    SST g l MS F

    Tratamientos SST K 1 SST/(K-1) = MST MST/MSE

    Bloque SSB B 1 SSB/(B-1) = MSB MSB/MSE

    Error SSE (k-1) (b-1) SSE/(K-1) (B-1) = MSE

    Total SS total n-1

    Elaboracin de la Tabla de Anova

  • Hallando SSB, tenemos:

    2 2 2 2 2 280 91 91 99 103 46478.2

    4 4 4 4 4 20SSB

    Hallando el SSE tenemos.

    SSE = 139.20- - 32.4 78.2 = 28.6

  • F.V SST g l MS

    Tratamientos 32.40 3 10.80

    Bloques 78.20 4 19.55

    Error 28.60 12 2.38

    Total 139.20

    Calculando Fisher ( F ) .-

    10.804.54

    2.38

    MSTF

    MSE

    19.558.21

    2.38

    MSBF

    MSE

    Ho se rechaza y se acepta H1 El tiempo medio de viaje no es el mismo en todas las rutas

    Ho se rechaza y se acepta H1

    E tiempo medio no es igual para todos los conductores