Pruebas de Bondad de Ajuste y Análisis de Datos Categóricos

download Pruebas de Bondad de Ajuste y Análisis de Datos Categóricos

of 7

Transcript of Pruebas de Bondad de Ajuste y Análisis de Datos Categóricos

  • 7/25/2019 Pruebas de Bondad de Ajuste y Anlisis de Datos Categricos

    1/7

    UNIDAD V Bioestadstica

    Introduccin

    En cualquier rea del conocimiento, tal como la Agronoma, Veterinaria, Economa,Medicina, Psicologa, etc. es muy comn encontrar situaciones donde los datos recogidosson observaciones de variables categricas cuyos niveles o categoras son empleados en ladiscriminacin o identificacin de las unidades muestrales en estudio. Es importantedestacar a qu variables consideramos categricas:

    Nominales: Son aquellas cuyos niveles no estn naturalmente ordenados, porejemplo color del tegumento de semillas de man, variedad de un cultivo, raza de animales,etc.

    Ordinales: son aquellas cuyas distintas categoras tienen un orden natural, porejemplo grado de ataque de una plaga (sin ataque, controlable, no controlable), diagnsticode una enfermedad (seguro, probable, improbable), etc.

    De intervalo: son aquellas variables de tipo numrico que tienen una distancia entredos niveles, por ejemplo edad de los individuos (entre 15-20, 21-25 y 26-30 aos),dimetro de los rboles (10-20, 21-30, 31-40 y 41-50 cm), etc.

    El contraste Chi-Cuadrado es un procedimiento estadstico general para verificar elajuste de un conjunto de datos a una hiptesis relativa a una distribucin, para determinarsi las proporciones de cada clase son las mismas para distintas poblaciones o para verificarla independencia de dos sucesos.

    Aqu abordaremos estos tres casos diferentes:

    1. Pruebas de Bondad de ajuste.2. Pruebas de Independencia.3. Pruebas de Homogeneidad.

    PRUEBA CHI-CUADRADO

    En las pruebas paramtricas se present una prueba zde muestras grandes paraprobar que la probabilidad de xito asume un valor determinado ) =0, proveniente deensayos binomiales. En este caso, al ser solo dos resultados posibles, queda claro que esredundante escribir ) =0 , = 1 0, ya que la suma de ambas debe resultar 1. Elnmero esperado de xitos y fracasos en un experimento binomial son y ,respectivamente. En caso de que la hiptesis nula sea verdadera, el nmero esperado de

    xitos y fracasos ser 0y 0, respectivamente.Un experimento multinomial generaliza un experimento binomial al permitir quecada intento o ensayo resulte en uno de posibles resultados, donde > 2. En este caso lahiptesis nula de inters se especificar para cada valor de . Supongamos el caso en elcul = 3, entonces podramos tener:

    ) 1 = 0,5, 2 = 0,3, 3 = 0,2.La hiptesis alternativa sera:

    1) En caso de que la hiptesis nula sea verdadera, el nmero esperado de xitos ser

    1, 2y 3. Generalizando a resultados posibles, para la hiptesis nula:) 1 =10, 2 =20,. , =0El nmero esperado quedar, 10, 20, ., 0.Entonces es frecuente que las frecuencias observadas de la categora () sepresenten en forma tabular por una fila de celdas, una de cada categora, como se

    observa en la siguiente tabla. Los valores esperados cuando 0 es verdadera ()semuestran en la fila inferior:

    Las deben ser razonablemente cercanas a las correspondientes cuando 0 esverdadera. El procedimiento de prueba comprende evaluar la discrepancia entre la y las, con 0rechazada cuando la discrepancia es lo suficientemente grande. Una forma clsicade evaluar las discrepancias es sumar el cuadardo de las desviaciones:

    ( )2 =

    =1(1 1)2 + (2 2)2 + ( )2

    i=1 i=2 i=k Total fila

    Frecuencias Observadas 1 2 Frecuencias Esperadas 1 2

    Tablas de contingencia

    Pruebas de bondad de ajuste y Anlisis de Datos Categricos 1

  • 7/25/2019 Pruebas de Bondad de Ajuste y Anlisis de Datos Categricos

    2/7

    UNIDAD V Bioestadstica

    Es importante destacar como son los aportes individuales relativos. Por ejemplo,supongamos que 1 = 100 y 2 = 10. Entonces si 1 = 95 y 2 = 5 las dos categorascontribuyen con las mismas desviaciones al cuadrado a la medida propuesta. Pero 1es slo5% menor de lo que se esperara cuando 0es verdadera, mientras que 2es 50% menor.Para tener en cuenta las magnitudes relativas de las desviaciones, cada desviacin se divideal cuadrado entre la correspondiente cantidad esperada y luego se combinan, conformandola expresin general del estadstico de prueba2de Pearson:

    2 = ( )2 Siendo:: las frecuencias observadas, es decr, la cantidad de casos o de valores que se hanregistrado para cada valor de la variable, si es una prueba de bondad de ajuste, o encada celda, si es una tabla de contingencia.: las frecuencias esperadas, suponiendo que la hiptesis nula que se ensaya esverdadera.

    Si el estadstico toma un valor excesivamente alto, significa que las frecuenciasobservadas son muy diferentes y la hiptesis nula debe rechazarse. A tal efecto, KARLPEARSON demostr que, si la hiptesis nula es cierta, dicha variable responde,aproximadamente, a la distribucin Chi-cuadrado. De all proviene el nombre para este tipode pruebas.

    Determinar el nmero apropiado de grados de libertad que es necesario emplearpara la prueba puede resultar un poco difcil. Por consiguiente, ste se especificar paracada prueba, respetando la regla emprica general para los grados de libertad de unaprueba chi-cuadrado:

    2 = ( ) ()La experiencia demuestra que las frecuencias de las celdas no deben ser tan

    pequeas para que la distribucin Chi-cuadrado represente una aproximacin adecuada dela distribucin2. Como regla general, requeriremos que todas las frecuencias esperadas delas celdas sean iguales o mayores que 5, aunque Cochran observ que este valor puede sertan bajo como 1 en algunos casos.

    1. Pruebas de Bondad de Ajuste

    El estadstico2 se puede utilizar para probar si los datos de una muestra indicanque un modelo particular para una distribucin de poblacin no se ajusta a los datos. Acontinuacin se realizan ejemplos para modelos discretos y continuos acerca de esa prueba,denominada prueba de bondad de ajuste.

    Prueba sobre una variable discreta:

    Sin estimar parmetros

    Se desea verificar si un dado est cargado. A tal efecto, lo arrojamos una cantidadde veces y observamos los resultados obtenidos. Supongamos que para un dado especfico,obtuvimos, en 60 tiradas, los siguientes resultados:

    Resultado 1 2 3 4 5 6N de ocurrencias 14 6 6 13 16 5

    En este caso la hiptesis nula es que el dado est equilibrado, de modo que si larechazamos, tendremos evidencia concluyente de que est cargado. En trminos de dedistribucin de la variable:

    0) ( = 1 6)

    Pruebas de bondad de ajuste y Anlisis de Datos Categricos 2

  • 7/25/2019 Pruebas de Bondad de Ajuste y Anlisis de Datos Categricos

    3/7

    UNIDAD V Bioestadstica

    Las frecuencias esperadas son las veces que esperaramos obtener cada nmero deser cierta la hiptesis nula. En este caso, todas las frecuencias esperadas son iguales a 10,ya que . = 60. 1 6 = 10. El estadstico ser entonces:

    2 = (Oi-Ei)2

    Ei=

    (14-10)2

    10+

    (6-10)2

    10+

    (6-10)2

    10+

    (13-10)2

    10+

    (16-10)2

    10+

    (5-10)2

    10= 11,8

    Este valor debe compararse con el

    2, con

    =

    1grados de libertad. En este

    caso el nmero de celdas determinadas libremente es igual a 5, ya que al lanzar el dado =60veces, cuando las primeras cinco celdas quedaron determinadas, la ltima se calcula porcomplemento ( 1) = 6 1 = 5. Y el nmero de parmetros que fue necesario estimar parapoder calcular las frecuencias esperadas es igual a cero ( = 0). Tenemos entonces = 5.Adoptando un nivel de significacin = 0,05, 2 =5;0,052 = 11,071, como 11,8>11,701,podemos afirmar que este dado est cargado, con una probabilidad mxima deequivocarnos del 5%.

    Estimando parmetros

    Se desea ensayar la hiptesis de que la cantidad diaria de levantacristales de unmodelo de automvil que llegan reclamados a fbrica por defectos por da, responde a un

    proceso Poisson. 0) A tal efecto se registraron los siguientes datos de reclamo:

    () 0 1 2 3 4 5 6 7 8 9 10 o +N de das 26 62 120 145 131 101 61 27 9 1 1

    () 0,0294 0,1037 0,1829 0,215 0,1895 0,1336 0,0785 0,0396 0,0174 0,0068 0,0036 20,12 70,94 125,09 147,03 129,62 91,42 53,73 27,07 11,93 4,67 2,46

    La distribucin Poisson est caracterizada por un nico parmetro, que es su tasapromedio , cuya estimacines 3,526 reclamos por da. Con este valor de , calculamoslas probabilidades ()de tener 0, 1 , 2 reclamos, con la frmula () =.! .

    Luego las frecuencias esperadas se calculan multiplicando las probabilidades ()por el nmero total de das en que se efectu el registro (684 das). Pero el ltimo valorobservado de la variable ( = 10), presenta una frecuencia esperada de 1,65

  • 7/25/2019 Pruebas de Bondad de Ajuste y Anlisis de Datos Categricos

    4/7

    UNIDAD V Bioestadstica

    Prueba sobre una variable continua:

    Hasta aqu las categoras estn naturalmente definidas, debido a la naturalezadiscreta de la variable. La prueba2 tambin se puede usar para probar si una muestraproviene de una distribucin contnua bsica especfica. Sea la variableque se muestrea ysuponga que syu funcin de densidad hipottica de es 0(). Al igual que cuando seconstruan distribuciones de frecuencia y posteriores histogramas, se subdivide a la escala

    de medida de en intervalos [0, 1), [1, 2) , , [1, ) . Las probabilidades que tomarcada celda bajo 0ser:0 =(1

  • 7/25/2019 Pruebas de Bondad de Ajuste y Anlisis de Datos Categricos

    5/7

    UNIDAD V Bioestadstica

    TABLAS DE CONTINGENCIA

    Cuando los individuos extrados de una poblacin son clasificados de acuerdo a, porlo menos, dos caractersticas observadas en ellos, se dice que los mismos estnestudindose en forma bivariada, esto es, por medio de dos variables aleatorias. Paraanalizar esa informacin se puede construir, entre otras cosas, una tabla de contingencia.

    Una tabla de contingencia se obtiene cuando el conjunto de individuos o entidades, comopueden ser semillas, personas, hojas, potreros, novillos, rboles, etc., son clasificados deacuerdo a uno o ms criterios. Por ejemplo, las hojas de una hortaliza pueden serclasificadas segn tengan o no sntomas de enfermedad virsica y al mismo tiempo segnprovengan de la parte baja, media o alta de la planta. A continuacin se muestra una tablade contingencia clsica:

    Columna Columna Columna TotalFila 11 12 1 1.Fila 21 22 2 2.

    Fila

    1 2 .

    Total .1 .2 .

    Para el anlisis de tablas de contingencia es necesario indagar primeramente en laclasificacin de las variables que la definen. Ellas pueden ser: variables de respuesta ovariables de clasificacin. Las primeras, esto es las variables de respuesta o dependientes,son aleatorias y describen lo que fue observado en las unidades muestrales. Las segundas,las variables de clasificacin o independientes o factores, son fijas por condicionamiento ysus niveles definen estratos, poblaciones o subpoblaciones a las cuales las unidadesmuestrales pertenecen. De acuerdo con esta clasificacin se definen dos tipos bsicos detablas de contingencia:

    a) Tablas donde las dos variables son de respuesta. En este caso, hay una solapoblacin de inters, con cada individuo de la poblacin clasificado con respecto a dosfactores diferentes. Hay Icategoras asociadas con el primer factor, yJcategoras asociadascon el segundo factor. Se toma una sola muestra, y el nmero de individuos pertenecientestanto a la categora del factor 1 como a la categoradel factor 2 se introduce en la celdade la fila , columna ( = 1, , ; = 1, ,). En este caso lo que interesa, usualmente, esverificar si existe asociacin entre las variables, y cuando existe, construir algn coeficientepara medir ese grado de asociacin. Estas son las llamadas Pruebas de Independencia.

    b) Tablas donde una de las variables es de respuesta y otra de clasificacin. Eneste caso hay Ipoblaciones de inters, cada una correspondiente a una fila diferente de latabla, y cada poblacin est dividida en las mismascategoras. Se toma una muestra de la poblacin y las cantidades se introducen en las celdas de la fila de latabla. En este caso, generalmente, el objetivo es estudiar los efectos de las variables declasificacin sobre la variable de respuesta o sobre alguna caracterstica especfica de esadistribucin. A estas pruebas se las denominan Pruebas de Homogeneidad.

    A continuacin se detalla cada una de estas pruebas.

    2. Pruebas de Independencia

    Si se extrae una muestra aleatoria simple de 100 semillas de un lote y se lasclasifica segn un criterio de calidad en alta, media y baja, y adems se podra encontrarque se distinguieran por su color en semillas claras y oscuras. Se podra obtener lasiguiente tabla:

    CalidadColor Alta Media Baja Total

    Claras 10 5 15 30Oscuras 40 10 20 70

    Total 50 15 35 100

    Pruebas de bondad de ajuste y Anlisis de Datos Categricos 5

  • 7/25/2019 Pruebas de Bondad de Ajuste y Anlisis de Datos Categricos

    6/7

    UNIDAD V Bioestadstica

    La hiptesis asociada establece que "la distribucin de frecuencias para lascalidades de semilla es la misma en ambas coloraciones" y viceversa; esto es, "ladistribucin de coloracin es la misma independientemente de la calidad de semillas".

    0) 0) =.. Si la hiptesis de independencia no fuera cierta, entonces, se concluira que la

    calidad de las semillas est asociada a la coloracin. El anlisis de esta hiptesis se conocecomo prueba Chi-cuadrado para la hiptesis de independencia, ya que el estadstico de laprueba tiene distribucin asinttica Chi-cuadrado.

    Deben recordar que dos eventos A y B son independientes si ( ) =(). ().Luego, para calcular las frecuencias esperadas bajo el supuesto de que los factores sonindependientes, esta condicin resulta imprescindible. La cantidad esperada en la celda (), es . , de modo que cuando la hiptesis nula es verdadera se transforma en. .. .. Volviendo al ejemplo, la probabilidad de que la calidad sea media es .2 =. =

    15100,

    la probabilidad de que una semilla sea clara es 1. =. =30100. Luego la cantidad esperada de

    semillas claras de media calidad es . 1.. .2 = 100.30100 .15100 = 4,5. Generalizando, podemos

    indicar, como regla para calcular la frecuencia esperada correspondiente a una celda de

    una tabla de contingencia, la siguiente:

    Eij=TOTAL DE LA i-sima FILA TOTAL DE LA j-sima COLUMNA

    TOTAL GENERAL=

    Oi. O.j

    n

    Calculando las frecuencias esperadas Bajo 0) (entre parntesis)

    CalidadColor Alta Media Baja TotalClaras 10 (15) 5 (4,5) 15 (10,5) 30

    Oscuras 40 (35) 10 (10,5) 20 (24,5) 70Total 50 15 35 100

    Luego, el estadstico de prueba es:

    2 = (Oi-Ei)2

    Ei=

    (10-15)2

    15+

    (5-4,5)2

    4,5++

    (20-24,5)2

    24,5= 5,215

    Este valor debe compararse con el 2 correspondiente. El nmero de grados delibertad es igual a ( 1). ( 1). Esto es porque el nmero de celdas determinadaslibremente es 1, porque solo el total se fija por anticipado. Hay probabilidadesmarginales fila, pero slo 1 de ellas son estimadas de manera independiente, ya que

    .= 1. Y anlogamente con las columnas. Finalmente se estiman independientemente

    +

    2parmetros. Luego, aplicando la regla emprica de los grados de libertad, = ( 1) ( + 2) = + 1 = ( 1)( 1)Como ( 1). ( 1) = (2 1). (3 1) = 2, entonces 2 =0,05;22 = 5,99 no hay evidencia

    para concluir que la calidad dependa del color y viceversa, con un nivel de significacin del5%. Es decir que las podemos considerar independientes.

    3.

    Pruebas de Homogeneidad

    Suponga que se muestrean, siguiendo el ejemplo anterior, 50 semillas claras y 50semillas oscuras. Este esquema de muestreo difiere del caso anterior ya que ahora existeun factor de condicionamiento, la coloracin. Antes se tomaba una muestra de 100 semillassin tener en cuenta ninguna de sus caractersticas, generando una tabla con marginales

    libres. Ahora el muestreo para cada coloracin de semilla genera una tabla con marginalesfijos para las filas, como se muestra a continuacin:

    Pruebas de bondad de ajuste y Anlisis de Datos Categricos 6

  • 7/25/2019 Pruebas de Bondad de Ajuste y Anlisis de Datos Categricos

    7/7

    UNIDAD V Bioestadstica

    CalidadColor Alta Media Baja TotalClaras 15 25 10 50 Marginales

    fijosOscuras 35 10 5 50Total 50 35 15 100

    Obsrvese que las filas resumen las distribuciones condicionales muestrales de la

    calidad de las semillas para cada coloracin.El inters es el mismo que en caso anterior, esto es establecer si la calidad de las

    semillas est o no asociada a la coloracin. Reconociendo la generacin de la tabla, es decir,cmo es recogida esa informacin, la hiptesis que se puede verificar es que "lasproporciones de cada clase de calidad son las mismas para cualquiera de las coloraciones".La prueba para contrastar esta hiptesis se conoce como prueba Chi-cuadrado para lahomogeneidad de proporciones.

    La hiptesis nula establece para este caso que las distribuciones condicionales de lavariable utilizada como criterio columna respecto de aquella utilizada como criterio fila (eneste caso, la variable con marginales fijos) son iguales. Esta hiptesis suele enunciarsecomo de igualdad de proporciones.

    0) 1 =2 = = = 1, 2, ,Cuando 0)es verdadera, se puede usar 1, 2, , para denotar las proporcionespoblacionales de lascategoras diferentes, estas proporciones son comunes para todas

    las poblaciones . En el ejemplo, si quisiramos saber qu cantidad de semillas oscuras seespera que tengan calidad alta, deberamos multiplicar las 50 semillas claras por laprobabilidad de que la semilla sea de alta calidad. Pero para ello, primero debemos

    estimar esa probabilidad, comn para cualquier color de semilla bajo 0) .1 =. =50100.

    Luego la cantidad de semillas claras, que se espera que sean de alta calidad es 50.50100 = 25.

    Generalizando, podemos indicar, como regla para calcular la frecuencia esperadacorrespondiente a una celda de una tabla de contingencia, la siguiente:

    Eij=

    TOTAL DE LA i-sima FILA TOTAL DE LA j-sima COLUMNA

    TOTAL GENERAL =

    Oi. O.j

    n De la misma forma que se daba para el caso de la prueba de independencia.

    Tambin vamos a ver que los grados de libertad de ambas pruebas coinciden. Utilizando laregla emprica vemos que la cantidad de celdas determinadas libremente son 1(recordar que cada tamao muestral .), de modo que hay ( 1)celdas determinadaslibremente. Los parmetros 1, 2, , se estiman, pero como la suma de ellos debe seruno, slo 1 de ellos son independientes. Luego los grados de libertad =( 1)( 1) = ( 1). ( 1), idntico al utilizado en las pruebas de independencia.

    Es interesante observar que el clculo es exactamente igual que en una tabla decontingencia y, en el fondo, el problema es igual. La diferencia est dada nicamente porel lenguaje y el tipo de situacin en que se plantean ambos problemas.

    Biliografa:

    Devore, Jay (2008) Probabilidad y Estadstica para Ingeniera y Ciencias. SptimaEdicin. Ed. Cengage Learning.

    Di Rienzo, Julio (2008) Estadstica para las Ciencias Agropecuarias. SptimaEdicin.

    Garca, Roberto (2004) Inferencia estadstica y diseo de experimentos. PrimeraEdicin. Ed. Eudeba.

    Wackerly, Dennis (2002) Estadstica matemtica con aplicaciones. Sexta edicin.Ed. Thomson

    Pruebas de bondad de ajuste y Anlisis de Datos Categricos 7