Clase 8

40
03/03/2022 J. Vilchez Jesús VILCHEZ GUIZADO BIOESTADÍSTICA UNIVERSIDAD NACIONAL HERMILIO VALDIZÁN FACULTAD DE CIENCIAS LA SALUD E.A.P. DE ODONTOLOGÍA

Transcript of Clase 8

02/05/2023 J. VilchezJesús VILCHEZ GUIZADO

BIOESTADÍSTICA

UNIVERSIDAD NACIONAL HERMILIO VALDIZÁN

FACULTAD DE CIENCIAS LA SALUD

E.A.P. DE ODONTOLOGÍA

8.1 PRUEBA CHI CUADRADA

PRUEBA CHI CUADRADA

PRUEBA CHI CUADRADA

La prueba de bondad de ajuste es una aplicación de la prueba ji-cuadrado. En ella se trata de probar si los datos de la muestra tomada siguen una cierta distribución predeterminada, donde los n datos tomados deben estar divididos en categorías. Esta prueba consiste en afirmar que la distribución de frecuencias observadas concuerda con el modelo de probabilidad esperado de las frecuencias en un conjunto de clases o categorías. Una de las distribuciones es la distribución uniforme.Una prueba de bondad de ajuste es conveniente cuando se quiere decidir si existe compatibilidad entre las distribuciones de frecuencias observadas y alguna distribución predeterminada o hipotética.

8.1.2 PRUEBAS DE BONDAD DE AJUSTE

EJEMPLO 1. Estudio de Tabla de contingencia 3x2:Se estudia a 1040 estudiantes de los niveles de educación primaria y secundaria y a los cuales se aplica un instrumento que mide el aprendizaje de la matemática, en las dimensiones de aprendizaje conceptual, procedimental y actitudinal.Variables:APRENDIZAJE categorías: Conceptual, Procedimental, Actitudinal. NIVEL DE EDUCACIÓN categorías: Primaria, Secundaria.

NIVEL DE EDUCACIÓN

Primaria Secundaria

APRENDIZAJEConceptual ProcedimentalActitudinal

180 100190 280170 120

TABLA DE CONTINGENCIA

PRUEBA CHI CUADRADA

Tabla de frecuencias observadas (O):

NIVEL DE EDUCACIÓN TOTALPrimaria Secundaria

APRENDIZAJEConceptual

Procedimental

Actitudinal

180 100 280190 280 470170 120 290

  TOTAL 540 500 1040

La Chi-cuadrada es una comparación entre las tablas de frecuencias observadas y la denominada tabla de frecuencias esperadas (la tabla que esperaríamos encontrar si las variables fueran estadísticamente independientes o no estuvieran relacionadas).

PRUEBA CHI CUADRADA

La frecuencia esperada de cada celda, casilla o recuadro, se calcula mediante la siguiente fórmula aplicada a la tabla de frecuencias observadas:N = es el número total de frecuencias observadas. E = (marginal del reglón)(marginal de columna) / N.

NIVEL DE EDUCACIÓN

Marginal de filas

Primaria Secundaria

APRENDIZAJE

Conceptual

Procedimental

Actitudinal

(280)(540)/1040

(280)(500)/1040 280

(470)(540)/1040

(470)( 500)/1040 470

(290)(540)/1040

(290)(500)/1040 290

marginal de columnas 540 500 1040

Tabla de frecuencias esperadas (E):PRUEBA CHI CUADRADA

Frecuencia observada:

NIVEL DE EDUCACIÓN TOTAL

Primaria Secundaria

APRENDIZAJE

Conceptual

ProcedimentalActitudinal

145,4 134,6 280244,0 226,0 470150,6 139,4 290

 TOTAL 540 500 1040

NIVEL DE EDUCACIÓN TOTALPrimaria secundaria

APRENDIZAJE

ConceptualProcedimentalActitudinal

180 100 280190 280 470

170 120 290TOTAL 540 500 1040

Frecuencia esperada:

Donde:O: frecuencia observada en cada celdaE: frecuencia esperada

en cada celda

PRUEBA CHI CUADRADA

E

EOX

2

2

Celda O E O-E (O-E)2 (O-E)2 / EConceptual/Primaria 180 145,4 34,6 1197,16 8,23Procedimental/ Primaria 190 244,4 -54,4 2959,36 12,11Actitudinal / Primaria 170 150,6 19,4 376,36 2,50Conceptual / Secundaria 100 134,6 -34,6 1197,16 8,69Procedimental /Secundaria 280 226,0 54,0 2916,00 12,80Actitudinal / Secundaria 120 139,4 -19,4 376,36 2,70

X2 = 47,33

Para saber si el valor de X2 es o no significativo, debemos calcular los grados de libertad.

G.L. = (Nº de filas - 1)(Nº de columnas - 1).

PRUEBA CHI CUADRADA

Para el ejemplo: Nº de filas = 3 y Nº de columnas = 2; entonces G.L. = (3-1)(2-1) = 2.

Luego, acudimos a la “tabla de distribución de Chi-cuadrado”, eligiendo nuestro nivel de confianza ( = 0,05 ó = 0,01).

Si el valor obtenido de X2 es igual o superior al valor de la “tabla”, decimos que las variables están relacionadas o no son independientes.Aplicación:Para el nivel de confianza de =0,05 y g.l. = 2, el X2 de tabla es 5,9915 (ver tabla).

X2Obtenido

= 47,33X2

Crítico = 5,9915

PRUEBA CHI CUADRADA

EJEMPLO 2: Una muestra de 3000 objetos se clasifico según el turno de su producción: mañana, tarde y noche y según su calidad en defectuoso o no defectuoso como se resume en la siguiente tabla:

Calidad Turnos Total

Mañana Tarde Noche

Éxitos 25 47 48 120

Fracasos 975 953 952 2880

Total 1000 1000 1000 3000

k

i i

ii

eeO

1

2)(

99,52

2,95.0x

SOLUCIÓN:Sean p1 p2, p3 los porcentajes de objetos defectuosos para los tres turnos: de mañana, de tarde y de noche respectivamente.1. Hipótesis:H0: p1 = p2 = p3 yHa: p1, p2, p3 no son iguales.2. Nivel de significación: = 0,053. Estadística:

, que se distribuye aproximadamente como ji-cuadrado con V = (r – 1)(c – 1) = (2 – 1)(3 – 1) = 2 grados de libertad.4. Región crítica: Para el nivel de significación = 0,05 y 2 grados de libertad el valor crítico de la prueba es:

Se rechazará Ho si el valor calculado de ji-cuadrado es mayor que 5,99.

5. Cálculos: Las frecuencias observadas y esperadas (en paréntesis) se dan en la siguiente tabla:

Calidad TURNOS Total

Mañana Tarde Noche

Éxitos 25 (40) 47(40) 48(40) 120

Fracasos 975(960) 953(960) 952(960) 2880

Total 1000 1000 1000 3000

k

i i

iical e

eOx

1

22 )(

960)960975(

40)4048(

40)4047(

40)4025( 2222

802,8960

)960952(960

)960953( 22

6. Cálculos: dado que 99,5802,82 xcal, se debe rechazar Ho.

La prueba de Independencia se efectúa para probar si hay asociación entre dos variables categóricas A y B. En otros términos, consiste en probar la hipótesis nula que indica que dos criterios de clasificación son independientes cuando se aplican al mismo conjunto de entidades. Se dice que dos criterios de clasificación son independientes si la distribución de un criterio es la misma, sin importar cuál es la distribución del otro.

8.1.2 PRUEBA DE INDEPENDENCIA

PRUEBA CHI CUADRADA DE INDEPENDENCIA

En casos en las variables son como los que se muestran a continuación, se hacen uso de la prueba de independencia: ¿Estas relacionados las calificaciones obtenidas en una asignatura con el

número de inasistencias a clases en dicha asignatura? ¿Es independiente la opinión entre la política ambiental y la política

educativa del gobierno? ¿Es independiente el sexo de una persona de su preferencia hacia la

música? ¿Están relacionadas las enfermedades del corazón con la influenza? ¿Son independientes el tamaño de la familia y el nivel de educación de los

padres? ¿Está relacionado la contaminación ambiental con el incremento de

enfermedades a la piel? ¿Está relacionado el nivel educativo con el nivel de pandillaje adolescente?

Otra forma de expresar si dos variables son independientes, es diciendo, que no se afectan entre sí; es decir que no están asociados ni relacionados. Pero, es preciso tener en cuenta que: dos variables pueden estar correlacionados sin ser independientes, pero todas las variables independientes no están correlacionados.Para todas las pruebas independientes, las hipótesis son: La hipótesis de independencia son:H0: No hay asociación entre las variables A y B (es decir hay

independencia), H1: Las dos variables de clasificación están asociadas (o son

dependientes).oH0: Las variables fila y columna son independientes.H1: Las variables fila y columna no son independientes.

PRUEBA CHI CUADRADA DE INDEPENDENCIA

PRUEBA CHI CUADRADA DE INDEPENDENCIAEJEMPLO. Una muestra aleatoria de 280 adultos se clasifica de acuerdo al género y al número de horas que mira televisión durante la semana, cuya frecuencia se resume en la siguiente tabla:

Con esta información. ¿Se puede concluir que el tiempo utilizado para ver TV es independiente del género? use = 0,05.

Ho: El género es independiente de las horas de ver televisiónH1: El género y las horas de ver televisión están relacionados.

Con la prueba de homogeneidad se busca determinar si dos o más muestras independientes provienen de la misma población o de poblaciones diferentes. Para esta prueba, los datos muestrales se registran en rc celdas de una tabla de contingencia rxc.

La hipótesis nula y alternativa de la prueba de homogeneidad son respectivamente:

H0: Las poblaciones son homogéneas (o muestras aleatorias provienen de una misma población o son homogéneas)

H1 : Las poblaciones no son homogéneas (o muestras aleatorias no provienen de una misma población o no son homogéneas)

El proceso de prueba es el mismo que en el caso de independencia.

8.1.3 PRUEBA DE HOMOGENEIDAD

EJEMPLO 3: Se efectuó un estudio en tres universidades de la región: UNDAC, UNHEVAL y UNAS, para determinar la preferencia de los alumnos por tres tipos de deportes: Fútbol, Baloncesto y Voley. Una muestra aleatoria de 500 alumnos a dado los resultado de la tabla que sigue. A partir de estos datos determinar si las tres universidades son homogéneas con respecto a sus preferencias en los tres deportes. Utilice el nivel de significación = 0,05.

Deportes Universidades Total

UNHEVAL UNDAC UNAS

Futbol 80 70 100 250

Baloncesto 90 60 30 180

Voley 30 20 20 70

Total 200 150 150 500

k

i i

ii

eeO

1

2)(

SOLUCIÓN:1. Hipótesis:H0: Para cada deporte, las proporciones de preferencias en las tres universidades son las mismas.H1: Para cuando menos un deporte, las proporciones de preferencias en las tres universidades no son las mismas.2. Nivel de significación: = 0,053. Estadística:

que se distribuye aproximadamente como chi-cuadrado con V = (r – 1)(c – 1) = (3 – 1)(3 – 1) = 4 grados de libertad.4. Región crítica: Para el nivel de significación = 0,05 y 4 grados de libertad el valor crítico de la prueba es: 49,92

4,95.0x

Se rechazará Ho si el valor calculado de chi-cuadrado es mayor de 9,49.

5. Cálculos: Las frecuencias observadas y esperadas se dan en la siguiente tabla:

k

i i

iical e

eOx

1

22 )(

54)5460(

72)7290(

75)75100(

75)7570(

100)10080( 22222

74,2821

)2120(21

)2120(28

)2830(54

)5430( 2222

6. Decisión: dado que 49,974,282 xcal, se debe rechazar H0.

Es decir, para cuando menos un deporte, las proporciones de preferencias en las tres universidades no son las mismas.

EJEMPLO 4:Una ONG desea investigar si ¿un hombre liberado de una prisión se integra mejor a la vida civil si regresa a su ciudad natal o si va a vivir a otro lugar? En otros términos: ¿existe relación entre el ajuste de la vida civil y el lugar de residencia después de la liberación?Para este propósito los psicólogos de la ONG entrevistaron a 200 ex reclusos, seleccionados al azar, utilizando una serie de preguntas, según sus respuestas clasifican el ajuste de cada individuo como: excelente, bueno, regular e insatisfactorio. Las clasificaciones de los 200 exreclusos resultaron como se muestra en la tabla:

Lugar Integración a la vida civil Total Excelente Buena Regular Insatisfactorio

Ciudad Origen 27 35 33 25 120Otra Ciudad 13 15 27 25 80Total 40 50 60 50 200

El primer paso para la prueba de hipótesis es formular la hipótesis nula y la alternativa:Ho: No existe relación entre el ajuste de la vida civil y el lugar donde radique el individuo después de ser liberado de prisión.H1: Existe relación entre el ajuste a la vida civil y el lugar donde resida la persona después de salir de prisión.2. Nivel de significación: = 0,01 (existe la probabilidad de 0,01 de que se rechase la una hipótesis nula verdadera)

k

i i

ii

eeO

1

2)(

345,112

3,99.0x

3. Estadística: , que se distribuye aproximadamente como chi-cuadrado

con V = (r – 1)(c – 1) = (2 – 1)(4 – 1) = 3 grados de libertad.4. Región crítica: Para el nivel de significación = 0,01 y 3 grados de libertad el valor crítico de la prueba es:

Se rechazará Ho si el valor calculado de chi-cuadrado es mayor que 11,345.

5. Cálculos: Las frecuencias observadas y esperadas (en paréntesis) se dan en la siguiente tabla:

Ciudad Integración a la vida civil Total Excelente Buena Regular Insatisfactorio

Ciudad Orige

27 (24) 35 (30) 33 (36) 25 (30) 120

Otra Ciudad 13 (16) 15 (20) 27 (24) 25 (20) 80

Total 40 (40) 50 (50) 60 (60) 50 (50) 200

k

i i

iical e

eOx

1

22 )(

30)3025(

36)3633(

30)3035(

24)2427( 2222

729,520

)2025(24

)2427(20

)2015(16

)1213( 2222

345,11729,52 xcal6. Decisión: dado que, se acepta la Ho a un nivel de 0,01.

EJERCICIO: Un estudio sobre caries dental de niños de seis ciudades con diferentes cantidades de flúor en el sumnistro de agua, ha proporcionado los siguientes resultados

H0: Las incidencias de caries es igual en las seis ciudades (las poblaciones son homogéneas)

H1: Las incidencias de caries no es igual en las seis ciudades (las poblaciones no son homogéneas)

8.2. U DE MANN WHITNEYSe utiliza para saber si dos muestras independientes provienen de poblaciones que difieren en su ubicación (tendencia central).

Es la contraparte de la prueba t para muestras independientes. Prueba la hipótesis de que la mediana de las dos poblaciones son iguales contra que no lo son.

Si Ho es cierta, el promedio de los rangos para los dos grupos muestrales debe ser aproximadamente igual.

Ordenación por rango

Ordenar por rangos todos los elementos que deben probarse, en orden creciente

Símbolosn1 = número de elementos de la muestra 1n2 = número de elementos de la muestra 2R1 = suma de los rangos de los elementos de

la muestra 1R2 = suma de los rangos de los elementos de

la muestra 2

2)1( 11

nnWU

Estadístico de prueba para la suma de los rangos

La Prueba U de Mann-Whitney

La Prueba U de Mann-WhitneyEstadístico U

Una medida de la diferencia entre las observaciones ordenadas por rangos de las dos muestras

Media del Estadístico

Cálculo del error estándar

2. 21 nn

U

12)1(. 2121

nnnn

U

2)1( 11

nnWU

Donde: n1: Es el número de observaciones de la muestra pequeña. n2: Es el número de observaciones de la muestra grande W: Es la suma de los rangos de la primera población Si n1 es menor que ocho, la distribución muestral de U es aproximadamente normal, obteniéndose el estadístico z, mediante:

U

UUz

Prueba de Suma de Rangos: La Prueba U de Mann-Whitney

Formulación de la hipótesis

Ho: Me1 = Me2 Hipótesis nula, no hay diferencia entre las dos poblaciones, por lo cual tienen la misma medianaH1: Me1 Me2 Hipótesis alternativa, hay una diferencia entre las dos poblaciones, por lo cual tienen medianas diferentes = nivel de significancia

Límites de la región de

aceptación

Elección de la Distribución

Interpretación de resultados

Si el estadístico muestral U cae dentro de la región de aceptación es valida la hipótesis nula de que no hay diferencia y concluiremos que las distribuciones son iguales

En caso de que algún n sea mayor de 20, se puede aproximar con la distribución normal.

EJEMPLO 8.6. Los siguientes valores son los tiempos (en minutos) de permanencia en la sala de operaciones de 20 personas sometidas al mismo procedimiento quirúrgico 10 de los primeros fueron pacientes del hospital A y 10 al hospital B. Como se muestra en la tabla:

En base a estos datos, ¿es posible concluir que los pacientes del hospital B tienden a permanecer más que los pacientes del hospital A?, considere nivel de significancia 0,1.

SoluciónPoblación 1: Pacientes sometidos a operación quirúrgica en el hospital A.Población 2: Pacientes sometidos a operación quirúrgica en el hospital B..Variable de interés: Tiempo de duración de la intervención quirúrgica de los pacientes.

Ejemplo:Se sospecha que una empresa lleva a cabo una política de discriminación, con respecto al sexo, en los sueldos de sus empleados. Se seleccionaron 12 empleados masculinos y 12 femeninos de entre los que tienen responsabilidades y experiencias similares en el trabajo; sus salarios anuales en miles de dólares son los siguientes:

¿Existe alguna razón para creer que estas muestras aleatorias provienen de poblaciones con diferentes distribuciones? (alfa=0.05).

Se combinan los salarios de las dos muestras para formar un solo conjunto de 24 salarios anuales. Luego se ordenan y se les asigna un rango de la siguiente manera:Sexo M M M H M M M H H M M H 18.7 19.2 19.8 20.5 20.6 20.7 20.9 21.2 21.6 21.6 21.6 21.9 Rango 1 2 3 4 5 6 7 8 9 10 11 12 Sexo H H M M H M H H H H H M 22.3 22.4 22.5 23.2 23.4 23.5 23.6 23.9 24.0 24.1 24.5 24.7 Rango 13 14 15 16 17 18 19 20 21 22 23 24

Para obtener la suma de los rangos se seleccionará la muestra de mujeres. De esta forma la suma de los rangos es:

1+2+3+5+6+7+10+11+15+16+18+24=118

1041182

)13(12)12)(12( U

2)1( ss nnTU 2

)1( ss nnUT

ns=tamaño de la muestra menor 1822

)113(12104 T

EJERCICIO: Pacientes que intentan bajar de peso sometiéndose a una dieta, se desea saber si hay diferencias antes y después.

Para ubicar el rango se procede ignorando el signo de la diferencia

EJERCICIO: Se desea saber si hay diferencias entre presión arterial sistólica de varones y mujeres.

H0: La presión arterial sistólica es igual en varones y en mujeres.

H1: La presión arterial sistólica NO es igual en varones y en mujeres.

02/05/2023 J. Vilchez

¡Ahora

Practiquemos!