CLASE 3 Pruebas Basadas en la Distribucion Binomial · Binomial Test La prueba binomial es quizás...

29
Estadistica No Parametrica CLASE 3 Pruebas Basadas en la Distribucion Binomial JAIME MOSQUERA RESTREPO

Transcript of CLASE 3 Pruebas Basadas en la Distribucion Binomial · Binomial Test La prueba binomial es quizás...

Estadistica No Parametrica

CLASE 3

Pruebas Basadas en la Distribucion Binomial

JAIME MOSQUERA RESTREPO

Binomial Test

� La prueba binomial es quizás la pruebamas antigua encontrada en al literatura.

� Se encuentra asociada a la ocurrencia de� Se encuentra asociada a la ocurrencia deeventos de naturaleza dicotoma,concebidos bajo algunas circunstanciasparticulares

� Su versatilidad ha logrado que seaexpandida a múltiples aplicaciones.

Recordando los supuestos

� Se cuenta con n repeticiones de unensayo tipo Bernoulli

� Los ensayos son concebidos de manera� Los ensayos son concebidos de maneraindependiente

� La probabilidad de obtener alguna de lasdos categorías excluyentes es constante

Procedimiento

� Planteamiento de hipótesis

0 0 0 0 0: : , ,

aH P P vs H P P P P P P= ≠ < >

� Estadístico de Prueba:

B: Numero de eventos favorables a una categoría de

referencia en los n ensayos.

Regla de decisión

� Rechazar Ho si el valor de B supera elpercentil de la distribución1 α−

0( , )bin n P

0 0:H P P>

� Rechazar Ho si el valor de B es inferior alpercentil de la distribuciónα 0

( , )bin n P

0 0:H P P<

Ejemplo

� En el lanzamiento de una monedasupuestamente legal se obtuvieron lossiguientes resultados.

+ - + + + + - - + ++ - + + + + - - + +� Existe evidencia para pensar que la moneda no

es legal?

� Cual es numero mínimo de (+) para rechazar laHipótesis?

� Cual es el valor P asociado a la prueba?.

� Asuma que realmente la moneda esta cargadacon P(+) = 0.7 Cual es la potencia de la prueba

Distribución Asintótica Para

Muestras Grandes

Como ya conocemos la distribución binomialtiene un comportamiento asintótico quepuede ser modelado a través de ladistribución normaldistribución normal

0 0 0( ) ; ( ) (1 )E B nP Var B nP P= = −

Cuando: 0 0

0 0

max( ;1 )9

min( ;1 )

P Pn

P P

−>

−Estadistica Matematica Con

aplicaciones ; 6ta edicion

(Mendenhall, pag 357)

Algunas Aplicaciones - Percentiles

Algún investigador social ha afirmado que el 25% de los habitantes de la

ciudad de Cali ganan menos de un salario mínimo. Para corroborar esta

hipótesis ha tomado una muestra aleatoria de 20 individuos. Obteniendo los

siguientes resultados

Individuo Salario Individuo Salario

1 589954 11 511959

2 394463 12 311914

3 698851 13 280618

4 905295 14 454474

5 889670 15 495299

6 996627 16 226414

7 213282 17 536415

8 603164 18 569190

9 869005 19 676971

10 432660 20 576901

Considera usted que la afirmación del investigador es cierta?

Algunas Aplicaciones – Centramiento(Prueba del Signo)

Se toman 10 muestras de un baño de cultivo sobre placa

utilizado en un proceso de fabricación de componentes

electrónicos, y se mide el pH del baño obteniendo los siguientes

resultados:

7.91, 7.85, 6.82, 8.01, 7.46, 6.95, 7.05, 7.35, 7.25, 7.42.

Los ingenieros creen que el valor de la mediana del pH es 7.0.

¿La muestra indica que esta proposición es correcta?

Encuentra el valor P de esta prueba

Prueba del signo

� El evento “+” representa al evento o

� El evento “-” representa al evento o

� La prueba del signo es una prueba para comparar la probabilidad de diferencias positivas vs. la probabilidad de diferencias negativas

ii XY <

ii XY > 0>− ii XY

0<− ii XY

probabilidad de diferencias negativas

� Ignorando empates, la hipótesis será:

� Equivalente a una prueba binomial, con

o

)()(:0 −=+ PPH

21)(:0 =+PH *:0 ppH =2

1* =p

� Datos

� Observaciones bivariadas de una muestra aleatoria

� Supuestos

� Las variables aleatorias bivariadas , con i=1,..,n

son mutuamente independientes

� La escala de medición es al menos ordinal

( )ii YX ,

� La escala de medición es al menos ordinal

� Las parejas son internamente consistente. Si

para alguna pareja entonces para

todas las parejas y viceversa

� Hipótesis

)()( −>+ PP

)()( −>+ PP

( )ii YX ,

)()(:

)()(:

1

0

−≠+

−=+

PPH

PPH

)()(:

)()(:

1

0

−>+

−≤+

PPH

PPH

)()(:

)()(:

1

0

−<+

−≥+

PPH

PPH

� La hipótesis nula es interpretada como:

� Dos colas: Los tienen el mismo parámetro de

localización que los

� Una cola:

� Una cola

sX i

sYi

( ) ( ) iYEXEH ii ∀≥:0

( ) ( ) iYEXEH ii ∀=:0

( ) ( ) iYEXEH ∀≤:� Una cola

� Estadístico de prueba

� El numero de pares donde

( ) ( ) iYEXEH ii ∀≤:0

+=+detotalNumeroT

( )ii YX , 0>−< iiii XYoYX

� La distribución del estadístico de prueba se deduce con base en la comparación de la probabilidad de diferencias positivas con la probabilidad de diferencias negativas, tal que

entonces( ) ( )−=+ PPH :0

( ) ( ) 1=−++ PP

es lo mismo que

siendo equivalente a una prueba Binomial con y cuando no hay empates esta prueba es insesgada y consistente

( )2

1:0 =+PH

5.0* =p

� Regla de decisión

La región de rechazo de tamaño esta dada por

� Dos colas:

Rechazar

� Una cola:

Rechazar

� Una cola:

Rechazar

tnTotTsiH −≥≤0

α

tnTsiH −≥0

tTsiH ≤0

Rechazar

donde el valor se obtiene como

el valor w se obtiene de las tablas de la distribución binomial si o de la distribución normal si20<n

tTsiH ≤0

t

( )nwntonwnt αα +=

+=

2

1

2

1

2

20≥n

Ejemplo� Un artículo informa sobre un estudio en el que se

modela el motor de un cohete reuniendo elcombustible y la mezcla de encendido dentro de uncontenedor metálico. La resistencia al esfuerzocortante de la unión entre los dos tipos desustancias es una característica importante en estesustancias es una característica importante en esteestudio. En el siguiente slide se muestran losresultados obtenidos al probar 20 motoresseleccionados al azar. Se desea probar la hipótesisde que la mediana de la resistencia al esfuerzocortante es 2000 psi, utilizando un nivel designificancia del 0.05.

Los datos

Observación

Resistencia al esfuerzo

cortantexi

Signo de la diferencia

xi-2000Observación

Resistencia al esfuerzo

cortantexi

Signo de la diferencia

xi-2000

1 2158.70 + 11 2165.20 +

2 1678.15 - 12 2399.55 +

3 2316.00 + 13 1779.80 -

4 2061.30 + 14 2336.75 +4 2061.30 + 14 2336.75 +

5 2207.50 + 15 1765.30 -

6 1708.30 - 16 2053.50 +

7 1784.70 - 17 2414.40 +

8 2575.10 + 18 2200.50 +

9 2357.90 + 19 2654.20 +

10 2256.70 + 20 1753.70 -

Algunas Aplicaciones – Efectividad

de tratamientosSe afirma que una nueva dieta reducirá el peso del 80%

de las mujeres en un período de dos semanas. Se

registran los pesos de 10 mujeres que siguen esta dieta

antes y después de un período de dos semanas, y se

obtienen los siguientes datos:Mujer Peso antes Peso después

1 58.5 60.0

2 60.3 54.9

3 61.7 58.1

4 69.0 62.1

5 64.0 58.5

6 62.6 59.9

7 56.7 54.4

8 63.6 60.2

9 68.2 62.3

10 59.4 58.7

Algunas Aplicaciones – Tendencias

Cox and Stuart

Total annual precipitation is recorded yearly for 19 years. This record is

examined to see if the amount of precipitation is tending to increase or

decrease. The precipitation in inche was:

45.25, 45.83, 41.77, 36.26, 45.37, 52.25, 35.37, 57.16, 35.37, 58.32,

41.05, 33.72, 45.73, 37.90, 41.72, 36.07, 49.83, 36.24, 39.90

Do you know tath this record present a tending to increase or decrease?

What is your null and alternative hypothesis?

Prueba de tendencia Cox y Stuart

� Datos

� Observaciones son una secuencia de variables aleatorias,

ordenadas usando un criterio especifico

� Esta prueba es usada para detectar cualquier tipo de

patrón no aleatorio

� Supuestos

� Las variables aleatorias son mutuamente independientes

� La escala de medición es al menos ordinal

� Las variables están idénticamente distribuidas o hay

tendencia. O sea: es mas probable que la ultima variable

sea mayor que la anterior o viceversa

Hipótesis

tendenciadepatronunExisteH

tendenciahayNoH

:

:

1

0

: crecientetendenciaunahayNoH

)(:

:

1

0

positivacrecientetendenciaunaHayH

crecientetendenciaunahayNoH

)(:

:

1

0

negativaedecrecienttendenciaunaHayH

edecrecienttendenciaunahayNoH

�Estadístico de prueba

� Agrupando las variables aleatorias en pares ,

, … , donde si n es par o si n

es impar

� Reemplazando cada par con un ”+” si o un “-” si

� Descartando los empates, el numero de pares es

( )cXX +11

, ( )cXX +22 ,

( )cnn XX +, 2nc =( ) 21+= nc

cii XX +<cii XX +>

*n� Descartando los empates, el numero de pares es

� El estadístico de prueba es el numero total de “+”

T=Total de parejas con

*n

cii XX +<

Cochran (1937) comparo la reacción de un grupo de pacientes

a dos drogas para determinar si hay una correlación positiva

entre las reacciones de cada paciente a dos tipos de drogas

Paciente D-1 D-2 Paciente D-1 D-2

1 +0.7 +1.9 6 +3.4 +4.4

Algunas Aplicaciones - Correlacion

1 +0.7 +1.9 6 +3.4 +4.4

2 -1.6 +0.8 7 +3.7 +5.5

3 -0.2 +1.1 8 +0.8 +1.6

4 -1.2 +0.1 9 0.0 +4.6

5 -0.1 -0.1 10 +2.0 +3.4

� Hipótesis

� Estadístico de prueba

positivancorrelacioHayH

positivancorrelaciohayNoH

:

:

1

0

Paciente D-1 D-2 Paciente D-1 D-2

2 -1.6 +0.8 1 +0.7 +1.9

4 -1.2 +0.1 8 +0.8 +1.6

La prueba se hace sobre los datos ordenados por la D-1 usando los datos de D-2

4 -1.2 +0.1 8 +0.8 +1.6

3 -0.2 +1.1 10 +2.0 +3.4

5 -0.1 -0.1 6 +3.4 +4.4

9 0.0 +4.6 7 +3.7 +5.5

� Las cinco parajes en la secuencia de observaciones de

D-2 son:

(+0.8,+1.9);(+0.1,+1.6);(+1.1,+3.4);(-0.1,+4.4); (+4.6,+5.5).

� El estadístico de prueba es T+=5� El estadístico de prueba es T =5

( )5 5, 0.5 0.0312P T n p+ = = = =

Los datos suministran suficiente información para pensar que existe una

correlación positiva entre la respuesta de los pacientes a la medicamento 1

y su respuesta al medicamento 2.

Ejercicio (Un caso conocido)

Al programa académico de estadística ingresan anualmente cohortes de 100

estudiantes, algunos de los cuales llegan con la convicción de estudiar esta

carrera, mientras que otra parte se encuentra totalmente decidido a cambiarse.

“Situación preocupante”.

Se piensa que los cursos introductorios de estadística podrían hacer cambiar

sus intenciones, o ejercer el efecto contrario. Para evaluar estas hipótesis, la

dirección del programa y la coordinación de autoevaluacion han preguntado adirección del programa y la coordinación de autoevaluacion han preguntado a

78 de estudiantes su intención de cambiarse antes y después del curso de

Introducción a la estadística. Los resultados se pueden resumir en una tabla

tipo como la siguiente

E1 E2 E3 E4 E5 E6 E7 E8 … E78

Inicio C Q Q C C C C Q …. C

Fin Q Q C Q Q C Q Q …. Q

Cual seria su mecanismo para valorar esta hipótesis?

Ejercicio (Un caso conocido)

Tabla resumen de resultados

FINAL

INICIO Q C

Q 20 10

Caso particular

C 38 15

Tiempo 2

Tiempo 1 0 1

0 a b

1 c d

Caso general

Prueba de McNemar� Datos

� Observaciones bivariadas independientes medidas en

escala nominal con dos categorías

� Los datos están resumidos en una tabla de contingencia

2x2

� Supuestos

� Las parejas i,j son mutuamente independientes

� La escala de medición es nominal con dos categorías

� La diferencia

� o

� o

( 0, 1) ( 1, 0) 0i i i i

P X Y P X Y i= = − = = = ∀

( 0, 1) ( 1, 0) 0i i i i

P X Y P X Y i= = − = = > ∀

( 0, 1) ( 1, 0) 0i i i i

P X Y P X Y i= = − = = < ∀

� Hipótesis

� Si los eventos (0,1) son llamados “+” y los eventos

(1,0) son llamados “-”. Los eventos (1,1) y (0,0)

son empates que no se tienen en cuenta. Las

0

1

: ( 0, 1) ( 1, 0)

: ( 0, 1) ( 1, 0)

H P X Y P X Y

H P X Y P X Y

= = = = =

= = ≠ = =

son empates que no se tienen en cuenta. Las hipótesis anteriores son equivalente a

)()(:

)()(:

1

0

−≠+

−=+

PPH

PPH

� Estadístico de prueba

� si

� Si y prueba de una cola

20≤+ cb bT =2

Prueba binomial

20b c+ > Aproximación normal

b cU

−=

� Si y prueba bilateral

( )cb

cbT

+

−=

2

1

20b c+ > Aproximación Ji Cuadrado

Coonover

Ub c

=+