TEMA 7.- CONTRASTES DE HIPÓTESIS -...

58
TEMA 7.- CONTRASTES DE HIPÓTESIS 1 Contrastes de hipótesis Tipos de contrastes 1.- Contrastes de hipótesis. Tipos de contrastes. 2.- Elementos de un contraste: 21 Hipótesis nula e hipótesis alternativa 2.1.- Hipótesis nula e hipótesis alternativa. 2.2.- Nivel de significación de un contraste .Tipos de errores errores. 2.3.- Estadístico del contraste 24 - Región crítica o región de rechazo 2.4. Región crítica o región de rechazo. 3.- Casos generales a estudiar en contrastes paramétricos. Ejemplo de resolución de un contraste paramétrico. 4.- Definición de p-valor de un contraste.

Transcript of TEMA 7.- CONTRASTES DE HIPÓTESIS -...

TEMA 7.- CONTRASTES DE HIPÓTESIS1 Contrastes de hipótesis Tipos de contrastes1.- Contrastes de hipótesis. Tipos de contrastes.2.- Elementos de un contraste:

2 1 Hipótesis nula e hipótesis alternativa2.1.- Hipótesis nula e hipótesis alternativa. 2.2.- Nivel de significación de un contraste .Tipos de erroreserrores.2.3.- Estadístico del contraste2 4 - Región crítica o región de rechazo2.4. Región crítica o región de rechazo.

3.- Casos generales a estudiar en contrastes paramétricos. Ejemplo de resolución de un contraste p j pparamétrico.

4.- Definición de p-valor de un contraste.

TEMA 7.- CONTRASTES DE HIPÓTESIS5 - Pasos a seguir en un contraste5.- Pasos a seguir en un contraste.6.- Casos particulares a estudiar en contrastes

paramétricos. Cálculo del p-valor para cada caso.p p p7.- Comentarios para problemas.8.- Contrastes de hipótesis no paramétricos:p p

8.1.- Introducción. Pasos a seguir en un contraste no paramétrico.paramétrico.8.2.- Contraste de la chi-cuadrado para modelos discretos.8 3 - Contraste de Kolmogorov- Smirnov para modelos8.3. Contraste de Kolmogorov Smirnov para modelos continuos.

Ó1.- CONTRASTES DE HIPÓTESIS. TIPOS DE CONTRASTES

Un contraste de hipótesis es una técnica estadística para decidir sobre si “aceptamos” o “rechazamos” una cierta hipótesis, en términos probabilísticos.

Un contraste de hipótesis siempre se plantea en términos de dos hipótesis, que llamaremos HIPÓTESIS NULA HIPÓTESISHIPÓTESIS NULA e HIPÓTESIS ALTERNATIVA.

Un contraste no es na demostración de ning na Un contraste no es una demostración de ninguna de las dos hipótesis. Nos indica si, con los datos de los que disponemos es MÁS VERAZ unade los que disponemos, es MÁS VERAZ una hipótesis que la otra.

TIPOS DE CONTRASTES DE HIPÓTESIS: hay dos tipos de contrastes:

É1.- CONTRASTES PARAMÉTRICOS: Las hipótesis se hacen sobre el valor o valores que puede tomar un parámetro/s desconocido/s θ Los parámetros son:desconocido/s θ. Los parámetros son: Si estudiamos una característica X: la media µ, la varianza σ2

(o la desviación típica σ) o la proporción p de individuos que i i d dposeen una cierta propiedad.

Ejemplo 1: Se conoce que la vida media de los elementos resultantes de un proceso de fabricación es de 5000 horas Seresultantes de un proceso de fabricación es de 5000 horas. Se introducen mejoras en el proceso y se quiere saber si la vida media ha aumentado o no ( = 5000 ó > 5000).

Si estudiamos dos características X e Y: sus medias, µX y µY, o sus varianzas,σ2

X y σ2Y.

Ejemplo 2: Se desea estudiar si la remuneración media obtenidaEjemplo 2: Se desea estudiar si la remuneración media obtenida en un trabajo análogo por personas de la misma cualificación profesional depende del sexo o no (X = Y o X Y ).

2.- CONTRASTES NO PARAMÉTRICOS: Las hipótesis se hacen sobre el modelo de distribución que sigue la variable que se está estudiandoque se está estudiando.

Estos contrastes se han visto en prácticas:Estos contrastes se han visto en prácticas: Contraste de la Chi-cuadrado (chi-square test) para

modelos discretos. Contraste de Kolmogorov-Smirnov (K-S test) para

modelos continuos.

Ejemplo 3: Se desea saber si la variable que mide la altura en la población española sigue una distribución normal o nopoblación española sigue una distribución normal o no.

Los elementos de un contraste, que veremos en el puntoLos elementos de un contraste, que veremos en el punto siguiente, son comunes a los contrastes paramétricos y a los no paramétricos.

2 OS CO AS2.- ELEMENTOS DE UN CONTRASTELos elementos que componen un contraste son:

Hipótesis nula (H0) e hipótesis alternativa (H1): recogen las dos hipótesis que se quieren estudiar. Suelen ser complementariascomplementarias.

Nivel de significación α: Mide el máximo error que queremos cometer al tomar la decisión en términos probabilísticoscometer al tomar la decisión, en términos probabilísticos.

La/s muestra/s: los datos que se toman x1, x2,…, xn de la característica en estudio X ( si se estudian dos características X ecaracterística en estudio X ( si se estudian dos características X e Y, se toma una muestra de cada una de ellas).

Estadístico del contraste: Es el estadístico que usaremos para q ptomar la decisión del contraste, T(X1, X2,…, Xn ).

Región crítica o de rechazo: Si T(x1, x2,…, xn ) pertenece a esta 1 2 nregión de la recta real, la decisión del contraste será rechazar H0 y aceptar H1 . En caso contrario, aceptaremos H0.

2.1.-HIPÓTESIS NULA E HIPÓTESIS ALTERNATIVA Un contraste de hipótesis siempre consta de dos hipótesis: la p p p

hipótesis nula (H0) y la hipótesis alternativa (H1). Suelen ser hipótesis complementarias.

En un contraste la hipótesis H0 es la hipótesis que marca el contraste: H0 se considera cierta mientras los datos no d t l t idemuestren lo contrario.

Por ese motivo, el planteamiento habitual es: Hipótesis nula (H ): la hipótesis con la que se viene Hipótesis nula (H0): la hipótesis con la que se viene

trabajando hasta el momento. En algunos problemas es una hipótesis neutra, que no toma partido por ninguna alternativa.

Hipótesis alternativa (H1): es la hipótesis que incorpora los cambios sobre lo que suele ser la maneraincorpora los cambios sobre lo que suele ser la manera habitual de trabajar. Suele ser una hipótesis que toma partido (no neutra).

Ejemplo 4: Se conoce que la vida media de los elementos resultantes de un proceso de fabricación es de 5000 horas. Se introducen mejoras en el proceso y se quiere saber si la vida mediaintroducen mejoras en el proceso y se quiere saber si la vida media ha aumentado o no, el planteamiento correcto para las hipótesis nula y alternativa sería:

H0: = 5000H1: > 5000

Con este planteamiento:S id i l id di d l l i Se considera cierto que la vida media de los elementos sigue

siendo de 5000 horas (H0). Se tomarán datos después de haber introducido las mejoras para Se tomarán datos después de haber introducido las mejoras para ver si estos datos confirman que, efectivamente, se ha producido una mejora en la vida media de los elementos resultantes de un

d f b i i i l d l i di hproceso de fabricación. Si los datos así lo indican, rechazaremos H0y aceptaremos H1.

L it ió á i il l l t i t d t t l dLa situación más similar al planteamiento de un contraste es la de un juicio: H0: inocente

H : culpableH1: culpableA un enjuiciado se le considera inocente mientras las pruebas no demuestren lo contrario. Entonces,1.- La hipótesis H0 se considera cierta de entrada SIEMPRE.

Solamente se aceptará como cierta la hipótesis H1 si los datos m estran e idencia a fa or de Hmuestran evidencia a favor de H1.

2.- Aceptar H0 no significa que H0 sea cierta necesariamente sino que los datos NO muestran evidencia a favor de H1.los datos NO muestran evidencia a favor de H1.

3.- Rechazar H0 SIEMPRE significa aceptar H1. Significa que los datos SÍ muestran evidencia a favor de H1.

4.- Un contraste no es una demostración de ninguna de las dos hipótesis. Nos indica si, con nuestros datos, es más veraz una hipótesis que otrahipótesis que otra.

5.-Al tomar cualquiera de las dos decisiones podemos estar cometiendo un error.

Ó2.2.- NIVEL DE SIGNIFICACIÓN DEL CONTRASTE TIPOS DE ERRORES.

Al tomar una decisión sobre las hipótesis H0 y H1 se pueden cometer dos tipos de errores: Error de tipo I: rechazar H0 siendo cierta Error de tipo I: rechazar H0 siendo cierta. Error de tipo II: aceptar H0 siendo falsa.

Estos errores se miden en términos de PROBABILIDAD e i l b bilid d d b ñinteresa que la probabilidad de cometer ambos sea pequeña.

Definimos:1 - = P(cometer error de tipo I) =1.- = P(cometer error de tipo I) = = P(rechazar H0 siendo H0 cierta) = P(aceptar H1 siendo H0 cierta) =

= P(aceptar H1 /H0 cierta)

se llama nivel de significación del contraste

2.- P(cometer error de tipo II) = P(no rechazar H0 siendo H0 falsa) =P(aceptar H0 siendo H0 falsa) = P(aceptar H0 / H0 falsa)

h d i id l d i Ejemplo 5: una empresa ha adquirido un lote de piezas para ser montadas en sus equipos pero, para que sea rentable el proceso de montaje, la proporción de piezas defectuosas, p, debe de serde montaje, la proporción de piezas defectuosas, p, debe de ser menor del 2%. En otro caso, el lote se devolverá a la empresa suministradora.

Posible planteamiento: 0

1

: 0.02: 0.02

H pH p

Cometer error tipo I ( rechazar H0 siendo cierta) significa decidir que la proporción de defectuosas es menor del 2%

1

decidir que la proporción de defectuosas es menor del 2% cuando en realidad no es así. Consecuencia: la empresa acepta un lote incorrecto por lo que no sería rentable el proceso de

t jmontaje. Cometer error tipo II (aceptar H0 siendo falsa) significa decidir

que la proporción de piezas defectuosas en el lote es mayor oque la proporción de piezas defectuosas en el lote es mayor o igual que el 2% cuando en realidad no lo es. Consecuencia: la empresa va a devolver un lote correcto.

Interesaría minimizar la probabilidad de cometer ambos tipos de errores pero se puede demostrar que cuando un

t l t di i ierror aumenta el otro disminuye y viceversa.

Modo de trabajo: Modo de trabajo: Se fija un valor pequeño para la probabilidad de

cometer uno de ellos, por ejemplo, el error de tipo I . co e e u o de e os, po eje p o, e e o de po .Este valor es el nivel de significación del contraste, . Suele tomarse 0.1 (error máximo del 10%).S li l i i i l d i II Se elige el contraste que minimice el error de tipo II .

T d l t t t t Todos los contrastes que vamos a usar en este tema están construidos bajo este criterio.

Por este motivo, en casos reales, las hipótesis se plantean de manera que el error “más grave” sea el error de tipo I l t l l i t d E i t lI porque es el que controla el experimentador. Existe el problema de que “lo más grave” siempre es subjetivo.

En el ejemplo 5, el planteamiento que hemos hecho sería el adecuado

0 02H 0

1

: 0.02: 0.02

H pH p

porque así definido, el error de tipo I (la empresa acepta un lote incorrecto por lo que no le resultaría rentable el proceso de montaje) es más grave que el error de tipo II (la empresade montaje) es más grave que el error de tipo II (la empresa va a devolver un lote correcto).

En los ejercicios de clase haremos planteamientos más mecánicos.

Í En CONTRASTES PARAMÉTRICOS, los estadísticos

OS S OS h d i l l

2.3.- ESTADÍSTICO DEL CONTRASTE

son LOS MISMOS que hemos usado en intervalos para los mismos casos. Si estudiamos una sola variable X:

á t t dí ti X2 2

parámetro : estadísticoparámetro :estadístico

ˆ

XS

Si estudiamos dos variables X e Y, los parámetros son:

ˆparámetro : estadísticop P

, p2

2y XX Y

X

En este caso, sí plantearemos las hipótesis del contraste pero no nos hace falta conocer los estadísticos porque los resolveremos con Statgraphics. En CONTRASTES NO PARAMÉTRICOS los En CONTRASTES NO PARAMÉTRICOS los

estadísticos que se emplean son distintos y los veremos más adelante.

Ó Í Ó2.4- REGIÓN CRÍTICA O REGIÓN DE RECHAZOLa REGIÓN CRÍTICA R se define como el conjunto de valoresdel estadístico para los que se rechaza la hipótesis nula H y sedel estadístico para los que se rechaza la hipótesis nula, H0 y seacepta, por tanto, la hipótesis alternativa H1 .La región crítica de un contraste es un intervalo de la recta real.

Sea X la variable en estudio. Tomamos una m.a.s. X1, X2,…, Xn deX Sea T(X X X ) el estadístico del contraste Entonces alX. Sea T(X1, X2,…, Xn ) el estadístico del contraste. Entonces, alsustituir nuestra muestra concreta X1= x1 X2= x2,…,Xn = xn en elestadístico, decidiremos sobre el contraste planteado de lasiguiente forma:siguiente forma:

1 2 0 1Si , ,..., Rechazar AceptarnT x x x R H H

1 2 0 0Si , ,..., No rechazar AceptarnT x x x R H H

Observación: Este procedimiento sirve tanto para contrastesparamétricos donde se estudian una o dos características comopara contrastes no paramétricos.

3.-CASOS GENERALESA ESTUDIAR EN CONTRASTES PARAMÉTRICOS

CASO 1H0 : =C ó C

CASO 2H0 : =C ó ≤ C

CASO 3H0 : = C

donde C es una constante CONOCIDA y θ es el parámetro

0

H1: C0

H1: > C0

H1: C

donde C es una constante CONOCIDA y θ es el parámetro desconocido. Los contrastes de hipótesis nula H0 : =C ó H0 : C se

l i l l ió í i S l lresuelven igual porque la región crítica SIEMPRE la marca la hipótesis alternativa, que es la misma en ambos casos, H1: C . Lo mismo sucede para los contrastes con H0 : =C ó H0 : ≤ C.mismo sucede para los contrastes con H0 : C ó H0 : ≤ C. Los casos 1 y 2 se llaman contrastes unilaterales. El caso 3 se

llama contraste bilateral. Las decisiones en el caso 3 con nivel de significación las

tomaremos mediante un intervalo de confianza con nivel 1- .

Si T es el estadístico del contraste, la forma de la región crítica para cada caso la marca la hipótesis alternativa H1. De hecho,para cada caso la marca la hipótesis alternativa H1. De hecho, la forma de la región crítica es LA MISMA que la forma de H1.

CASO 1 CASO 2 CASO 3CASO 1H0 : =C ó CH1: C

CASO 2H0 : =C ó ≤ CH1: > C

CASO 3H0 : = CH1: C

CASO 1T < K

CASO 2T > M

CASO 3Intervalo para θ

H1: C H1: > C H1: C

Las constantes de las regiones críticas, K y M, se obtendrán a partir de la condición:

p

partir de la condición:α = P(cometer error de tipo I) = P(rechazar H0 /H0 cierta) =

=P(aceptar H1 /H0 cierta) = P(caer en R.C./ H0 cierta)1 0 0donde α es un valor conocido y pequeño.

ÓEJEMPLO DE RESOLUCIÓN DE UN CONTRASTE PARAMÉTRICO

Sea X v a N( ) m a s de tamaño 25 donde la media Sea X v.a. N(,), m.a.s. de tamaño 25 donde la mediamuestral es y la cuasidesviación típica es s = 5.Tomemos como nivel de significación del contraste = 0.05.

l l

4.2x

Planteamos el contraste:H0 : = 2H > 2H1: > 2

El estadístico del contraste y la región crítica son:

Vamos a calcular K a partir de la ecuación

Estadístico : Región crítica : ó ( , )X X K X K

Vamos a calcular K a partir de la ecuación

(error tipo I) 0.05 / 2 0.05P P X K

y a tomar la decisión del contraste.

0.05 ( / 2) ( / 2)/ /

X KP X K PS n S n

1 24 242 2( ) ( ) ( 2)

/ 5 / 25nK KP t P t P t KS n

IMPORTANTE: Para obtener las constantes de las regiones críticas en contrastes paramétricos vamos a usar los mismos pivotes que en intervalos de confianza para los mismos casos.

En este ejemplo, X v.a. N(,) con desconocida, intervalo para μ, j p , (, ) , p μ,el pivote era:

1/ nX tS

Y es el pivote que usaremos en la segunda igualdad. Entonces, en este ejemplo el cálculo de la constante K se va a reducir a mirar un

/S n

este ejemplo, el cálculo de la constante K se va a reducir a mirar un valor en las tablas de la distribución t24 .

Usando las tablas de la distribución t de Student:

24 24( 2) 0.05 ( 2) 0.952 1.7109 3.7109

P t K P t KK K

La región crítica resultante es entonces:

.7 09 3.7 09

3.7109 ó (3.7109, )X X

Decisión: Con nuestros datos . Entonces, caemos en la

( , )

4.2x región crítica por lo que la decisión del contraste es rechazar H0 y aceptar H1 : los datos muestran evidencia a favor de que > 2.

024Gráficamente, como la distribución de siendo cierta es/

XHt

S n

Mean,Std. dev.0,1

0,3

0,4

0,2

0

0,1

-5 -3 -1 1 3 50

K 4.2x •Con K = 3.7109, la región crítica es la zona rayada en gris. Como 4.2x , g y ghemos decidido rechazar H0 porque ese valor cae en R.C.

• También podríamos tomar la decisión calculando

4.2x

04.2 /P X x H cierta py viendo que este valor (que es el área que queda a la derecha de la línea roja) es menor que α = 0.05.

•Al valor se le llama p-valor del contraste Vamos a calcularlo en el ejemplo.

04.2 /P X x H cierta

valor ( 4 2 / cierta) ( 4 2 / 2)p P X x H P X

OBTENCIÓN DEL p-valor EN ESTE EJEMPLO0

1 24

valor ( 4.2 / cierta) ( 4.2 / 2)4.2 4.2 2 4.2 2( / 2) ( ) ( )

/ / / 5 / 25n

p P X x H P XXP P t P tS S S

24 24

/ / / 5 / 25( 2.2) 1 ( 2.2) 1 0.98 0.02S n S n S n

P t P t

Como p-valor = 0.02 < = 0.05, se rechaza H0 y se acepta H1 Por supuesto, se llega a la misma decisión que si obtenemosp , g q

las región crítica y decidimos con ella. En la tercera igualdad estamos usando el mismo pivote que

i t l d fi l ien intervalos de confianza para el mismo caso:

1/ nX tS n

Esto mismo haremos en todos los contrastes paramétricos./S n

4.- DEFINICIÓN p – VALOR DE UN CONTRASTE

Vamos a volver sobre la definición de p-valor: El p-valor de un contraste es el mínimo nivel de significación a partir del cual se rechaza la hipótesis nula H0 .

En el ejemplo, p-valor ≈ 0.02, entonces,

• Si 0.02 < , es decir, si > 0.02, se rechaza H0 y se acepta H1 . En el ejemplo, con = 0.05 se da esta situación.

• Si 0.02 > , es decir, si < 0.02 se acepta H0. Si en el ejemplo tomásemos = 0.01, se aceptaría H0.

Por eso, el p-valor es el más pequeño a partir del que sePor eso, el p valor es el más pequeño a partir del que se rechaza H0 y se acepta H1 .

4.- DEFINICIÓN p – VALOR DE UN CONTRASTE

Definición: El p-valor de un contraste es el mínimo nivel de significación a partir del cual se rechaza la hipótesis nula H0 .

• El p-valor de un contraste se calcula como la probabilidad de la región crítica limitada por el valor que toma el estadístico del contraste con los datos de la muestra, supuesto H0 cierta. Y en ese cálculo, usaremos el mismo pivote que usábamos en intervalos de confianza para el mismo casointervalos de confianza para el mismo caso.• Al ser una probabilidad, el p-valor [0,1].

•TOMA DE DECISIONES CON el p-valor: se compara con y

• Si p-valor < se rechaza H0 y se acepta H1 con másSi p-valor < , se rechaza H0 y se acepta H1 , con más certeza cuanto más cercano sea el p-valor a 0.

• Si p valor > se acepta H con más certeza cuanto más• Si p-valor > , se acepta H0, con más certeza cuanto más cercano sea el p-valor a 1.

5.- PASOS A SEGUIR EN UN CONTRASTE

P 1 Pl t i t d l hi ót i l lt ti Paso 1: Planteamiento de las hipótesis nula y alternativa en términos de los parámetros (contrastes paramétricos) o del modelo (contrastes no paramétricos).( p )

Paso 2: Elegir el estadístico del contraste. Paso 3: Definir la región crítica del contraste. Se basa en el

estadístico del contraste y tiene la forma de la hipótesis alternativa en contrastes paramétricos.

Paso 4: Calcular el p valor del contraste: todos los paquetes Paso 4: Calcular el p-valor del contraste: todos los paquetes estadísticos usan este método de resolución.

Paso 5: Toma de decisiones: comparar el p-valor con α yp p y Si p-valor < , se rechaza H0 y se acepta H1 , con más

certeza cuanto más cercano sea el p-valor a 0. Si p-valor > , se acepta H0, con más certeza cuanto

más cercano sea el p-valor a 1.

6.-CASOS PARTICULARES A ESTUDIAR EN CONTRASTES PARAMÉTRICOS. CÁLCULO DEL p-VALOR PARA CADA CASO.

Dentro de los tres planteamientos posibles:

CASO 1 CASO 2 CASO 3H0 : =C ó CH1: C

H0 : =C ó ≤ CH1: > C

H0 : = CH1: C

los distintos parámetros θ serán:• Si estudiamos una característica X: la media µ, la

i 2 ( l d i ió í i ) l ióvarianza σ2 (o la desviación típica σ) o la proporción p de individuos que poseen una cierta propiedad.

• Si estudiamos dos características X e Y: la diferencia de medias, µX - µY (permite comparar las medias) o el cociente de varianzas σ2 / σ2 (permite comparar lascociente de varianzas σ2

X / σ2Y (permite comparar las

varianzas).

6.1.- Contrastes paramétricos para la media de una variable X~N(μ,σ) y muestras pareadas si D = X – Y es N( )N(μD = μX - μY ,σ)

L l l i l d i ifi ió idLos valores μ0 y α, el nivel de significación, son conocidos.

0 0:H 0 0:H

0 0

1 0

Intervalo de confianza

::

HH

0 0

1 0::. .R

HX KCl

1 0

0

:: ; /. .

HX C P X x HRC p valor

Intervalo de confianzapara a nivel 1

0 00/ cierta

/ /X xP X x H PS n s n

p valor

0 0

/ /X xPS n s n

01 /

/ /

n

S n s nxP ts n

01 /n

xP ts n

6.2.- Contrastes paramétricos para la media de una variable X no normal con tamaño muestral n ≥ 100

Los valores μ0 y α, el nivel de significación, son conocidos.

0 0:H 0 0:H

0 0

1 0

Intervalo de confianza

::

HH

0 0

1 0::. .R C

l

HX K

1 0

0

:: ; /. .

HX C P X x HRC p val ro

Intervalo de confianzapara a nivel 1

0 00/ cierta

/ /

p val

X xP X x H PS n s n

or

0 0

/ /X xPS n s n

0

/ /

0,1/

S n s nxP Ns n

00,1/

xP Ns n

6.3.- Contrastes paramétricos para la varianza 2 de una variable X~N(μ,σ)

Ó Este tipo de contrastes SÓLO se pueden resolver si la variable X tiene distribución normal.

L l 2 l i l d i ifi ió Los valores σ20 y α , el nivel de significación, son

conocidos. 2 2H

2 20 0

2 21 0

::

HH

2 20 0

2 21 0

Intervalo de confianza

::

HH

1 0

2 2 20

2 2

: , /

( 1) ( 1)

. . S C P S s H

n

R C p v

S n s

alor

2 2

0 02 2

1 02

::

HH

2

Intervalo de confianzapara a nivel 1

2 20 0

22

( 1) ( 1)

( 1)

n S n sP

n sP

2

2 22 2

0 2 20 0

: ,

( 1) ( 1)/

. . S K

n

R C p valo

S n sP S s H P

r

21 2

0

( )nP

0 0

22

1 20

( 1)n

n sP

6 4 C é i l ió6.4.- Contrastes paramétricos para la proporción, p Para poder realizar este contraste hace falta n ≥ 100. El pivote que se usa es DISTINTO al que se usa en intervalos El pivote que se usa es DISTINTO al que se usa en intervalos

de confianza. Los valores p0 conocido y α, el nivel de significación, son

idconocidos. 0 0

1 0::H p p

H p p

0 0::

H p pH p p

0 0:H p p

1 0

Intervalo de confianzapara a nivel 1p

p p

1 0

0

:ˆ ˆ ˆ: , /. .

H p p

P C P P p HRC p valor

1 0:

ˆ: ,. .

H p p

P KRC p va rlo

0 0

0 0 0 0

ˆ ˆ(1 ) (1 )

P p p pPp p p p

0 00

0 0 0 0

ˆ ˆˆ ˆ /(1 ) (1 )

P p p pP P p H Pp p p p

0ˆ0 1

n n

p pP N

0 1

n n

p pP N

0

0 0

0,1(1 )

p pP Np p

n

0

0 0

0,1(1 )

p pP Np p

n

6.5.- Contrastes paramétricos para el cociente de varianzas, X~N(μX,σY) e Y~N(μY,σY)

2

2X

Y

Los valores σ20 y α, nivel de significación, son conocidos.

En todos casos, las muestras tienen que ser independientesEn todos casos, las muestras tienen que ser independientes Estos contrastes se plantearán ajustándose a uno de estos tres casos y se resolverán con Statgraphics.

2 2 20 0

2 2 2

: /X YH 2 2 2

0 02 2 2

: //

X YHH

2 2 20 0

2 2 21 0

: /: /

X Y

X Y

HH

2 2 21 0: /

: StatgraphicsX Y

p va orH

l

2 2 21 0: /

: StatgraphicsX Y

p va orH

l

2 2 : Statgraphi

intervalopara / csX Y

p valor ó

IMPORTANTE: siempre que la variables sean NORMALES, lo primero que hay que hace es decidir si las varianzas son iguales oprimero que hay que hace es decidir si las varianzas son iguales o distintas.

6.6.- Contrastes paramétricos para la diferencia de mediasde dos variables X e Y normales o X e Y con X Y

distribución cualquiera, n , m ≥ 100

L l i l d i ifi ió id Los valores μ0 y α, nivel de significación, son conocidos. En todos casos, las muestras tienen que ser independientes Estos contrastes se plantearán ajustándose a uno de estos Estos contrastes se plantearán ajustándose a uno de estos tres casos y se resolverán con Statgraphics.

0 0

1 0

::

X Y

X Y

HH

0 0

1 0

::

X Y

X Y

HH

0 0

1 0

::

X Y

YX

HH

1 0

: StatgraphicsX Y

p va orl

: Statgraphicsp va orl intervStat

alopara graphics:YX

óp valor

7.- COMENTARIOS PARA PROBLEMAS1.- Lo primero que hay que hacer es ver en qué caso estamos (una p q y q q (

o dos variables, muestras independientes o pareadas, variables normales o no) y saber sobre qué parámetro nos piden tomar la decisión (media varianza o proporción; diferencia de mediasdecisión (media, varianza o proporción; diferencia de medias, cociente de varianzas).

2.- Es fundamental plantear correctamente el contraste: Hipótesis nula (H0): poner la hipótesis con la que se viene 0

trabajando hasta el momento o bien una la hipótesis neutra, que no tome partido por ninguna alternativa.

Hipótesis alternativa (H ): poner en esta hipótesis los Hipótesis alternativa (H1): poner en esta hipótesis los cambios sobre lo que suele ser la manera habitual de trabajar o bien la hipótesis que queremos verificar si es cierta usando los datos recogidos.

7.- COMENTARIOS PARA PROBLEMAS3 - SIEMPRE nos adecuaremos a uno de estos tres3. SIEMPRE nos adecuaremos a uno de estos tres

planteamientos:

CASO 1 CASO 2 CASO 3CASO 1H0 : =C ó CH : C

CASO 2H0 : =C ó ≤ CH : > C

CASO 3H0 : = CH : CH1: C H1: > C H1: C

La resolución de los contrates tiene algunas limitaciones “técnicas” en problemas académicos.

La más importante es que el signo = de las hipótesis La más importante es que el signo = de las hipótesis siempre debe de ir en H0.

En casos reales este hecho no es un problema.p

7.- COMENTARIOS PARA PROBLEMAS4 - Los planteamientos de las hipótesis se hacen ANTES de4. Los planteamientos de las hipótesis se hacen ANTES de

tomar los datos de la muestra. Por ese motivo, en los ejercicios, NO hay que tener en cuenta los valores

t l h l l t i tmuestrales para hacer el planteamiento.

5 Con las tablas que tenemos no vamos a conseguir el valor5.- Con las tablas que tenemos no vamos a conseguir el valor exacto del p-valor y vamos a tener que acotarlo. Los paquetes estadísticos (Statgraphics) sí dan el p-valor exacto.

6.- Los casos de contrastes para una variable y muestras d di á l lpareadas se pedirán resolver completos a mano.

Los casos de dos variables, muestras independientes, se resolverán con Statgraphics calculando el p-valor delresolverán con Statgraphics calculando el p-valor del contraste. Previamente, hay que hacer a mano el planteamiento de hipótesis.

7.- COMENTARIOS PARA PROBLEMAS7 - En el caso de dos variables normales muestras7. En el caso de dos variables normales, muestras

independientes, cuando tengamos que hacer un contraste para comparar las medias ,lo primero que hay que hacer SIEMPRE d idi i l i i lSIEMPRE es decidir si las varianzas son iguales o distintas. Una vez tomada esta decisión es cuando pasaremos a realizar el contraste correspondiente a las p pmedias.

8.- En el caso de contrastes para la varianza, σ2, o para el i d i S h i l2 2cociente de varianzas, , Statgraphcis resuelve

contrastes en términos de las desviaciones típicas. Por ejemplo,

2 2/X Y

j p ,2

0 02

1 1

: 49 : 7: 49 : 7

H HH H

Ó8. CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS. INTRODUCCIÓN

Las hipótesis se hacen sobre aspectos como el modelo de distribución que siguen los datos que se están estudiando o ver si las observaciones que componen la muestra sono ver si las observaciones que componen la muestra son independientes.

Sólo vamos a tratar hipótesis sobre el modelo de distribución del que podrían proceder los datos recogidos de una variable aleatoria X (prácticas 2 y 3).

Las hipótesis son del tipo: Las hipótesis son del tipo: H0 :X se distribuye según un modelo H1:X no se distribuye según ese modeloH1:X no se distribuye según ese modelo

Ejemplos:H0: X es Bin(5, p) H0: X es N(µ,σ)0 0H1: X no es Bin(5, p) H1: X no es N(µ,σ)

8.1. PASOS EN UN CONTRASTE NO PARAMÉTRICOSon los mismos pasos que para contrastes paramétricos es decirSon los mismos pasos que para contrastes paramétricos, es decir,

Paso 1: Planteamiento de las hipótesis: Paso 1: Planteamiento de las hipótesis:H0: X sigue el modelo FθH1: X no sigue el modelo Fθ

Paso 2: Elegir un estadístico a partir del cual se construye la región crítica. No son los mismos estadísticos que en contrastes paramétricos (están en el formulario) Elegir el nivel deparamétricos (están en el formulario). Elegir el nivel de significación α.

Paso 3: Definir la forma de la región crítica o de rechazo del contraste.

Paso 4: Calcular el p-valor del contraste. P 5 T d d i i H h H l Paso 5: Toma de decisiones: aceptar H0 o rechazar H0 , lo que supone aceptar H1 .

Observaciones:

l d l l hi i d d d1.- El modelo que se propone en la hipótesis H0 puede dependerde parámetros desconocidos o no. En el caso de que existanparámetros desconocidos en las hipótesis, los parámetros sep p pestimarán por máxima verosimilitud.

2.- En el caso de rechazar H0 , la alternativa no es clara y hay que

V di d

0 , y y qvolver a proponer otro modelo diferente para explicar los datosen H0 y resolver de nuevo el contraste.

Vamos a estudiar dos contrastes: Contraste de la chi-cuadrado (Chi-square test en

St t hi ) l l d l d l dStatgraphics): lo emplearemos cuando el modelo de distribución que se desea contrastar sea DISCRETO y el número de datos sea n ≥ 30.número de datos sea n ≥ 30.

Contraste de Kolmogorov- Smirnov (K-S test en Statgraphics): sólo sirve para el caso en que el modelo de g p ) p qdistribución que se desea contrastar sea CONTINUO. Se puede usar con cualquier número de datos.

8.2.-CONTRASTE DE LA CHI-CUADRADO (2) Para una v.a. X, tomamos una muestra de tamaño

n y un nivel de significación α. Planteamos las hipótesis

H0 :X se distribuye según un modelo DISCRETOH X di t ib ú d l H1:X no se distribuye según ese modelo.

El modelo que se propone en las hipótesis puededepender de parámetros desconocidos o no En eldepender de parámetros desconocidos o no. En elprimer caso , los parámetros se estimaránpreviamente por máxima verosimilitud.

Para realizar este contraste hace falta que el tamaño de la muestra utilizada sea grande (al menos 30)menos 30).

PASOS EN EL CONTRASTE DE LA CHI - CUADRADO

PASO 1: Se plantean las hipótesis. Se consideran m clases deforma que se cubra todo el rango de valores de la distribucióndiscreta que se está contrastando. A continuación, se clasifican losdatos de la muestra en estas clases y se calcula, para cada clase i,s frec encia absol ta en la m estra (frec encia obser ada)su frecuencia absoluta en la muestra ni (frecuencia observada).

Tanto las clases como las frecuencias se suelen disponer en unabl l i á ll d l i itabla, por columnas, que se irá rellenando en los siguientes pasos.

EJEMPLO : En un sistema de producción de planchas de metal, se ha observado el número de defectos existentes por m² en cada plancha de unaobservado el número de defectos existentes por m en cada plancha de una muestra, en una muestra de tamaño 576, con los siguientes resultados:

Nº defectos 0 1 2 3 4 5

Frecuencia 229 211 92 36 7 1

Determinar, con α = 0.01 si los datos provienen de una distribución de Poisson.

PASO 2: Se calcula la probabilidad pi para cada clase i supuestoque H0 es cierta (usaremos tablas). En general será necesarioq 0 ( ) gestimar los parámetros de la distribución propuesta en H0 para loque se usa el método de máxima verosimilitud y la muestra. Estasprobabilidades se anotan como tercera columna de la tabla.Tiene que cumplirse que 1ip PASO 3: Para cada clase i, se calcula npi (frecuencia esperada) que representa la frecuencia que debería tener la clase i si la

i bl X i i l di t ib ió t H E tvariable X siguiera la distribución propuesta en H0. Estas frecuencias se anotan como cuarta columna de la tabla.

El d l Chi d d i d l iEl contraste de la Chi-cuadrado necesita que, para cada clase i, se verifique que npi 5. Si no es así, será necesario redefinir las clases por ejemplo uniendo clases para que se cumpla laclases, por ejemplo, uniendo clases para que se cumpla la condición anterior. Llamemos k al número final de clases.

PASO 4: El estadístico del contraste va a comparar la diferenciaentre lo que sucede en la muestra y lo que debería de suceder en la

t i H f i t ( d i i X i i l di t ib iómuestra si H0 fuese cierta (es decir, si X siguiese la distribuciónpropuesta en H0). El estadístico de este contraste es:

22k k 22k ki i i

i=1 i=1i i

(n - np ) nD = nnp np

donde k es el número final de clases. La decisión será rechazar H0cuando las diferencias entre los datos tomados y los datos quey qdeberían darse si H0 fuese cierta sean grandes, es decir, la regióncrítica será de la forma D > C .La distribución de D si H0 es cierta, n 30, npi 5 es

donde k es el número final de clases y r el número de parámetros

21k rD

donde k es el número final de clases y r el número de parámetrosdesconocidos en H0 que ha habido que estimar.

PASO 5: Calcular el p-valor del contraste:

/ ciertap valor = P D d H

donde d es el valor que toma el estadístico D con los datos de lam estra Tomaremos la decisión del contraste comparando el

0/ ciertap valor = P D d H

muestra. Tomaremos la decisión del contraste comparando elp-valor con α.

Cálculo del p-valor en el ejemplo:

C l 0 01 l d i ió l d

25 1 12 06 2 06 0 500p valor P D . / H cierta P . .

Como p-valor > α = 0.01, la decisión es aceptar que los datos vienen de una Poisson.

RESOLUCIÓN DEL EJEMPLO CON STATGRAPHICSCon Statgraphics las probabilidades p salen diferentes porque aCon Statgraphics las probabilidades pi salen diferentes porque a mano hemos usado λ=0.9 para mirar en las tablas y Statgraphics usa el valor exacto de λ=0.93. Además, calcula el p-valor de manera exacta.

8.3.- CONTRASTE DE KOLMOGOROV-SMIRNOVPl l hi ó i Planteamos las hipótesis H0 :X se distribuye según un modelo CONTINUO

con función de distribución Fcon función de distribución F H1:X no se distribuye según ese modelo.

Para este contraste es necesario calcular la FUNCIÓNDE DISTRIBUCIÓN de la variable X propuesta en H0 .0

Recordar que la función de distribución para una variableq pcontinua X con densidad f venía dada por (tema 2):

x

x

F x P X x f t dt

Observaciones: Si el modelo propuesto en H depende de parámetros Si el modelo propuesto en H0 depende de parámetros

desconocidos hay que estimarlos previamente por máximaverosimilitud.verosimilitud.

Este contraste se realiza con cualquier tamaño muestral.

La decisión se toma comparando la función dedistribución del modelo propuesto en H0 con lap p 0función de distribución que considera que cada uno de losn datos de la muestra tiene probabilidad 1/n. Esta funciónde distribución se llama función de distribuciónempírica.Si l dif i t l d f i d di t ib ió Si la diferencia entre las dos funciones de distribución esgrande, rechazaremos H0 y aceptaremos H1.

Ó Ó Í

Para una muestra, se llama FUNCIÓN DE

FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA (de los datos)

, , ,1 2 n...x x xu ues , se UNC ÓNDISTRIBUCIÓN EMPÍRICA a la que considera que todos losvalores de la muestra tienen la misma probabilidad de suceder, 1/n.

, , ,1 2 nx x x

Entonces, ordenando los valores de la muestra de menor a mayor,

, tenemos:(1) (2) (n)....x x x

(1)01

x x

x x x

(1) (2)

(2) (3)2

( )

x x xn

x x xF

(2) (3)( )

1

nF x n

n

( 1) ( )

( )1

n n

n

x x xn

x x

PASOS EN EL CONTRASTE DE KOLMOGOROV

PASO 1: Planteamiento de hipótesis. Dada una muestra, seordenan los valores de la misma de MENOR A MAYOR, se

l l l f ió d di t ib ió í i lú dcalcula la función de distribución empírica y se evalúa en cadauno de los datos de la muestra.

Tanto los valores ordenados de la muestra como lo que vale lafunción de distribución empírica en cada uno de los datos, sesuelen disponer en una tabla por columnassuelen disponer en una tabla, por columnas.

Esta tabla se irá rellenando en los siguientes pasos y de ella,bt d l i f ió i t l d i ió bobtendremos la información necesaria para tomar la decisión sobre

las hipótesis planteadas.

EJEMPLO: Ver si los datos 0.464, 0.906, -0.482, -1.787, -0.513,provienen de una variable U(-1.8, 1.3). Tomar = 0.05.

PASO 1:PLANTEAMIENTO Y CÁLCULO DE LA FUNCIÓN EMPÍRICA EN EL EJEMPLO

• Ordenamos los valores de menor a mayor: -1.787, -0.513, -0.482 ,0.464,

0 1.7871 1 787 0 513

x

x

y , , , ,0.906 (primera columna de la tabla)

• La función de distribución empírica 1.787 0.51352 0.513 0.4825

x

x

La función de distribución empírica asociada a estos datos (tema 2) es F5:

•Nos interesa lo que vale la función5

5( )3 0.482 0.4645

F xx

•Nos interesa lo que vale la función en los datos de la muestra, es decir,

F ( 1 787) 1/5 F ( 0 513) 2/5 54 0.464 0.9065

x

F5(-1.787) = 1/5, F5 (-0.513) = 2/5,

F5(-0.482 ) = 3/5, F5(0.464) = 4/5, 51 0.906x F5(0.906) = 1. Estos valores van en la

segunda columna de la tabla.

PASO 2: Se calcula la función de distribución, F, de la variable , ,propuesta en H0 (tema 2).Si hay algún parámetro desconocido, se estima por máxima verosimilitud. Se evalúa F en la muestra. Estos

l l l d l blvalores se anotan en la tercera columna de la tabla.

Ejemplo: En nuestro caso, H0 : X es U(-1.8, 1.3)

PASO 3: La decisión del contraste se tomará comparando la función de distribución del modelo propuesto en H0 , F, con la f ió d di ib ió í i Ffunción de distribución empírica, Fn.

Si la diferencia entre estas dos funciones es grande, supuesto que H0 sea cierta, la decisión será rechazar H0.

El estadístico del contraste debe de medir esta diferencia y es:y

L ió í i D K A i d í l l l

max ( ) ( )n nD F x F x

La región crítica es Dn > K. A partir de aquí, calcularemos el p-valor del contraste para tomar la decisión:

donde dn es el valor que el estadístico Dn toma con la muestra de 0/ ciertan np valor P D d H

n nla que se dispone.

Para calcular el p-valor del contraste necesitamos conocer:

• la distribución de Dn supuesta cierta H0 . Esta distribuciónla distribución de Dn supuesta cierta H0 . Esta distribución está tabulada para distintos valores de n y , tablas que nosotros tenemos.

• el valor que el estadístico toma con nuestros datos dn . Para cada valor de la muestra, xi , i = 1,.2…,n, calculamos dn así: i n

( ) max ( ) ( ) ( ) ( )D x F x F x F x F x

1( ) max ( ) ( ) , ( ) ( )

1max ( ) , ( ) max ,

n i n i i n i i

i i n i n i

D x F x F x F x F x

i iF x F x D x D x

i i n i n in n

valor que toma con nuestros datos)d D x Dmax ( valor que toma con nuestros datos)n i n i nd D x Dmax (

1 2max ( ) ( ) ; la muestra : , ,...,n n nD F x F x x x x

( ) ( ) ( ) ( ) ( )D F F F F

( )F x

1( ) max ( ) ( ) , ( ) ( )

max ,n i n i i n i i

n i n i

D x F x F x F x F x

D x D x

( )F x n i n i

( ) ( ) ( )D F F

( ) ( ) ( )n i n i iD x F x F x

1( ) ( ) ( )n i n i iD x F x F x

xi-1 xi (Justificación gráfica de por qué el valor del estadístico con la muestra concreta se calcula de la manera antes indicada)

Ejemplo : Valor del estadístico con la muestra, p-valor y decisión:

5 0 5 0

0.21520.2152 / cierta 1 0.2152 / cierta 0.20

ndp valor P D H P D H

5 5

0

0 0(En tablas, 0.4470 / cierta 0.8 0.2152 / cierta 0.8)Como 0.20 0.05, la decisión es , es decir, se aceptaaceptar

P D H y PH

D Hp valor

que los datos provienen de una distribución ( 1.8,1.3)U

RESOLUCIÓN DEL EJEMPLO CON STATGRAPHICSSTATGRAPHICS

Los valores que devuelve Statgraphics son:

DPLUS max , a mano sale 0.1958

DPLUS max ,a mano sale 0.2152

n i

n i

D x

D x

,

DN= max max DPLUS, DPLUS ,a mano sale 0.2152

n i

n i n id D x