CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS
Transcript of CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS
1
CONTRASTES DE
HIPÓTESIS NO
PARAMÉTRICOS
2
¿POR QUÉ SE LLAMAN
CONTRASTES NO
PARAMÉTRICOS?
A diferencia de lo que ocurría en la inferencia
paramétrica, ahora, el desconocimiento de la
población que vamos a estudiar no se reduce al valor
de un parámetro poblacional, sino que es mucho más
amplio.
Las hipótesis que contrastaremos no hacen
referencia a parámetros poblacionales.
Contrastes de hipótesis no paramétricos
3
Contrastes de hipótesis no paramétricos
TESTS c2
Su nombre se debe a que el estadístico que se usará para
realizar el contraste tendrá, aproximadamente, una
distribución c2 de Pearson.
1. Bondad del ajuste (Caso I y Caso II)
2. Test de Homogeneidad
3. Test de Independencia
4
CONTRASTE DE BONDAD
DEL AJUSTE (I)
Contrastes de hipótesis no paramétricos
H0: X sigue la distribución F0
Ha: X no sigue la distribución F0
Distribución teórica
SITUACIÓN: X es una variable aleatoria
poblacional con distribución desconocida.
Extraemos una m.a.s. de la población (X1,…,Xn).
A la vista de la muestra, ¿es razonable admitir que X
sigue la distribución F0?
5
PASOS A SEGUIR:
Contrastes de hipótesis no paramétricos
PASO 1: Hacer una partición (arbitraria) del espacio
muestral (posibles valores de X) en k clases A1,…,Ak.
PASO 2: Calcular las siguientes frecuencias absolutas
para i=1,…,k.
Oi = frecuencia observada en Ai = número de
elementos de la m.a.s (x1,…,xn) que se han situado en la
clase Ai
ei= frecuencia esperada en Ai si H0 es cierta = nP(Ai)
ei es la esperanza
de una B(n,P(Ai))
A1 ….. Ak
Oi
(ei)
O1
(e1)
Ok
(ek)n
6
Contrastes de hipótesis no paramétricos
PASO 3: Utilizar el estadístico l de Pearson
Mide la discrepancia entre las frecuencias
observadas y las esperadas, si se supone cierta H0
si n es grande
y H0 es cierta
Observación: Si H0 es cierta, es de esperar que las
frecuencias observadas y las esperadas sean parecidas,
por lo que si efectivamente H0 es cierta, el estadístico l
debería de tomar valores próximos a cero.
nº de clases
7
Contrastes de hipótesis no paramétricos
Consecuencia: Rechazaremos la hipótesis nula cuando
los valores del estadístico l de Pearson sean “grandes”,
y la aceptaremos cuando sean “pequeños”.
La separación entre valores “grandes” y “pequeños”
viene dada por la elección de un nivel de significación a.
Región crítica: C = {l>c2k-1,a}
Nota: Por comodidad, normalmente se usa la
siguiente expresión, equivalente a la ya dada, para
calcular el valor de l:
8
Contrastes de hipótesis no paramétricos
EJEMPLO 1: Para comprobar si un dado está o no
cargado, se lanzó 600 veces, con los siguientes
resultados:
1 2 3 4 5 6 Total
Oi 103 98 89 109 100 101 600
A la vista de estos datos, ¿podemos afirmar si el dado
está cargado o no?
H0: El dado no está cargado
Ha: El dado está cargado
Ai={i}, i=1,…,6
P(Ai)=1/6
9
Contrastes de hipótesis no paramétricos
1 2 3 4 5 6 Total
Oi
(ei)
103
(100)
98
(100)
89
(100)
109
(100)
100
(100)
101
(100)600
Aceptamos H0 con un nivel de significación 0.05, es decir, a la vista
de estos datos, no podemos afirmar que el dado esté cargado.
nP(Ai)n
Tomamos a = 0.05
Confirma la decisión
de aceptar H0
10
Contrastes de hipótesis no paramétricos
EJEMPLO 2: Se quiere averiguar si el número de hijos
por matrimonio, X, en cierta población sigue una
distribución binomial de parámetros 3 y 0.5. Para ello se
encuestó a 100 matrimonios obteniéndose los siguientes
resultados:
¿Qué podemos afirmar a la vista de estos datos?
H0: X sigue una B(3,0.5)
Ha: X no sigue una B(3,0.5)
Ai={i-1}, i=1,…,4
X 0 1 2 3
Oi 22 42 28 8 100
P(X=0)=0.125
P(X=1)=0.375
P(X=2)=0.375
P(X=3)= 0.125
11
X 0 1 2 3
Oi
(ei)
22
(12.5)
42
(37.5)
28
(37.5)
8
(12.5)100
Contrastes de hipótesis no paramétricos
Rechazamos que X siga una binomial de parámetros 3 y 0.05
12
BONDAD DEL AJUSTE:CASO 2
Contrastes de hipótesis no paramétricos
En ocasiones queremos averiguar si los datos se ajustan a
un determinado tipo de distribución pero sin precisar los
valores de los parámetros que la caracterizan.
Así por ejemplo, para realizar muchos de los contrastes
del tema anterior, necesitamos saber si la variable
poblacional sigue una distribución normal. Por lo tanto,
debemos contrastar la normalidad de los datos, pero sin
precisar la media y la varianza poblacionales.
13
Contrastes de hipótesis no paramétricos
Trabajamos con los estimadores de máxima
verosimilitud. Calculamos las frecuencias esperadas si
los estimadores fueran los autenticos
CUIDADO: Si usamos los mismos datos muestrales
para estimar r parámetros poblacionales desconocidos y
para realizar el contraste de bondad del ajuste, el
estadístico l de Pearson se aproxima a una c2k-1-r en
lugar de a una c2k-1.
DOS DIFERENCIAS
14
Contrastes de hipótesis no paramétricos
EJEMPLO 3: Al digitalizar 300 imágenes se ha
obtenido la siguiente distribución de frecuencias
absolutas del tamaño en Kb del fichero correspondiente:
¿Podemos afirmar, a la vista de estos datos, que X sigue
una distribución normal?
X 36-38 38-40 40-42 42-44 44-46 46-48 48-50 50-52 52-54 54-56
Oi 6 9 33 48 54 57 45 30 12 6 300
H0: X sigue una N
Ha: X no sigue una Nˆ 3.88
15
X <38 38-40 40-42 42-44 44-46 46-48 48-50 50-52 52-54 54
Oi
(ei)
6
(5.9)
9
(12.3)
33
(27.3)
48
(45)
54
(59.5)
57
(59.5)
45
(45)
30
(27.3)
12
(12.3)
6
(5.9)300
P(X<38)=P(Z<(38-46)/3.88)=P(Z<-2.06)=0.0197 e1=0.0197*300=5.9
Aceptamos al nivel 0.01
Contrastes de hipótesis no paramétricos
10-1-2=7
2
7,0.01 12.017c
16
Contrastes de hipótesis no paramétricos
CONSIDERACIONES ADICIONALES
- Para que l se aproxime a una c2, además de que el
tamaño muestral sea grande, las frecuencias esperadas no
pueden ser muy pequeñas.
- Por norma se requiere que ei 5 para el 20% de las
clases i=1,…,k
PRIMERA:
17
Contrastes de hipótesis no paramétricos
-Cuando ni la estructura del problema, ni la agrupación
de las observaciones muestrales, nos sugieran las clases
A1,…,Ak más adecuadas para dividir el espacio muestral,
lo más conveniente es elegirlas de forma que
P(Ai)=1/k para i=1,…,k, con k<n/5.
SEGUNDA:
- De esta forma conseguimos una mejor aproximación
de la distribución del estadístico l a una distribución c2 , y que las frecuencias esperadas no sean pequeñas.
18
CONTRASTE DE HOMOGENEIDAD
DE POBLACIONES
Contrastes de hipótesis no paramétricos
H0: Las poblaciones son homogéneas
Ha: Las poblaciones no son homogéneas
SITUACIÓN: X es una característica común a r
poblaciones independientes.
Extraemos m.a.s. de cada población
con
A la vista de las muestras, ¿es razonable admitir que
las poblaciones son homogéneas, es decir, que todas
ellas siguen la misma distribución?
19
PASOS A SEGUIR:
Contrastes de hipótesis no paramétricos
PASO 1: Hacer una partición (arbitraria) del espacio
muestral (que es común a todas las poblaciones) en k
clases A1,…,Ak.
PASO 2: Calcular las siguientes frecuencias absolutas
para i=1,…,k y j=1,…,r .
Oij = frecuencia observada en Ai con la muestra j-
ésima= número de elementos de la muestra j-ésima que
se han situado en la clase Ai
eij= frecuencia esperada en Ai con la muestra j-ésima
si H0 es cierta = njP(Ai)eij es la esperanza
de una B(nj,P(Ai))
20
Contrastes de hipótesis no paramétricos
Muestra 1 ... Muestra j ... Muestra r mj
A1
O11
(e11)
...
...
O1j
(e1j)
...
...
O1r
(e1r)m1
... ... ... ... ... ... ...
Ai
Oi1
(ei1)
...
...
Oij
(eij)
...
...
Oir
(eir)mi
... ... ... ... ... ... ...
Ak
Ok1
(ek1)
...
...
Okj
(eki)
...
...
Okr
(ekr)mk
ni n1 ... nj ... nr n
Tamaños muestrales
Frecu
encias m
argin
ales
Desconocido
Suponiendo cierta H0
21
Contrastes de hipótesis no paramétricos
PASO 3: Utilizar el estadístico l de Pearson
Mide la discrepancia entre las frecuencias
observadas y las esperadas, si se supone cierta H0
nº de muestras
nº de clases
si n es grande
y H0 es cierta
Demostración: Para la muestra j-ésima,
Sumando los r estadísticos que tenemos,como las poblaciones son
independientes, tenemos que
Pero como no conocemos la distribución que siguen las poblaciones,
hemos tenido que estimar k-1 probabilidades para estimar los eij, por lo
tanto
22
Observación: Si H0 es cierta, es de esperar que las
frecuencias observadas y las esperadas sean parecidas,
por lo que si efectivamente H0 es cierta, el estadístico l
debería de tomar valores próximos a cero.
Contrastes de hipótesis no paramétricos
Consecuencia: Rechazaremos la hipótesis nula cuando
los valores del estadístico l de Pearson sean “grandes”,
y la aceptaremos cuando sean “pequeños”.
La separación entre valores “grandes” y “pequeños”
viene dada por la elección de un nivel de significación a.
Región crítica: C = {l>c2(k-1) (r-1),a}
23
Contrastes de hipótesis no paramétricos
EJEMPLO 5: Un estudio sobre tabaquismo en las
comunidades de Galicia, Madrid y Cataluña
proporcionó los siguientes resultados:
Comunidad Fumadores No fumadores Total
Galicia 13 87 100
Madrid 17 83 100
Cataluña 18 82 100
¿Pueden considerarse homogéneas las tres poblaciones
en cuanto a sus hábitos fumadores?
H0: Las poblaciones son homogéneas
Ha: Las poblaciones no son homogéneas
24
Comunidad Fumadores No fumadores Total
Galicia13
(16)
87
(84)100
Madrid17
(16)
83
(84)100
Cataluña18
(16)
82
(84)100
48 252 300
Contrastes de hipótesis no paramétricos
Muestras
ClasesT
amañ
os m
uestrales
k=2
r=3Frecuencias marginales
Aceptamos que las poblaciones
son homogéneas
2
2,0.1 4,605c
25
CONTRASTE DE INDEPENDENCIA DE
CARACTERES
Contrastes de hipótesis no paramétricos
H0: Las características son independientes
Ha: Las características no son independientes
SITUACIÓN: X e Y son dos características de una
misma población.
Extraemos una m.a.s. de la población
((X1, Y1),…, ((Xn, Yn) ).
A la vista de la muestra, ¿es razonable admitir que las
características son independientes?
26
PASOS A SEGUIR:
Contrastes de hipótesis no paramétricos
PASO 1: Hacer una partición (arbitraria) del espacio
muestral (posibles valores de X e Y) en k x r clases
A1 x B1,…, Ai x Bj ,...,Ak x Br.
PASO 2: Calcular las siguientes frecuencias absolutas
para i=1,…,k y j=1,…,r .
Oij = frecuencia observada en Ai x Bj = número de
elementos de la muestra j-ésima que se han situado en
la clase Ai x Bj
eij= frecuencia esperada en Aix Bj si H0 es cierta =
n P(Ai) P(Bj) eij es la esperanza de
una B(n,P(Ai)P(Bj))
27
Contrastes de hipótesis no paramétricos
B1 ... Bj ... Br ni.
A1
O11
(e11)
...
...
O1j
(e1j)
...
...
O1r
(e1r)n1.
... ... ... ... ... ... ...
Ai
Oi1
(ei1)
...
...
Oij
(eij)
...
...
Oir
(eir)ni.
... ... ... ... ... ... ...
Ak
Ok1
(ek1)
...
...
Okj
(eki)
...
...
Okr
(ekr)nk.
n.j n.1 ... n.j ... n.r n
Frecu
encias m
argin
ales
Desconocido
Tabla de contingencias k x r
Frecuencias marginales
28
Contrastes de hipótesis no paramétricos
PASO 3: Utilizar el estadístico l de Pearson
Mide la discrepancia entre las frecuencias
observadas y las esperadas, si se supone cierta H0
si n es grande
y H0 es cierta
Demostración: Como el número de clases es rk,
Pero como no conocemos las distribuciones que siguen las dos variables
poblacionales, hemos tenido que estimar k-1+r-1 probabilidades para
estimar los eij, por lo tanto
29
Observación: Si H0 es cierta, es de esperar que las
frecuencias observadas y las esperadas sean parecidas,
por lo que si efectivamente H0 es cierta, el estadístico l
debería de tomar valores próximos a cero.
Contrastes de hipótesis no paramétricos
Consecuencia: Rechazaremos la hipótesis nula cuando
los valores del estadístico l de Pearson sean “grandes”,
y la aceptaremos cuando sean “pequeños”.
La separación entre valores “grandes” y “pequeños”
viene dada por la elección de un nivel de significación a.
Región crítica: C = {l>c2(k-1) (r-1),a}
30
Contrastes de hipótesis no paramétricos
EJEMPLO 6: Para averiguar si existe relación entre el
peso y la altura de los segovianos, se extrajo una m.a.s.
con los siguientes resultados:
¿Qué conclusión podemos extraer de estos datos?
H0: El peso y la altura son independientes
Ha: El peso y la altura no son independientes
1.55-1.65 1.65-1.75 1.75-1.85 1.85-1.95
50-60 10 8 2 1
60-70 6 14 6 2
70-80 2 8 18 5
80-90 0 4 6 8
31
Altura
Peso1.55-1.65 1.65-1.75 1.75-1.85 1.85-1.95
50-6010
(3.78)
8
(7.14)
2
(6.72)
1
(3.36)21
60-706
(5.04)
14
(9.52)
6
(8.96)
2
(4.48)28
70-802
(5.94)
8
(11.22)
18
(10.56)
5
(5.28)33
80-900
(3.24)
4
(6.12)
6
(5.76)
8
(2.88)18
18 34 32 16 100
Contrastes de hipótesis no paramétricos
3.78=28*18/10039,459l
K=3=r2
3*3,0.1 21,66c
¡Rechazo
H_0|
32