A. PRUEBAS BONDAD DE AJUSTEA.PRUEBAS DE BONDAD DE AJUSTE: 1.Chi cuadrado F2 •Objetivo Inferir si...

A. PRUEBAS DE BONDAD DE AJUSTE:

Marta Alperin

Profesora Adjunta de Estadística

2014

[email protected]

Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov para una muestra Lilliefords Kolmogorov-Smirnov para dos muestras

B.TABLAS DE CONTINGENCIA

http://www.fcnym.unlp.edu.ar/catedras/estadistica

A. PRUEBAS DE BONDAD DE AJUSTE: 1. Chi cuadrado 2

•Objetivo Inferir si la población muestreada, cuyos datos se clasifican en una escala nominal o

son agrupados en intervalos, se ajusta a una cierta distribución teórica.

•Hipótesis Hipótesis nula: frecuencias observadas son iguales a las frecuencias esperadas.

Hipótesis alternativa: frecuencias observadas son diferentes a las frecuencias

esperadas.

H0: fo=fe

H1: fo≠fe

k

i

cfe

fefo

1

22 )(

fo: frecuencia observada

fe: frecuencia esperada

k: número de categorías

•Prueba de hipótesis

1 estimadosparámetrosnk

),(

2

c

•Estadístico de prueba

•Decisión estadística Cuando se acepta la hipótesis nula, se

puede afirmar que la muestra es extraída de

una población cuya distribución es la del

modelo contrastado con una confianza α.

Tabla Chi cuadrado

La hipótesis nula se acepta

C:/Users/Marta/Documents/ESTADISTICA/Teoricos/Chi Cuadrado/Tabla_Chi.pdf





Número de parámetros estimados

Modelo Binomial, se estima “p”

Modelo Poisson, se estima “λ”

Modelo Normal, se estima “μ y σ”

Modelo Uniforme no se estima ningún parámetro

Para evitar errores calcular las frecuencias esperadas con 4 decimales

y con 3 decimales. 2

Restricciones: •Los datos deben ser frecuencias

•Las categorías deben ser mutuamente excluyentes

•El test da resultados falsos si se aplica a datos que son porcentajes o

proporciones de ocurrencias de estas categorías mutuamente excluyentes.

•Las categorías no deben ser muchas.

•La frecuencia esperada en cada categoría debe ser al menos de 5 (cinco). Si esto

no ocurre se deben combinar las frecuencias de dos o mas categorías hasta que la

frecuencia esperada se >5.

Ejemplo DISTRIBUCIÓN POISSON

DISTRIBUCIÓN REGULAR DISTRIBUCIÓN AL AZAR DISTRIBUCIÓN CONTAGIOSA

12

X

s1

2

X

s1

2

X

s

n

mX

805,3X

m=n° meteoritos=761

n=n° cuadriculas=200

s2=2,17

((10+14)-(4,4+16,9))2/(4,4+16,9)=0,1125

k

i

cfe

fefo

1

22 )(

20,1372 c

1

2

nestS

estS

X

s

tn

12

1

100,01200

2

estS

¿Los meteoritos se distribuyen al azar?

H0: fo=fe

H1: fo≠fe

=0,05

=8-1-1=6

χ2(6; 0,05)=12,59

=0,05; /2=0,025

=n-1=200-1=199

t(199; 0,025)=-1,960

137,20>12,59; se rechaza H0

Los meteoritos no se distribuyen al azar

¿Los meteoritos están agrupados o se distribuyen unifomemente?

-1,960>-4,297; se rechaza H0

La distribución de los meteoritos no es al azar. El signo de t, y el valor de la relación varianza-media permite afirmar que la distribucion es relativamente uniforme.

1:2

0 X

sH 1:

2

X

sHa

Ejemplo: Desde el verano de 1976 se realizaron trabajos de investigacion

tendientes a estudiar los meteoritos en la Antártida. Se analizaron los meteoritos

caídos en un área de 200 km2. El área fue subdividida con una cuadricula de 1

km2 y se contó el número de meteoritos presentes en cada cuadricula.

!)(

x

exP

x

57,0805,3

17,22

X

s;

297,41,0

1805,3

17,2

1200

t

N° meteoritos

por cuadricula

Frecuencia observada

p (Poisson) Frecuencia esperada

(pxn) Chi cuadrado

0 10 0,0226 4,4

1 14 0,0847 16,9 0,1125

2 9 0,1611 32,2 16,7155 3 23 0,2044 40,9 7,8340

4 65 0,1944 38,9 17,5118 5 74 0,1479 29,6 66,6000 6 5 0,0938 18,8 10,1298 7 0 0,0509 10,2 10,2000

8 0 0,0406 8,1 8,1000

Ejemplo PRUEBA DE NORMALIDAD

Para comercializar la merluza se necesita investigar si el largo del cuerpo se

ajusta a un modelo normal.

Se realiza un lanzamiento de red en la plataforma a la latitud de Mar del Plata y

se recuperan 300 peces.

Intervalo Marca

de clase (x)

Frecuencia Observada

Intervalo Z sup Area

normal p

Frecuencia esperada

P x n

35,5-40,5 38 7 Menos de 40,5 -1,8 0,0359 10,77

40,5-45,5 43 54 40,5-45,5 -0,8 0,1760 52,8

45,5-50,5 48 120 45,5-50,5 0,2 0,3674 110,22

50,5-55,5 53 84 50,5-55,5 1,2 0,3056 91,68

55,5-60,5 58 31 55,5-60,5 2,2 0,1012 30,36

60,5-65,5 63 4 Más de 60,5 infinito 0,0139 4,17

Se desconocen y Se estiman con y S X

5,49X S=5 N=300

Recordemos

El área del intervalo (40,5 - 45,5) viene dada por: p((z Zsup.) - p((z Zinf.)

siendo (Zsup.) = (45,5 – 49,5) / 5 = -0,8

(Zinf.) = (40,5 – 49,5) / 5 = -1,8

p(z -0,8) – p(z -1,8) = 0,4641 – 0,2881 = 0,1760

El Zsup. de un intervalo será el Zinf. del siguiente intervalo.

El primer intervalo tiene siempre como Zinf. menos infinito (-∞)

El último como Zsup. más infinito (+∞).

Para obtener las frecuencias esperadas, las áreas debajo de la curva normal se multiplican por el número total de observaciones (N).

S

XxZ i

Intervalo Marca

de clase (x)

Frecuencia Observada

Intervalo Z sup Area

normal p

Frecuencia esperada

P x n

35,5-40,5 38 7 Menos de 40,5 -1,8 0,0359 10,77

40,5-45,5 43 54 40,5-45,5 -0,8 0,1760 52,8

45,5-50,5 48 120 45,5-50,5 0,2 0,3674 110,22

50,5-55,5 53 84 50,5-55,5 1,2 0,3056 91,68

55,5-60,5 58 31 55,5-60,5 2,2 0,1012 30,36

60,5-65,5 63 4 Más de 60,5 infinito 0,0139 4,17

H0: el largo de la

merluza está

normalmente

distribuido.

H1: el largo de la

merluza no se

distribuye normalmente

H0: fo=fe

H1: fo≠fe

=0,05

k

i

cfe

fefo

1

22 )(

Si las fe son menores que “5”; se deben sumar las fe de intervalos contiguos hasta

que todos los intervalos tengan fe 5.

8645,230053,34

35...

8,52

54

7,10

7 2222

c

Nfe

fok

i

c 1

22

= 5 -2 -1 = 2

1 estimadosparámetrosnk

2,86 < 5,99

Como el valor de 2c no supera el 2 crítico de

tabla al 5%, no se encuentran evidencias

suficientes para rechazar la H0

Se puede afirmar, con un nivel de

significación del 5%, que el largo de la

merluza sigue una distribución normal.

2(2;0,05)=5,99

2. Método “G” de Fisher

El estadístico G sigue la misma distribución que 2

c No es tan sensible como la prueba de Chi las frecuencias esperadas bajas

A. PRUEBAS DE BONDAD DE AJUSTE:

k

i fe

fofoG

1

ln2

Ejemplo del largo de la merluza Grados de libertad 6 -3 =3 2

(3; 0,05) = 7,81 3,06<7,81 Como el valor de G no supera el 2 crítico de tabla al 5%, no se encuentran

evidencias suficientes para rechazar la H0

Se puede afirmar, con un nivel de significación del 5%, que el largo de la

merluza sigue una distribución normal.

06,317,4

4ln4...

8,52

52ln54

77,10

7ln7(2 G

A. PRUEBAS DE BONDAD DE AJUSTE: 3. Método de Kolmogorov – Smirnov para una muestra con datos agrupados

N

EOd

maxmax

•Se necesita conocer la media y el desvío estándar poblacional. •El valor critico se busca en la Tabla Kolmogorv-Smirnov.

4. Método de Lilliefords (1967) •No es necesario conocer la media y el desvío estándar poblacional.

•Las estandarizaciones se calculan con los estimadores muestrales.

• El valor crítico se busca en la Tabla Lilliefords

Ejemplo del largo de la merluza

Valor crítico al 5% d de Lillifords

0,024<0,051 Como el valor de “d” no supera

el “d” crítico de tabla al 5%, no

se encuentran evidencias

suficientes para rechazar la H0.

Se puede afirmar, con un

nivel de significación del 5%,

que el largo de la merluza

sigue una distribución

normal.

024,0300

21,7

300

79,173181

d

Intervalo Frecuencia Observada

Frecuencia acumulada observada

Frecuencia esperada

Frecuencia acumulada esperada

d

35,5-40,5 7 7 10,77 10,77 3,77

40,5-45,5 54 61 52,8 63,57 2,57

45,5-50,5 120 181 110,22 173,79 7,21

50,5-55,5 84 265 91,68 265,47 0,47

55,5-60,5 31 296 30,36 289,83 6,17

60,5-65,5 4 300 4,17 300,00 0

Diferencia máxima max O: frecuencia acumulada observada max E: frecuencia acumulada esperada N: numero total de datos

0514,0300

890,0

KolmogorvSmirnov.pdf





Lilliefords.pdf

A. PRUEBA DE Kolmogorov – Smirnov para dos muestras

Diferencia máxima faA: máxima frecuencia relativa acumulada en A. faB: máxima frecuencia acumulada relativa en B. nA: N° datos muestra A. nB: N° datos muestra B.

faBfaAd max

= 0,05 = 0,01

1 cola 1,22 N´ 1,51 N´

2 colas 1,36 N´ 1,63 N´ BA

BA

nn

nnN

'

• Se usa para comparar dos distribuciones muestrales. • Las variables pueden estar expresadas en cualquier escala: nominal, ordinal, de razón, continua o discreta. • No se asume ningún tipo de distribución de la población de donde se extraen las muestras.

Valores críticos D

La hipótesis nula se rechaza cuando d ≥ D.

Las hipótesis de la prueba son: H0: Las muestras provienen de poblaciones que tienen idéntica distribución . H1: Las muestras provienen de poblaciones que tienen distribuciones diferentes. H0: faA = faB H1: faB ≠ faA

Estadístico de prueba

X=N°

lados f(B) f(F) fr(B) fr(F) fa (B) fa (F) |d|

3 1 1 0.0303 0.0278 0.0303 0.0278 0.0025

4 3 7 0.0909 0.1944 0.1212 0.2222 0.1010

5 8 10 0.2424 0.2778 0.3636 0.5000 0.1364

6 15 8 0.4545 0.2222 0.8182 0.7222 0.0960

7 4 6 0.1212 0.1667 0.9394 0.8889 0.0505

8 1 4 0.0303 0.1111 0.9697 1.0000 0.0303

9 0 0 0.0000 0.0000 0.9697 1.0000 0.0303

10 1 0 0.0303 0.0000 1.0000 1.0000 0.0000

H0: Las dos muestras son tomadas de poblaciones con igual número de lados de los polígonos.

H1: Las dos muestras son tomadas de poblaciones con diferente número de lados de los polígonos.

H0: faB = faF H1: faB ≠ faF

Nivel de significación, = 0,05 D(0,05) = 0,241

Suelo arcilloso

Basalto

1364,0max faFfaBd

Debido a que d < D(0,05) (0,1364 < 0,241), no existen evidencias para rechazar la hipótesis nula. Los procesos que originan las grietas de desecación y la disyunción columnar son similares.

Ejemplo: Los procesos de desecación de suelos arcillosos son similares a los que forman la disyunción columnar de los basaltos y el número de lados de los barquillos de fango (F) y de las columnas de basalto (B) serán iguales pues la contracción por desecación o por enfriamiento es equidistante desde un punto y tiende a formar estructuras hexagonales.

nB = 33; nF = 36

B.TABLAS DE CONTINGENCIA •Objetivo Inferir si en la población de la que es extraída la muestra, existe alguna relación entre las frecuencias de ocurrencia simultanea entre dos variables aleatorias. Las variables son atributos categóricos, codificados o en escalas nominales. Cada individuo se clasifica teniendo en cuenta simultáneamente las dos variables. Se registra la frecuencia de ocurrencia en cada individuo que forma parte de la muestra.

•Hipótesis Hipótesis nula: las variables son independientes. H0: fo=fe

Hipótesis alternativa: las variables no son independientes. H1: fo≠fe

k

i

cfe

fefo

1

22 )(

fo: frecuencia observada en 1 celda

fe: frecuencia esperada en 1 celda

k: número de celdas de la tabla

TF: total de fila

TC: total de columna

TT=N= N° de datos

•Prueba de hipótesis 2

),(

2

c

•Decisión estadística Cuando se acepta la hipótesis nula, se

puede afirmar que la muestra es extraída de

una población en donde las variables son

independientes, con una confianza α.

•Estadístico de prueba

)1)(1( columnasdenumerofilasdenumero

TT

TCTFfe

La hipótesis nula

se rechaza

V1 V2

1 ... n 1 x

...

m

Tabla de contingencia

Ejemplo: El objetivo del trabajo es investigar si en los humanos el color del pelo es independiente del sexo.

H0: fo=fe

H1: fo≠fe

8,987 > 7,81

El valor de 2c es menor al 2 crítico de tabla.

No se encuentran evidencias suficientes para aceptar la H0 de independencia entre el

color del pelo y el sexo trabajando con un nivel de significación de 5%.

TT

TCTFfe

Sexo

Color del pelo Total Fila

Negro Castaño Rubio Pelirrojo

Hombres 32 43 16 9

100 29,0000 36,0000 26,6667 8,3333

Mujeres 55 65 64 16

200 58,0000 72,0000 53,3333 16,6667

Total columna 87 108 80 25 300

Sexo

Color del pelo Chi cuadrado Total Fila

Negro Castaño Rubio Pelirrojo Hombres 0,3103 1,3611 4,2667 0,0533

Mujeres 0,1552 0,6806 2,1444 0,0267

Total columna 8,987

3333,53300

80200)(

MRfe

987,8)(6

1

22

i

cfe

fefo

81,72

)12()14(;05,0

H0: El color del pelo es independiente del sexo. H1: El color del pelo no es independiente del sexo.

= 0,05

CORRECCIÓN POR CONTINUIDAD Cuando los grados de libertad =1 y n<200, el estadístico de contraste 2 de la prueba de hipótesis se debe corregir. La corrección por continuidad de Yates

k

i

cfe

fefo

1

2

2)5,0(

000,46000,34000,010

)1016(

90

)9084()( 22

1

22

k

i

cfe

fefo

3611,30250,33361,010

)5,01016(

90

)5,09084()5,0( 22

1

2

2

k

i

cfe

fefo

H0: Los datos provienen de una población con relación 9:1 de G. truncatulinoides

dextrógiras-levógiras.

HA: Los datos provienen de una población donde la relación G. truncatulinoides

dextrógiras-levógiras no es 9:1.

N = 100

fe valvas dextrógiras = (0,9) 100 = 90

fe valvas levógiras = (0,1) 100 = 10

Grados de libertad = k – 1 = 2 – 1 = 1

Nivel de significación = 0,05

= 3,84

Utilizando la corrección por continuidad de Yates se obtiene

Si no se utiliza la corrección de Yates se rechaza la hipótesis nula dado que 4,00 > 3,84.

Si se utiliza la corrección de Yates que no existen evidencias para rechazar la hipótesis

nula puesto que 3,36 < 3,84.

Se puede concluir que los ejemplares provienen de una población donde la relación de G.

truncatulinoides dextrógiras-levógiras es 9:1 lo que indicaría que se trata de aguas cálidas.

Dextrógiras Levógiras

fo 84 16

fe 90 10

Ejemplo. El sentido de enroscamiento de los caparazones del foraminífero

Globorotalia truncatulinoides, se usa para estimar la paleotemperatura del agua de mar. Las valvas dextrógiras ocurren en una relación 9:1 sobre las levógiras en aguas cálidas. El objetivo del estudio es determinar la paleotemperatura del agua en un nivel de un testigo recogido a la latitud de Buenos Aires en la plataforma.

GRACIAS

A. PRUEBAS BONDAD DE AJUSTEA.PRUEBAS DE BONDAD DE AJUSTE: 1.Chi cuadrado F2 •Objetivo Inferir si...

Documents

Transcript of A. PRUEBAS BONDAD DE AJUSTEA.PRUEBAS DE BONDAD DE AJUSTE: 1.Chi cuadrado F2 •Objetivo Inferir si...