RESUMEN DE ESTADISTICA II INIDAD 2

14
“INSTITUTO TECNOLÒGICO SUPERIOR DE LA SIERRA NEGRA DE AJALPAN” CARRERA: ING. ADMÒN DE EMPRESAS TRABAJO: RESUMEN DE LA UNIDAD II CATEDRATICO: ING. JOSÉ GUADALUPE RODRIGUEZ R. ALUMNO: FELIX CASTRO GARCIA FECHA DE ENTREGA: 17 DE FEBRERO DEL 2012

Transcript of RESUMEN DE ESTADISTICA II INIDAD 2

Page 1: RESUMEN DE ESTADISTICA II INIDAD 2

“INSTITUTO TECNOLÒGICO SUPERIOR DE LA SIERRA

NEGRA DE AJALPAN”

CARRERA:

ING. ADMÒN DE EMPRESAS

TRABAJO:

RESUMEN DE LA UNIDAD II

CATEDRATICO:

ING. JOSÉ GUADALUPE RODRIGUEZ R.

ALUMNO:

FELIX CASTRO GARCIA

FECHA DE ENTREGA:

17 DE FEBRERO DEL 2012

Page 2: RESUMEN DE ESTADISTICA II INIDAD 2

INDICE:

UNIDAD 2: Pruebas de la bondad del ajuste y análisis de Varianza 2.1 Análisis Ji-Cuadrada 2.1.1 Prueba de independencia 2.1.2 Prueba de la bondad del ajuste 2.1.3 Tablas de contingencia 2.2 Análisis de varianza 2.2.1 Inferencia sobre una varianza de población (Anova). 2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova).

Page 3: RESUMEN DE ESTADISTICA II INIDAD 2

“ANÁLISIS JI-CUADRADA”

En realidad la distribución ji-cuadrada es la distribución maestral de s2. O sea que si se extraen todas las muestras posibles de una población normal y a cada muestra se le calcula su varianza, se obtendrá la distribución maestral de varianzas.La fórmula que se utilizará para calcular el valor de chi-cuadrada es :

Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se observó el número de caras de cada serie. El número de series en los que se presentaron 0, 1, 1, 3, 4 y 5 caras se muestra en la siguiente tabla.

Número de caras Número de series

(frecuencia observada)

0 38

1 144

2 342

3 287

4 164

5 25

Total 1000

1. Ajustar una distribución binomial a los datos con un = 0.05. 2. Solución: 3. H0; Los datos se ajustan a una distribución binomial. 4. H1; Los datos no se ajustan a una distribución binomial. 5. Para obtener los valores esperados se tiene que utilizar la formula de la

distribución binomial: , donde n en este ejercicio vale 5, p y q son las probabilidades respectivas de cara y sello en un solo lanzamiento de

la moneda. Para calcular el valor de p, se sabe que =np en una distribución

binomial, por lo que = 5p. 6. Para la distribución de frecuencias observada, la media del número de caras

es:

7.

Page 4: RESUMEN DE ESTADISTICA II INIDAD 2

8. Por lo tanto . Así pues, la distribución binomial ajustada

viene dada por p(x) = . 9. Al seguir esta fórmula se calcula la probabilidad de obtener caras, según el

valor de la variable aleatoria. La probabilidad multiplicada por 1000 nos dará el valor esperado. Se resumen los resultados en la tabla siguiente:

Número de caras (x)

P(x caras) Frecuencia esperada

Frecuencia observada

0 0.0332 33.2 38

1 0.1619 161.9 144

2 0.3162 316.2 342

3 0.3087 308.7 287

4 0.1507 150.7 164

5 0.0294 29.4 25

10. Para los grados de libertad el valor de m será uno, ya que se tuvo que estimar la media de la población para poder obtener el valor de p y así poder calcular los valores esperados.

11. Grados de libertad: k-1-m = 6-1-1 = 4

12. 13. Regla de decisión:

14. Si X2R 9.49 no se rechaza Ho.

15. Si X2R >9.49 se rechaza Ho.

16. Cálculos:

17. Justificación y decisión:

18. Como el 7.54 no es mayor a 9.49, no se rechaza H0 y se concluye con un

= 0.05 que el ajuste de los datos a una distribución binomial es bueno.

Page 5: RESUMEN DE ESTADISTICA II INIDAD 2

PRUEBA DE INDEPENDENCIA

Cuando cada individuo de la población a estudio se puede clasificar según dos criterios A y B, admitiendo el primero a posibilidades diferentes y b el segundo, la representación de las frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de contingencia. Los datos se disponen de la forma siendo el número de individuos que presentan simultáneamente la i-ésima modalidad del carácter A y la j-ésima del B. La hipótesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma independiente en los individuos de la población de la cual se extrae la muestra; siendo la alternativa la dependencia estocástica entre ambos caracteres. La realización de esta prueba requiere el cálculo del estadístico donde:y son las frecuencias absolutas marginales y el tamaño muestral total. El estadístico L se distribuye como una con (a - 1)(b - 1) grados de libertad. El contraste se realiza con un nivel de significación del 5%. Ejemplo de Aplicación Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados: Sin depresión Con depresión total Deportista 38 9 47 No deportista 31 22 53 69 31 100 L = (38 – 32,43)2/32,43 + (31 – 36,57)2/36,57 + (9 – 14,57)2/14,57 + (22 – 16,43)2/16,43 = 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227 El valor que alcanza el estadístico L es 5,8227. Buscando en la tabla teórica de Chi Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar la hipótesis de independencia de caracteres con un nivel de significación del 5%, admitiendo por tanto que la práctica deportiva disminuye el riesgo de depresión.

Page 6: RESUMEN DE ESTADISTICA II INIDAD 2

PRUEBA DE LA BONDAD DEL AJUSTE

Pruebas de tablas de contingencias

En muchas ocasiones, los n elementos de una muestra de población pueden clasificarse de

acuerdo con dos criterios diferentes. Por ello interesa conocer si los dos métodos de

clasificación son estadísticamente independientes; por ejemplo, podemos considerar la

población de ingenieros graduado y tal vez deseemos determinar si el salario inicial es

independiente de las disciplinas académicas.

Supóngase que el primer método de clasificación tiene r niveles y que el segundo método de

clasificación tiene c niveles. Sea oij la frecuencia observada para el nivel i del primer método

de clasificación y el nivel j del segundo método de clasificación. Los datos aparecerían, en

general, como en la tabla. Una tabla de tales características se llama comúnmente tabla de

contingencia r X c.

Estamos interesados en probar la hipótesis de que los métodos de clasificación de renglón y

de columna son independientes. Si rechazamos esta hipótesis, concluimos que hay cierta

interacción entre los dos criterios de clasificación. Los procedimientos de prueba exactos son

difíciles de obtener, pero una estadística de prueba aproximada es valida para n grande.

Supóngase las oij como variables aleatorias multinomiales y pij como la probabilidad de que

un elemento elegido al azar cae en la celda ijesima, dado que las dos clasificaciones son

independientes. Entonces pij = uivj , donde ui es la probabilidad de que un elemento elegido

al azar caiga en el renglón de clase i y vj es la probabilidad de que un elemento seleccionado

en forma aleatoria caiga en la columna de clase j. Luego, suponiendo independencia, los

estimadores de máxima probabilidad de ui y vj son:

ûi = Oij

ûj = Oij Una tabla de contingencia r X c

Columnas

1 2 ... c

1 O11 O12 ... O1c

2 O21 O22 ... O2c

Renglones ... ... ... ... ...

r Or1 Or2 ... Orc

En consecuencia, el número esperado de cada celda es

Eij = nûivj = Oij Oij Entonces, para n grande, la estadística

2

X20 = - X2 (r – 1) (c – 1)

Page 7: RESUMEN DE ESTADISTICA II INIDAD 2

Aproximadamente, y rechazaríamos la hipótesis de independencia si

X20 > X2a, (r – 1) (c – 1).

Prueba de bondad de ajuste de ji-cuadrada El procedimiento de prueba requiere una muestra aleatoria de tamaño n de la variable

aleatoria X, cuya función de densidad de probabilidad se desconoce. Estas n observaciones se

arreglan en un histograma de frecuencias, teniendo k intervalos de clase. Sea 01 la frecuencia

observada en el intervalo de la clase iesimo. De la distribución de probabilidad hipotética,

calculamos la frecuencia esperada en el intervalo de clase iesimo, denotada E1. La estadística

de prueba es:

X20 =

Puede demostrar que X²0 sigue aproximadamente la distribución ji cuadrada con k-p-1 grados

de libertad, donde p representa el numero de parámetros de la distribución hipotética estimada

por el medio de estadística de muestra. Esta aproximación se mejora cuando n aumenta.

Rechazaríamos la hipótesis de que X se ajusta ala distribución hipotética si X²0>X²α k-p-1

Un punto que debe advertirse en la aplicación de este procedimiento de prueba se refiere ala

magnitud de las frecuencias esperadas. Si estas frecuencias esperadas son demasiado

pequeñas, entonces X²0 no reflejan la desviación de las observaciones respecto alas esperadas,

si no solo las mas pequeñas de las frecuencias esperadas. No hay un acuerdo general en

relación con el valor mínimo de las frecuencias esperadas, aunque los valores de 3,4 y 5 se

utilizan ampliamente como mínimos. Si la frecuencia esperada es demasiado pequeña, puede

combinarse con la frecuencia esperada en un intervalo de clase adyacente. Las frecuencias

observadas correspondientes se combinaran también en ese caso, y k se reducirá en 1. No se

requiere que los intervalos de clase sean de igual ancho.

Ejemplo Una distribución completamente especificada Un científico de computadoras ha desarrollado

un algoritmo para generar enteros pseudoaleatorios sobre el intervalo 0-9. Codifica el

algoritmo y genera 1000 dígitos pseudoaleatorios. Los datos se muestran en la tabla 11-3.

¿Existe evidencia de que el generador de números aleatorios esta trabajando correctamente?

Si esta trabajando de manera correcta, entonces los valores 0-9 deben seguir la distribución

uniforme discreta, la cual implica que cada uno de los enteros debe ocurrir exactamente 100

veces. Esto es, las frecuencias esperadas E =100 para I=0,1,….,9 Puesto que estas frecuencias

estimadas pueden estimarse sin que sea necesario estimular ningún parámetro a partir de los

datos de muestra, la prueba resultante de bondad de ajuste de la ji cuadrada tendrá k-p-1=10-

0-1=9 grados de libertad.

Total

0 1 2 3 4 5 6 7 8 9 n

Frecuencia

Observada O 94 93 112 101 104 95 100 99 108 94 1000

Frecuencias

Esperada E 100 100 100 100 100 100 100 100 100 100 1000

El valor esperado de la estadística de prueba es

2 2 2 2

X20 = =

Puesto que X =16.92 no somos capaces de rechazar la hipótesis de que los datos proviene de

una distribución uniforme discreta. En consecuencia, el generador de números aleatorios

parece estar trabajando en forma satisfactoria.

Page 8: RESUMEN DE ESTADISTICA II INIDAD 2

TABLAS DE CONTINGENCIA

Un método útil para clasificar los datos obtenidos en un recuento es mediante las tablas de contingencia. Se trata de tablas en cuyas celdas figuran probabilidades, y en la cual podemos determinar unas probabilidades conociendo otras de la tabla. Ejemplo Se sortea un viaje a Roma entre los 120 mejores clientes de una agencia de automóviles. De ellos, 65 son mujeres, 80 están casados y 45 son mujeres casadas. Se pide: 1¿Cuál será la probabilidad de que le toque el viaje a un hombre soltero? 2Si del afortunado se sabe que es casado, ¿cuál será la probabilidad de que sea una mujer?

Page 9: RESUMEN DE ESTADISTICA II INIDAD 2

ANÁLISIS DE VARIANZA es un método para comparar dos o más medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por dos motivos: En primer lugar, y como se realizarían simultánea e independientemente varios contrastes de hipótesis, la probabilidad de encontrar alguno significativo por azar aumentaría. En cada contraste se rechaza la H0 si la t supera el nivel crítico, para lo que, en la hipótesis nula, hay una probabilidad . Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de la misma población, por lo tanto, cuando se hayan realizado todas las comparaciones, la hipótesis nula es que todas las muestras provienen de la misma población y, sin embargo, para cada comparación, la estimación de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas. El método que resuelve ambos problemas es el anova, aunque es algo más que esto: es un método que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de alguna manera, es la base del análisis multivariante.

Ejemplo:

Se ha recogido la valoración de un líder político en dos ciudades distintas A y B, dividida cada una en tres barrios según su nivel adquisitivo (Alto, Medio y Bajo), obteniéndose los siguientes resultados:

Nivel alto Nivel medio

Nivel bajo

Ciudad A 6, 5, 6, 7, 4, 8,9 4, 4, 6, 8 8,8,3, 10

6, 7, 8, 5, 4, 5, 10, 6, 7,7, 4, 7, 6, 8

3, 2, 3, 3, 4, 5, 4, 1, 0, 4, 6, 2, 5, 4, 4

Ciudad B 6, 6, 5, 6, 4, 5, 2, 4, 2, 8, 6, 5, 4, 4, 3

4, 4, 5, 1, 4, 3, 3, 3, 6, 4, 2, 2, 6, 3, 1

5 4, 6, 3, 2, 3, 2, 3, 1, 6 4, 2, 2, 3, 1

Suponiendo que se cumplen los supuestos del ANOVA para dos factores, ¿podemos afirmar si la población presenta diferencias significativas en la apreciación del político según la ciudad o según su nivel adquisitivo?

Este sería un ejemplo de Análisis de Varianza con dos factores (ciudad y nivel). Toda la teoría y consideraciones hechas para el caso de un factor siguen sirviendo en éste, pero con más sumas de cuadrados y más contrastes F. Sería largo y complejo explicarlo todo aquí, por lo que se remite al resumen teórico y a los manuales correspondientes.

Para resolver la cuestión planteada deberás, con paciencia, ir escribiendo los datos en la hoja anova.ods, en su segunda hoja, correspondiente a dos factores. El esto lo hará la hoja de cálculo y te presentará estos resultados:

Page 10: RESUMEN DE ESTADISTICA II INIDAD 2

Fuente variación SC G.L. CM F

Factor A 83,83 2 41,92 14,55

Factor B 59,13 1 59,13 20,53

Interacción AB 30,12 2 15,06 5,23

Error 239,03 83 2,88

TOTAL 412,11 88

P-valor de FA 0,182

P-valor de FB 0,045 Significativa al 5%

P-valor de FAB 0,007 Significativa al 5%

Observa que ahora se pueden considerar cinco sumas de cuadrados:

Factor A: SCA=83,83. Representa la variabilidad propia del factor Nivel adquisitivo. Sus grados de libertad son 2, que equivalen al número de niveles menos 1, y su cuadrado medio 41,92

Factor B:SCB=59,13. Es la suma correspondiente al factor Ciudad. Como sólo hay dos ciudades, sus grados de libertad equivalen a 1, y su cuadrado medio 59,13, muy alto respecto al estimador 2,88.

Interacción: SCAB=30,12 Este factor no se considera si existen motivos para creer que no existe influencia mutua entre el factor Ciudad y el factor Nivel adquisitivo. Aquí lo consideraremos porque no tenemos suficiente información. Sus grados de libertad son 2, producto de los G.L. anteriores.

Error:SCE=239,03. Es la variabilidad de la encuesta si se prescinde de la influencia de los factores. Su cuadrado medio es el mejor estimador de la varianza de la población: 2,88.

Total: SCT=412,11. Nos sirve para ver si cuadran bien todos los cálculos de sumas de cuadrados y grados de libertad, o para calcular SCE mediante la operación de restar.Si dividimos cada cuadrado medio entre 2,88 obtenemos la F de cada factor, y aplicando el contraste correspondiente obtenemos que son significativas al 5% tanto la influencia de la Ciudad como de la Interacción, no siendo significativa la influencia del Nivel adquisitivo.

Page 11: RESUMEN DE ESTADISTICA II INIDAD 2

INFERENCIA SOBRE UNA VARIANZA DE POBLACIÓN (ANOVA).

El análisis de varianza (ANOVA) es una técnica estadística diseñada para comparar la varianza de dos poblaciones a partir del análisis de las varianzas de las muestras respectivas. Webster (1998) aplica el concepto de ANOVA al contexto de un experimento y la define como “... el se puede aplicar a la determinación de si un

tratamiento en que procedimiento particular aplicado a una población tendrá efecto significativo sobre su media,” (p. 595). Aplicar el ANOVA requiere cumplir con dos criterios específicos: a1) Las poblaciones de estudio deber ser normales y tener varianzas iguales. a2) Seleccionar las muestras independientemente. La varianza total de todos los tratamientos (observaciones) se puede dividir en dos fuentes: a) Variación Intermuestral. Factor que representa la variación entre los diversos tratamientos administrados durante el desarrollo de un experimento. b) Variación Intramuestral o debida al Error. Factor que representa la variación dentro de un mismo tratamiento administrado durante la realización de un experimento. En este contexto se entiende que la variación total es igual a la variación intermuestral + la variación intramuestral o debida al error. Para obtener la comprobación de una hipótesis de nulidad mediante el ANOVA se tienen que calcular los siguientes factores: a) La suma total de cuadrados expresada por la ecuación: donde: b) La suma de los cuadrados entre grupos (varianza intermuestral) se expresa por la ecuación: donde:

xi2 = Suma de los cuadrados entre los grupos

X1)2 = Suma de las puntuaciones elevadas al cuadrado del tratamiento1 n = Número de casos c) La suma de cuadrados dentro de grupos (varianza intramuestral) se expresa por la ecuación: donde:

Xd2 = Suma de cuadrados dentro de grupos

X12 = Suma de los cuadrados de las puntuaciones del grupo 1

X1)2 = Suma de las puntuaciones elevadas al cuadrado del tratamiento1 Lo anterior refleja que se cuentra con tres varianzas y solo es posible realizar la comparación de la varianza intermuestral con la varianza intramuestral mediante el análisis del comportamiento de las mismas con respecta a la distribución F que supone la independencia de las varianzas. La distribución F se expresa por la ecuación: donde: F = Distribución F. d) Los grados de libertad para la varianza del error se obtienen mediante la ecuación: donde: gl = grados de libertad c = columnas

Page 12: RESUMEN DE ESTADISTICA II INIDAD 2

e) Los grados de libertad para la varianza intramuestral se obtienen por medio de la ecuación: donde: gl = grados de libertad c = columnas n = número de casos Ejemplo:

Se busca determinar la influencia de la orientación psicológica en los métodos de crianza de

los niños, mediante una comparación entre liberales y conservadores.

Queremos hacer varias comparaciones que presenten varios puntos en la escala psicológica,

podríamos comparar la permisibilidad en la crianza de los niños de conservadores, liberales,

radicales y moderados.

S X2= 10 + 8 + 13 + 15 = 56

S XT = 6 + 8 + 7 + 7 = 28

T = 7 / 4 = 1.75

Fórmula: Suma total de todos los cuadrados.

N = número de datos de todos los grupos.

n = número de datos de un grupo.

Cálculo de:

Scinter = S ( - T)2 n

S x1 = 6 S x12 = 10 = 1.5 n = 4

S x2 = 8 S x22 = 18 = 2 n = 4 S xT = 28

S x3 = 7 S x32 = 13 = 1.75 n = 4 S T = 1.75

S x4 = 8 S x42 = 15 = 1.75 n = 4 S XT2 = 56

Grupo 1: (1.5 - 1.75)2 (4) = (−0.25)2 (4) = 0.6 (4) = 0.24

Grupo 2: (2 - 1.75)2 (4) = (0.25)2 (4) = 0.6 (4) = 0.24

Grupo 3: (1.75 - 1.75)2 (4) = (0)2 (4) = 0

Grupo 4: (1.75 - 1.75)2 (4) = (0)2 (4) = 0

Scinter = 0.24 + 0.24 + 0 + 0 = 0.48 Variación que existe entre los grupos.

Cálculo de:

Scintra = 1 + 2 + 0.75 + 2.75 = 6.5

Comprobación

SCT = Scinter + Scintra

Scintra = SCT - Scinter

Scinter = 0.48 = 0.5

Scintra = 6.5

SCT = 6.5 + 0.5 = 7

S Cintra? = 7 - 05 = 6.5

Calculamos la media cuadrática (cuadrado medio)

Existe una media de variación conocida como la media cuadrática o varianza, que obtenemos

dividiendo S Cintra o S Cinter? mediante los grados de libertad apropiados.

Cálculo de la media cuadrática:

glinter = K - 1 = 4 - 1 = 3

glintra = NT + K = 16 - 4 = 12

Page 13: RESUMEN DE ESTADISTICA II INIDAD 2

INFERENCIA SOBRE LA VARIANZA DE DOS POBLACIONES (ANOVA)

De manera que, si las varianzas poblacionales son iguales, dicha razón es 1 y podríamos afirmar que las dos poblaciones tienen una distribución homogénea; es decir, los datos se encuentran igualmente dispersos. Una forma clara de interpretación de la importancia de la homogeneidad de varianzas se puede apreciar en el siguiente ejemplo: Supongamos que estamos comparando el rendimiento promedio de los alumnos de una asignatura dividida en dos secciones, cada una de las cuales están asignadas a diferentes profesores. Podría ocurrir que el rendimiento promedio de ambas secciones sea la misma; pero sin embargo, las notas pueden tener diferente variabilidad.

Observe las dos curvas en el siguiente gráfico. Las dos tienen el mismo promedio, pero, por la forma de la campana, tienen diferente varianza. Esto justifica la necesidad de establecer una prueba de hipótesis para una razón de varianzas, a fin de comprobar si ellas son homogéneas o no. Una aplicación de esta razón podría ser bastante significativa en un caso en el que las medias no son muy explicativas. Por otro lado, así como se realiza inferencia sobre la estimación y prueba de hipótesis de la diferencia de medias o proporciones muestrales en el caso de dos poblaciones, así también podemos plantear el estudio de la razón de las varianzas

de dos poblaciones definiendo al parámetro q como y su estimador

. Este estudio lo haremos tomando en cuenta el intervalo de confianza y la prueba de hipótesis para q. Pues bien. Sea X1, X2, ..., Xn1 una muestra aleatoria extraída a partir una población N(m1, s1²) y se Y1, Y2, ..., Yn2 una muestra aleatoria extraída a partir una población N(m2, s2²).

Si son los estadísticos de la primera muestra, de tamaño n1 y

son los estadísticos de la segunda muestra, de tamaño n2 en donde

Page 14: RESUMEN DE ESTADISTICA II INIDAD 2

y así como

y

entonces diremos que es un estimador puntual para la razón o el

cociente de las varianzas poblacionales

De manera que si es el estimador de definiremos la variable aleatoria

tal que F à F(n1 – 1, n2 – 1) Por tanto las pruebas de hipótesis a plantearse, usando el estadístico

con n1 – 1 grados de libertad en el numerador y n2 – 1 grados de libertad en el denominador, serán

Caso I Caso II Caso III

Si Fc <Fa; Rechazar H0 Rechazar H0 si Fc < Fa/2 o si Fc > F1-a/2

Si Fc > 1-a ; rechazar H0

Y en cuanto al Intervalo de confianza del (1-a)x100% para será