02 - Pruebas de hipótesis bivariadas

download 02 - Pruebas de hipótesis bivariadas

of 45

Transcript of 02 - Pruebas de hipótesis bivariadas

El rol de la hiptesis Pruebas de Hiptesis BivariadasDr. Omar A. BarrigaDepartamento de Sociologa Universidad de Concepcin La hiptesis es central a toda construccin de conocimiento. Puede ser el punto inicial de una investigacin de carcter confirmatorio. Puede ser el punto final de una investigacin de carcter exploratorio.

TeoraDeducir

Qu es una hiptesis? No es ms que una proposicin acerca del comportamiento de algn fenmeno. Normalmente esa proposicin se simplifica al especificarla como una relacin entre dos aspectos del fenmeno reconociendo que hay muchos ms aspectos que influyen. La estadstica tiene, a menudo, el objetivo de poner a prueba estas hiptesis.

HiptesisInducir

Hechos

1

Hiptesis Conceptual El planteamiento de la proposicin a nivel abstracto Los ingresos varan entre tipos de personas. La tendencia poltica de una persona depende de su afiliacin religiosa. Pases ms pobres tienen peor distribuciones de ingreso.

Hiptesis Operacional El planteamiento de la proposicin a nivel concreto (operacional) Los ingresos mensuales, por concepto de sueldo en pesos chilenos, varan entre hombres y mujeres. El partido poltico a que pertenece una persona depende de si es catlico, protestante o judo. Mientras ms bajo el PIB/capita de un pas, mayor es el coeficiente Gini de ese pas.

Noten que, en estos ejemplos, las variables no nos indican cmo observar el fenmeno.

Noten que, en estos ejemplos, las variables SI nos indican cmo observar el fenmeno.

Hiptesis Nula (Ho) La negacin de la hiptesis operacional: Los ingresos mensuales, por concepto de sueldo en pesos chilenos, NO varan entre hombres y mujeres. El partido poltico a que pertenece una persona NO depende de si es catlico, protestante o judo. Mientras ms bajo el PIB/capita de un pas, MENOR O IGUAL es el coeficiente Gini de ese pas.

Hiptesis Estadstica Hiptesis Operacional H1: H ? M H1: ? < 0 Hiptesis Nula HO: H = M HO: ? = 0

2

Asociacin v/s Causacin Al plantear una hiptesis, es importante establecer si la hiptesis simplemente apunta a la existencia de una relacin o si implica una situacin de causa y efecto. Causalidad requiere: Establecer una asociacin (relacin) Establecer un orden en el tiempo Descartar relaciones espurias.

Hiptesis y Nivel de Medicin Los ingresos mensuales, en trminos de sueldo en pesos chilenos, varan entre hombres y mujeres. (Numrica y Categrica) El partido poltico a que pertenece una persona depende de si es catlico, protestante o judo. (Categrica y Categrica) Mientras ms bajo el PIB/capita de un pas, mayor es el coeficiente Gini de ese pas. (Numrica y Numrica)

Cmo se pone a prueba una hiptesis? Para empezar, la estadstica pone a prueba la hiptesis nula. Luego de tomar una decisin sobre la hiptesis nula, esto se interpreta como apoyo o carencia de apoyo para nuestra hiptesis operacional. Ese apoyo (o falta de), a su vez, se interpreta como apoyo (o falta de) para nuestra hiptesis conceptual.

La lgica de la prueba de hiptesis Partimos del supuesto que tenemos una muestra y queremos saber qu ocurre en la poblacin. La hiptesis nula se considera lo esperado. Los datos obtenidos se considera lo observado. La prueba de hiptesis se convierte en una comparacin entre lo esperado y lo observado. Volviendo al ejemplo de diferentes sueldos entre hombres y mujeres...

3

La hiptesis nula establece que el sueldo promedio de los hombres es igual al sueldo promedio de las mujeres (diferencia esperada = 0) Sin embargo, en promedio, los hombres ganan $70,000 ms por mes que las mujeres (diferencia observada = $70,000).

Paramtrica o no paramtrica? Para usar tcnicas paramtricas: Se supone variables de tipo numrica, Que se distribuyen normalmente, Y que tengamos, mnimamente, 30 casos por grupo (si estamos comparando grupos) o 30 casos por variables (si estamos correlacionando dos variables).

La pregunta ahora es, la diferencia que he observado en mi muestra, refleja una diferencia real en la poblacin? Para poder responder eso necesito calcular ciertos estadgrafos que me permitan decidir si rechazo o no rechazo mi hiptesis nula.

Tengan presentes que estos criterios son orientadores, no son dogma.

Paramtrica 2 variables categricas 1 variable categrica y 1 numrica 2 grupos: t de Student >2 grupos: ANOVA Correlacin de Pearson y Regresin

No Paramtrica ?2 2 grupos: U de Mann-Whitney >2 grupos: H de Kruskal-Wallis Correlacin de Spearman

Paramtrica

No Paramtrica

Cuando las muestras son pareadas. . . 2 grupos: 2 grupos: t de Student para Prueba de Wilcoxon muestras 1 variable relacionadas categrica y 1 numrica >2 grupos: >2 grupos: MLG para Prueba de Friedman medidas repetidas

2 variables numricas

4

Volviendo a la lgica... La idea es establecer un umbral (un valor crtico) que me permita decir, con un cierto grado de confianza, que lo que he observado efectivamente refleja una realidad externa y no se deba solamente a errores de medicin o de muestreo. Entonces, con los datos observados calculo un estadgrafo (valor observado) que contrasto con el umbral (valor crtico).

Si el valor observado es mayor o igual que el valor crtico... Rechazo la hiptesis nula, Apoyo la hiptesis operacional, y Apoyo la hiptesis conceptual.

Si el valor observado es menor que el valor crtico... NO rechazo la hiptesis nula, NO apoyo la hiptesis operacional, y NO apoyo la hiptesis conceptual.

Errores Como la estadstica es una ciencia probabilstica (y no determinstica), siempre existe la posibilidad de cometer errores. Por suerte, las probabilidades de cometer errores pueden ser calculadas. Esos clculos de probabilidades se basan en la lgica del rea bajo a curva normal.

Tipos de errores Al tomar las decisiones en funcin de mis valores crticos y observados, yo puedo cometer 2 tipos de errores: Rechazar una hiptesis nula que no debera ser rechazada (que es verdadera); y No rechazar una hiptesis nula que debera ser rechazada (que es falsa).

5

El error H O verdadera Correcto H O falsa Error tipo II ( ) Correcto

Rechazo H O No rechazo H O

Error Tipo I (a )

Es difcil de calcular, por ende quiero simplemente hacer dos comentarios al respecto: Est fuertemente vinculado a lo que se denomina la potencia de una prueba estadstica (su capacidad de detectar diferencias pequeas); y Su relacin con el error tipo no es lineal y s es muy compleja.

El error Es posible que el error tipo probablemente ya lo hayan visto... Recuerden que cuando se habla de Intervalos de Confianza, a menudo se dice que queremos estar 95% seguros de nuestros resultados. A esto le llamamos el nivel de confianza. El es el grado de inseguridad (1 0.95)... La probabilidad de cometer un error

La tradicin en el mundo de la ciencia (y esto es comn en casi todas las ciencias, tanto las sociales como las naturales), es que la probabilidad de cometer un error no debera ser mayor a 0.05 (5%, o 1 en 20). A veces, se puede usar 0.01 o 0.001 pero 0.05 es lo ms comn. Cuando podemos estar 95% seguro (o ms) de nuestra decisin de rechazar la hiptesis nula, se dice que el resultado es significativo.

6

Los pasos (clsicos) para probar hiptesis1. Decida sobre el valor de con que quiere trabajar (que probabilidad de cometer un Error Tipo I est dispuesto a correr); 2. Identifique el valor crtico (el umbral) utilizando una tabla especialmente diseada para estos fines (disponibles en todo texto de estadstica; Tablas de z, t, F, Chi, etc.); 3. Calcule el valor observado (el estadgrafo) con los datos a su disposicin;

4. Compare el valor observado con el valor crtico; y 5. Tome una decisin...1. Si vo vc Rechace Ho 2. Si vo < vc No rechace Ho

6. En funcin de su decisin anterior, apoye o no apoye su hiptesis operacional y, por ende, su hiptesis conceptual. 7. NOTA BENE: En la estadstica nunca se prueba una hiptesis, solamente se apoya!!

Los pasos (modernos) para probar hiptesis1. Decida sobre el valor de con que quiere trabajar (que probabilidad de cometer un Error Tipo I est dispuesto a correr); 2. Pdale al computador que calcule el estadgrafo correspondiente y que informe sobre su significancia;La significancia es el clculo exacto de la probabilidad de cometer un error tipo .

3. Identifique el valor de la significancia (sig., p, prob., etc.); 4. Compare sig. con . 5. Tome una decisin:1. Si sig. Rechace Ho 2. Si sig. > No rechace Ho

6. En funcin de su decisin anterior, apoye o no apoye su hiptesis operacional y, por ende, su hiptesis conceptual.

7

El uso del Chi

La Prueba del Chi-Cuadrado

Cuando el inters es establecer si existe una relacin entre dos variables categricas. Esta prueba es no-paramtrica; es decir, no se intenta estimar un parmetro. Lo que s se busca es establecer si las frecuencias observadas se deben a un fenmeno aleatorio o sistemtico; es decir, si son independientes o no. El Chi-cuadrado parte con una Tabla de Contingencia.

Independencia Para variables categricas, dos variables son estadsticamente independientes cuando: Dentro de cada una de las categoras de la primera variable hay proporciones idnticas de la segunda variable; y Dentro de cada una de las categoras de la segunda variable hay proporciones idnticas de la primera variable.

La Prueba de Hiptesis Hiptesis operacional: que SI existe relacin entre las variables; es decir, que son dependientes la una de la otra. Hiptesis nula: que NO existe relacin entre las variables; es decir, que son independientes la una de la otra. La prueba: contrastar lo observado con lo esperado bajo la hiptesis nula.

La hiptesis nula en la prueba de Chi-cuadrado es la independencia estadstica.

8

El contraste: si la diferencia entre lo observado y lo esperado es suficientemente grande, puedo tener seguridad de que la diferencia se debe a algn fenmeno sistemtico y no al simple azar o errores de medicin o muestreo. El procedimiento: establecer un estadgrafo y un umbral (valor observado y valor crtico). La decisin: comparar los dos y tomar una decisin sobre si rechazo Ho o no. El estadgrafo: el Chi-cuadrado (2).

El 2 Observado2 o = j =1 i =1 C F

( f f )ij ij

2

f ij

C = # de Columnas ( j ) F = # de Filas ( i ) f ij = frecuencia observada celda ij f ij = frecuencia esperada celda ij

El 2 Crtico Obtenido de una tabla estndar (disponible en cualquier texto de estadstica) usando: El (probabilidad de rechazar una Ho que no debera ser rechazada) que estamos dispuestos a aceptar; y Los grados de libertad, que es el nmero de filas menos uno multiplicado por el nmero de columnas menos uno. g.l. = (F-1)(C-1)

Un ejemplo Volvamos al ejemplo que us al presentar las Tablas de Contingencia: Sexo e Hinchada. Hiptesis conceptual: Diferentes equipos de ftbol atraen diferentes tipos de personas. Hiptesis operacional: El sexo de una persona influye sobre su condicin de hincha del Colo-Colo, de la Universidad de Chile o de la Universidad Catlica.

9

Hiptesis nula: El sexo de una persona NO influye sobre su condicin de hincha del Colo-Colo, de la Universidad de Chile o de la Universidad Catlica. Datos: respuestas de 150 encuestados a las preguntas: Sexo? Entre el Colo-Colo, la Chile y la Catlica, de cul se siente ms hincha?

Frecuencias ObservadasHombres Mujeres Total Colo Chile Catlica Total 50 20 10 80 20 30 20 70 70 50 30 150

Los datos se han resumido en la siguiente Tabla de Frecuencias Observadas.

Marginales en FilaHombres Colo Chile Catlica Total 53.3% 46.7% 100% Mujeres Total

Marginales en ColumnaHombres Mujeres Colo Chile Catlica Total Total 46.7% 33.3% 20.0% 100%

10

Porcentajes-Fila ObservadosHombres Mujeres Total Colo Chile Catlica Total 71.4% 40.0% 33.3% 53.3% 28.6% 60.0% 66.7% 46.7% 100% 100% 100% 100%

Porcentajes-Fila Esperados (bajo Ho)Hombres Mujeres Total Colo Chile Catlica Total 53.3% 53.3% 53.3% 53.3% 46.7% 46.7% 46.7% 46.7% 100% 100% 100% 100%

Porcentajes-Columna ObservadosHombres Mujeres Colo Chile Catlica Total 62.5% 25.0% 12.5% 100% 28.6% 42.9% 28.6% 100% Total 46.7% 33.3% 20.0% 100%

Porcentajes-Columna Esperados (bajo Ho)Hombres Mujeres Colo Chile Catlica Total 46.7% 33.3% 20.0% 100% 46.7% 33.3% 20.0% 100% Total 46.7% 33.3% 20.0% 100%

11

La pregunta... Cul tendra que ser la distribucin interna de la Tabla de Contingencia , manteniendo las frecuencias marginales, bajo la condicin de independencia planteada por la hiptesis nula (Ho)? La respuesta, redondeada a un decimal, est en la siguiente Tabla de Frecuencias Esperadas. Queda como ejercicio la verificacin que los porcentajes fila y columna son igual a los porcentajes marginales.

Frecuencias EsperadasHombres Mujeres Total Colo Chile Catlica Total 37.3 26.7 16.0 80 32.7 23.3 14.0 70 70 50 30 150

Clculo de Frecuencias EsperadasHombres Mujeres Total Colo Chile Catlica Totaln1 n1 n n2 n1 n n3 n1 n n1 n2 n n2 n2 n n3 n2 n

Diferencia entre fe y foHombres Mujeres 37.3 50 32.7 20 26.7 20 23.3 30 16.0 10 14.0 20

n1 n2 n3 n

Colo Chile Catlica

n1

n2

12

(fe fo)Hombres 12.7 6.7 6 Mujeres 12.7 6.7 6

( fe fo)2Hombres 161.29 44.89 36.00 Mujeres 161.29 44.89 36.00

Colo Chile Catlica

Colo Chile Catlica

(fe fo)2 / feHombres 4.32 1.68 2.25 Mujeres 4.93 1.93 2.57

2 = j =1 i =12

C

F

( f f )ij ij

2

f ij

Colo Chile Catlica

= (4.32 + 1.68 + 2.25) + (4.93 + 1.93 + 2.57 ) = (8.25) + (9.43) = 17.68

13

La decisin clsica (con Tablas)o2 = 17.68 c2 = 5.991 ( = 0.05 y g.l. = 2) c2 = 9.210 ( = 0.01 y g.l. = 2) o2 > c2 Rechazo hiptesis nula de independencia entre las dos variables; y Apoyo, con un 95% (o 99%) grado de confianza que sexo e hinchada se relacionan.

La decisin moderna (con computador) o2 = 17.6055357 Sig. = 0.00015058 Sig. Rechazo hiptesis nula de independencia entre las dos variables; y Apoyo, con un 95% (o 99% o 99.9%) grado de confianza que sexo e hinchada se relacionan.

El problema de bajos efectivos Un problema que se presenta con el Chicuadrado es el problema de bajos efectivos que hace referencia a valores esperados, en una o ms celdas de la tabla, de menos de 5. Como los valores esperados son el denominador de la frmula, valores esperados pequeos inflan indebidamente el aporte de esa celda al Chi-cuadrado.

Si la tabla es de 22... Una forma de superar el problema es usando la Correccin de Yates que simplemente le resta 0.5 a la diferencia entre la frecuencia observada y la esperada para cada celda antes de cuadrarla; despus se usa como cualquier Chi-cuadrado observado.

2 Yates

=

j =1 i =1

C

F

( f

ij

f ij 0 . 5 f ij

)

2

14

Otra forma de superar el problema cuando la Tabla es de 22, especialmente cuando la muestra es pequea (menor a aprox. 30 casos), es la Prueba Exacta de Fisher. El clculo es engorroso pero la interpretacin es simple... El resultado de la Prueba Exacta de Fisher es la probabilidad exacta de obtener la distribucin observada si las variables son realmente independientes... Es decir, la probabilidad de cometer un error tipo o la significancia.

El problema del n Los clculos del Chi-cuadrado son sumamente sensibles al tamao de la muestra. Si la muestra fuese 15, manteniendo las proporciones iguales, el o2 baja a 1.76 y la significancia sube a 0.415. Si la muestra fuese 1500, manteniendo las proporciones iguales, el o2 sube a 176 y la significancia baja a 5.99 10-39(= 0.00000000000000000000000000000000000000599)

Significancia v/s Fuerza El hecho que el o2 nos puede indicar que las variables no son independientes... ...pero que esa decisin puede depender del tamao de la muestra... ...nos lleva a incorporar un nuevo elemento al estudio de la relacin entre dos variables... ...la fuerza de la relacin!

La Fuerza de la Relacin Es una medida de cuan fuerte es la relacin entre dos variables. Por definicin, una relacin no significativa indica que no existe relacin; Es decir, fuerza = 0.

Hombres Colo Chile Total 36 24 60

Mujeres Total 24 16 40 60 40 100

15

Al otro extremo tenemos una relacin perfecta Es decir, fuerza = 1. El sexo de una persona me deja saber exactamente cual es su equipo.

En la prctica es difcil encontrar una relacin con fuerza = 0. Casi siempre existe algo de fuerza, aunque sea debido a errores aleatorios, de medicin o muestreo. Podemos repensar la significancia como una fuerza significativamente diferente de 0; es decir, es lo suficientemente grande como para rechazar la hiptesis de que es 0?

Hombres Colo Chile Total 60 0 60

Mujeres Total 0 40 40 60 40 100

En la prctica tambin es difcil encontrar una relacin perfecta (con fuerza = 1). Si fuese tan aparente, quin necesita la estadstica?

Normalmente la fuerza de una relacin se mide con algn tipo de medida que vara entre -1 y 1.Inversa o Negativa Directa o Positiva

Como podrn ver, al decir que una relacin es directa o inversa est implcita la idea de direccin. A mayor variable A, mayor variable B; o A mayor variable A, menor variable B.

-1 -0.75 -0.5 -0.25 Perfecta Mediana Fuerte Dbil

0 Nula

0.5 0.75 1 Perfecta Mediana Dbil Fuerte

0.25

Para que esto haga sentido, requiere que las variables sean, al menos, ordinales. Por ende, con dos variables categricas, solo se puede hablar de direccin con variables ordinales, no las nominales.

16

Medidas de Fuerza con variables nominales Existen muchas medidas de fuerza para dos variables nominales: Phi cuadrada (2) Phi () Q de Yule Lambda () Coeficiente de Contingencia (C) V de Cramer (V) Etc.

Medidas de Fuerza con variables ordinales Existen muchas medidas de fuerza para dos variables ordinales: Gamma (G) tau b (b) tau c (c) d de Sommers (dyx) Etc.

Cul usar? Responder a esta pregunta est mucho ms all del alcance de esta asignatura. Requiere la consideracin de temas como: Tamao de la Tabla; Simetra o Asimetra de la relacin; Interpretabilidad; Experiencia

Reduccin Proporcional de Error (PRE) Medidas PRE (Proportional Reduction of Error) tienen la gran ventaja que su valor numrico se puede entender como la reduccin porcentual en errores de prediccin sobre una variable teniendo conocimiento de la otra variable. No quiero entrar al clculo propiamente tal pero si quiero que quede clara su lgica.

Sin embargo, a m me gustan las medidas PRE por su interpretacin intuitiva... Una de ellas es lambda.

17

Colo Chile Catlica Total

Hombres Mujeres Total 50 20 70 20 30 50 10 80 20 70 30 150

Colo Chile Catlica Total

Hombres Mujeres Total 50 20 70 20 30 50 10 80 20 70 30 150

Dada la informacin en la Tabla, si saco un caso al azar de una bolsa y me preguntan de qu equipo es, mi respuesta sera el Colo (por ser el ms frecuente); pero cometera 80 errores (50 + 30).

Si hago lo mismo, pero esta vez me dicen el sexo del caso, dira el Colo si es hombre (cometiendo 30 errores) y la Chile si es mujer (cometiendo 40 errores) y, en total, cometera 70 errores.

Noten que, al tener conocimiento del sexo (de una variable) reduje la cantidad de errores de prediccin de hinchada (la otra variable) de 80 a 70. Esa es la reduccin de error, para hacerla proporcional hay que estandarizarla de alguna forma...

Lambda# de errores sin - # de errores con # de errores sin 80 70 10 = = = 0.125 12.5% 80 80 ?=

La relacin sexo hinchada es dbil dado un de 0.125. Teniendo conocimiento de sexo, logro reducir los errores de prediccin de hinchada en 12.5%.

18

# de errores sin - # de errores con # de errores sin 80 70 10 = = = 0.125 12.5% 80 80 ?=

Medidas PRE La interpretacin simple de las medidas PRE las hacen sumamente tiles en la estadstica. Sin embargo, no siempre es posible usar una de estas medidas. Un buen texto, como el Spiegel de Tcnicas No-Paramtricas o el Snedecor y Cochran, tiene buenos tratamientos de estas tcnicas. La lgica del PRE la veremos de nuevo.

Fjense que si no reduzco ningn error, el numerador es 0 (80 80 = 0) y, por ende, = 0 (no hay relacin). Si elimino todos los errores, el numerador es 80 (80 0 = 80) y, por ende, = 1 (relacin perfecta).

Resolviendo el Ejemplo En base a nuestra muestra de 150 casos, podemos afirmar lo siguiente: La hiptesis que sexo afecta el equipo del cual uno es hincha es apoyada (2 = 17.6; p 0.01); La relacin es relativamente dbil ( = 0.125); y La distribucin por sexo dentro de la categora hincha del Colo es la que ms se distancia de la independencia (contribucin porcentual al 2 52%).

El Anlisis? Los tres comentarios que aparecen en la pgina anterior son los resultados del procesamiento estadstico. An falta el anlisis!! Reconociendo que aqu falta el contexto de un marco referencial. Cmo podemos darle sentido a ese resultado? Cmo podramos intentar explicarlo? Qu prximo paso es sugerido por el anlisis?

19

Descriptivos Sexo Hombre Mujer Estadstico Error tp. Estadstico Error tp. 10.37 .213 10.06 .200 9.95 9.67 10.79 10.48 12.00 17.708 4.208 0 20 20 4.00 -.443 -.276 10.45 10.15 11.00 19.082 4.368 0 21 21 6.00 -.283 -.553

La diferencia entre 2 medias:La prueba de t de Student

ESC

Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis

Lmite inferior Lmite superior

.124 .247

.112 .223

Estadsticos de grupo

De hecho, las dos submuestras tienen medias diferentes Hombres = 10.37 Mujeres = 10.06

ESC Sexo N Media Desviacin tp. Error tp. de la media Hombre 390 10.37 4.208 .213 Mujer 477 10.06 4.368 .200

Y distribuciones diferentes.

20

La pregunta fundamental que hay que hacerse es: Es suficientemente grande la diferencia observada en mi muestra para poder decir con un cierto grado de confianza que efectivamente refleja una diferencia real en la poblacin?

Para poder responder a esa pregunta utilizamos la siguiente formula. Esta frmula supone varianzas desiguales para los dos grupos. El resultado de esta frmula es un t observado (to).

to =

(X

1

X 2 ) 0

2 s12 s2 + N1 N 2

to =

XH XM2 s12 s2 + N1 N 2Prueba de Levene para la igualdad de varianzas Prueba T para la igualdad de medias Prueba de muestras independientes ESC Se han No se han asumido asumido varianzas varianzas iguales iguales 1.680 .195 1.043 1.047 865 842.169 .297 .296 .31 .293 Inferior Superior -.270 .882 .31 .292 -.268 .879

=

10.37 10.06 17.7 19.1 + 390 477 0.31 0.31 = = 1.07 0.045 + 0.040 0.29

F Sig. t gl Sig. (bilateral) Diferencia de medias Error tp. de la diferencia 95% Intervalo de confianza para la diferencia

=

21

La diferencia observada en la muestra no parece reflejar una diferencia real en la poblacin. De hecho, si generalizara esa diferencia a la poblacin, correra una probabilidad de 0.3 de cometer un error tipo alfa. Una probabilidad de cometer un error de 3 en 10 es inaceptable.

Anlisis de Varianza (ANOVA)

El Problema Me interesa estudiar las diferencias en nivel de educacin de mujeres en las diferentes comunas de la Provincia de Concepcin. Existe una relacin entre comuna y educacin de las mujeres? Entre cuales comunas se dan las diferencias? Se pueden armar subconjuntos homogneos de comunas (que no sean diferentes entre si)?

Los Datos La encuesta CASEN de 1998 Seleccionando: Provincia = 83 (Concepcin) Sexo = 2 (mujer)

NT = 3312 Comunas = 8 La CASEN 98 es representativa solamente para estas 8 comunas.

22

Las Comunas1. 2. 3. 4. 5. 6. 7. 8. Concepcin Talcahuano Penco Tom Lota Coronel San Pedro Chiguayante

Las hiptesis Conceptual: Existe una relacin entre comuna y educacin de las mujeres en la Provincia de Concepcin. Operacional: Las medias de aos de escolaridad de las mujeres son diferentes para las 8 comunas 1 2 3 4 5 6 7 8

Nula: Las medias de aos de escolaridad de las mujeres son iguales para las 8 comunas. 1 = 2 = 3 = 4 = 5 = 6 = 7 = 8

ESC COMUA CONCEPCION TALCAHUANO PENCO TOME LOTA CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE Total Mean 11.04 9.79 9.39 8.78 8.30 9.36 9.54 9.33 9.50 Std. Deviation 4.17 4.16 3.73 4.19 4.01 4.05 4.67 4.21 4.23 N 495 490 363 377 392 395 387 413 3312

Todas las comunas juntas

-3

0

3

6

9

12

15

18

21

24

27

30

23

Las 4 primeras distribuciones40 30

Por comuna

20

10

Mean +- 4 SD ESC

0

-10

-20N= 495 490 363 377 392 395 387 413

CONCEPCION

PENCO TOME

LOTA

SAN PEDRO DE LA PAZ CORONEL CHIGUAYANTE

TALCAHUANO

-3

0

3

6

9

12

15

18

21

24

27

30

COMUA

A primera vista... Hay pequeas diferencias entre las comunas en cuanto al: Centro de la distribucin de los casos Amplitud de la distribucin de los casos

La duda que surge ahora es si esas diferencias se deben a diferencias reales en las subpoblaciones o a errores de medicin, muestreo, etc.

En otras palabras, las 8 comunas representan 8 muestras diferentes de una sola poblacin homognea o representan 8 subpoblaciones diferentes? o una combinacin de lo anterior? Una forma de pensarlo es mediante los intervalos de confianza para cada comuna!

24

Intervalos de confianza12 11

Formalicemos esto un poco...

10

9

(X X)i

2

95% CI ESC

8

n 1

Recuerdan esto? Es la frmula para la varianza de una muestra. El numerador es la Suma de Cuadrados

7N= 495 490 363 377 392 395 387 413

CONCEPCION

PENCO TOME

LOTA

SAN PEDRO DE LA PAZ CORONEL CHIGUAYANTE

TALCAHUANO

COMUA

SC = X i X

(

)

2

Cada caso de mi muestra tiene un valor (Xi) que est a una distancia dada de la media de mi muestra ( X-barra ). Todas esas diferencias se elevan al cuadrado y se suman para obtener la Suma de Cuadrados En el caso de los 3312 casos en mi muestra actual, esa suma es de 59201.95. (Si divido por 3311 me da una varianza de 17.88 y una desviacin estndar de 4.23.)

(X X) = (X X )i i T Llamemos esa media la media total... ...es decir, la media de la muestra de toda la poblacin.

Juguemos con esa distancia...

25

Digamos que esa distancia puede reflejar dos elementos diferentes... ...por un lado, parte de esa distancia puede deberse a una distancia entre el valor del caso dado y la media de la subpoblacin a la que pertenece (por ejemplo, la media de Penco, si el caso es de Penco)... ...y por el otro, parte de esa distancia puede deberse a una distancia entre la media de esa subpoblacin y la media total (la diferencia entre la media de Penco y la media total).

(X

ij

X T ) = (X ij X j ) + (X j X T )

Donde : X ij es el valor del i - simo caso del j - simo grupo X j es la media del j - simo grupo (submuestra) X T es la media Total (muestra)

Ejemplo

(X

ij

X T = X ij X j + X j X T

) (

) (

) )

X ij X T = X ij X j + X j X T X ij = X ij X j + X j X T + X T X ij = X T + X j X T + X ij X j X ij = X T + j + ij X ij = media total + efecto grupo + error particular

(

) (

La altura promedio del curso es 165cm La altura promedio de los hombres el 175cm El efecto hombre es de 10cm Juan mide 180cm 180 = 165 + 10 + 5 Valor observado = media total + efecto grupo + error particular

26

Volviendo a la hiptesis La hiptesis nula es que las medias de las subpoblaciones son iguales... ...es decir, NO HAY EFECTO GRUPO! Por lo tanto, bajo la hiptesis nula...

Sigamos formalizando...

X i = XT + 0 + iSi no hay efecto grupo...ij

) ( ) ( ) (X X ) = (X X ) + (X X ) (X X ) = (X X ) + n (X X )ij

(Xij ij

XT = Xij X j + X j XT2 2 T ij j j

2

T

2

2

2

T

ij

j

j

j

T

SCT = SCD + SCE

Entonces...

(X (X (X (X

XT XT XT XT

) = (X2 2 2

ij

X j + n j X j XT2

)

(

)

2

X j = XTij

ij

ij

SC T = SC D SC E = 0

) = (X ) = (X ) = (X2

ij

XT + n j XT XT2

ij

XT XT

ij

) ( ) + n (0) ) +02 j 2

)

2

2

Bajo la hiptesis nula, yo esperara que la Suma de Cuadrados entre grupos fuese 0. Sin embargo, como siempre hay una probabilidad que, an bajo la H0, en mi muestra aparezca un poco de SCE , la pregunta ahora es: Es la SCE observada lo suficientemente grande como para poder descartar la posibilidad que se debe simplemente a errores de medicin y/o muestreo (es decir, se debe a un efecto grupo)?

27

ANOVA La respuesta estadstica a la interrogante planteada se llama el Anlisis de Varianza, ANDEVA o ANOVA (del ingls). El ANOVA calcula un estadgrafo llamado la Razn F observada, que se compara con una Razn F crtica obtenida de una tabla.

Lo que efectivamente se examina en un ANOVA es que el grado de variabilidad dentro de los grupos sea, de alguna forma, menor al grado de variabilidad que existe entre los grupos. Puesto de otra manera, que el efecto de pertenencia al grupo sea suficientemente grande como para establecer con un grado de confianza que las medias son diferentes.

1.0

1.4

1.8

2.2

2.6

3.0

3.4

3.8

4.2

4.6

5.0

2.0

2.2

2.4

2.6

2.8

3.0

3.2

3.4

3.6

3.8

4.0

28

La variabilidad dentro de los grupos se mide usando la media cuadrtica J nj dentro (MCD), que es la suma de cuadrados SC D = X ij X j j=1 i =1 dentro dividido por SC D N-J-1, denominado MC D = grados de libertad N J 1 del denominador o dentro.

(

)

2

La variabilidad entre los grupos se mide usando la media cuadrtica entre J (MCE) que es la suma SC E = n j X j X T de los cuadrados j=1 entre dividido por JSC E 1, denominado MC E = grados de libertad J 1 del numerador o entre.

(

)

2

La lgica del test es la siguiente: si la razn entre la variabilidad entre los grupos es suficientemente mayor que la variabilidad dentro de los grupos, probablemente existe una diferencia significativa entre grupos en la poblacin. Desde el punto de vista matemtico, esta razn se llama la razn F y se calcula dividiendo la media cuadrtica entre (MCE ) por la media cuadrtica dentro (MCD). Es decir...

La Razn F El Fo es el estadgrafo observado. El Fc es el valor crtico, el umbral, que se extrae de una tabla con parmetros: nivel alfa grados de libertad numerador [J-1] grados de libertad denominador [N-J-1].

MCE Fo = MCD

29

Si el Fo es mayor que el Fc, podemos generalizar esa relacin de la muestra a la poblacin con un grado de confianza correspondiente al nivel alfa que utilizamos. Los paquetes estadsticos nos dan el significado de la razn F. Es decir, nos dan la probabilidad de cometer un error tipo alfa si generalizamos de nuestra muestra. Normalmente si ese valor es menor que 0.05, podemos generalizar. Lo que generalizamos es que existe una relacin entre las variables.

ANOVA ESC Sum of Squares 2003.550 57198.399 59201.949 df 7 3304 3311 Mean Square 286.221 17.312 F 16.533 Sig. .000

Between Groups Within Groups Total

La decisin Fo > Fc Fo = 16.533 Fc = 2.01 (con a = 0.05, g.l.num = 7, g.l.den = [3304])

Pero, entre cuales? El ANOVA simplemente nos indica que existe una relacin, no nos identifica cuales son los grupos que se diferencian entre si; es decir, cuales medias son diferentes y cuales no lo son en la poblacin. Esto, que normalmente se denomina contrastes post hoc, se hace de varias formas. La ms comn es el HSD (Honestly Significant Difference) de Tukey.

Sig. < a 0.000 < 0.05

En ambos casos, rechazo la nula y apoyo la hiptesis de que s hay diferencias entre las medias de las comunas.

30

Multiple Comparisons Dependent Variable: ESC Tukey HSD Mean Difference (I-J) 1.25* 1.25*

Multiple Comparisons Dependent Variable: ESC Tukey HSD Mean Difference 5.43E-02 (I-J) 1.25* -2.26*-1.01* -.61 .48 -.58 -.76 -.55 -2.74* -1.49* -1.09* -.48 -1.06* -1.24* -1.04* -1.68* -.43 -2.64E-02 .58 1.06* -.18 2.79E-02

(I) COMUA CONCEPCION CONCEPCION

(J) COMUA TALCAHUANO TALCAHUANO

Std. Error .27

Sig. .000 .000

95% Confidence Interval Lower Bound Upper Bound 2.06 .45 2.06

TALCAHUANO

PENCO

TOME

PENCO TOME LOTA CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE CONCEPCION PENCO TOME LOTA CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE CONCEPCION TALCAHUANO TOME LOTA CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE CONCEPCION

1.65* 2.26* 2.74* 1.68* 1.50* 1.71* -1.25* .40 1.01* 1.49* .43 .25 .45 -1.65* -.40 .61 1.09* 2.64E-02 -.15 5.43E-02

.29 .28 .28 .28 .28 .28 .27 .29 .29 .28 .28 .28 .28 .29 .29 .31 .30 .30 .30 .30

.000 .000 .000 .000 .000 .000 .000 .864 .010 .000 .801 .987 .731 .000 .864 .489 .008 1.000 1.000 1.000

.78 1.40 1.89 .83 .65 .87 -2.06 -.47 .14 .63 -.43 -.61 -.39 -2.53 -1.27 -.32 .17 -.89 -1.07 -.85

2.53 3.12 3.60 2.53 2.36 2.55 -.45 1.27 1.87 2.34 1.28 1.11 1.30 -.78 .47 1.54 2.01 .94 .77 .96

(I) COMUA CONCEPCION TOME

LOTA

CORONEL

CHIGUAYANTE (J) COMUA TALCAHUANO CONCEPCION TALCAHUANO PENCO LOTA CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE CONCEPCION TALCAHUANO PENCO TOME CORONEL SAN PEDRO DE LA PAZ CHIGUAYANTE CONCEPCION TALCAHUANO PENCO TOME LOTA SAN PEDRO DE LA PAZ CHIGUAYANTE

Std. Error .30 .27 .28 .29 .31 .30 .30 .30 .30 .28 .28 .30 .30 .30 .30 .29 .28 .28 .30 .30 .30 .30 .29

Sig. 1.000 .000 .010 .489 .748 .521 .188 .572 .000 .000 .008 .748 .008 .001 .010 .000 .801 1.000 .521 .008 .999 1.000

95% Confidence Interval Lower Bound -.85 Upper Bound .96 .45 2.06 -3.12 -1.40-1.87 -1.54 -.43 -1.49 -1.67 -1.45 -3.60 -2.34 -2.01 -1.39 -1.96 -2.14 -1.92 -2.53 -1.28 -.94 -.33 .16 -1.08 -.86 -.14 .32 1.39 .33 .15 .34 -1.89 -.63 -.17 .43 -.16 -.34 -.15 -.83 .43 .89 1.49 1.96 .73 .92

Multiple Comparisons Dependent Variable: ESC Tukey HSD Mean Difference (I-J) 1.25* -1.50*-.25 .15 .76 1.24* .18 .20 -1.71* -.45 -5.43E-02 .55 1.04* -2.79E-02 -.20

Grupos homogeneos?(J) COMUA TALCAHUANO CONCEPCIONTALCAHUANO PENCO TOME LOTA CORONEL CHIGUAYANTE CONCEPCION TALCAHUANO PENCO TOME LOTA CORONEL SAN PEDRO DE LA PAZ

(I) COMUA CONCEPCION LA PAZ SAN PEDRO DE

Std. Error .27 .28.28 .30 .30 .30 .30 .29 .28 .28 .30 .30 .29 .29 .29

Sig. .000 .000.987 1.000 .188 .001 .999 .997 .000 .731 1.000 .572 .010 1.000 .997

95% Confidence Interval Lower Bound Upper Bound .45 2.06 -2.36 -.65-1.11 -.77 -.15 .34 -.73 -.69 -2.55 -1.30 -.96 -.34 .15 -.92 -1.10 .61 1.07 1.67 2.14 1.08 1.10 -.87 .39 .85 1.45 1.92 .86 .69

CHIGUAYANTE

Sabiendo que existen diferencias entre algunas comunas y no entre otras, me puedo hacer la siguiente pregunta: Qu grupos puedo construir para que las comunas dentro de cada grupo no sean diferentes entre si; es decir, que los grupos sean homogeneos?

*. The mean difference is significant at the .05 level.

31

ESC Subset for alpha = .05 2 3 8.30 8.78 8.78 9.33 9.36 9.39 9.54

La Fuerza de la Relacin1 4 9.33 9.36 9.39 9.54 9.79 .775 11.04 1.000

COMUA Tukey HSDa,b LOTA TOME CHIGUAYANTE CORONEL PENCO SAN PEDRO DE LA PAZ TALCAHUANO CONCEPCION Sig.

N 392 377 413 395 363 387 490 495

.717

.154

Means for groups in homogeneous subsets are displayed. a. Uses Harmonic Mean Sample Size = 409.075. b. The group sizes are unequal. The harmonic mean of the group sizes is used. Type I error levels are not guaranteed.

La medida de fuerza de asociacin entre una variable continua y una variable categrica es el eta cuadrado (2), que vara de 0 a 1 y se puede interpretar como la proporcin de la variacin en la variable continua explicada por la variable categrica.

2 =

SCE SCT

SC E 2 = SCT 2004 59201 = 0.034 =

En conclusin Apoyo mi hiptesis que Comuna y escolaridad de las mujeres se asocian (F = 16.533, p < 0.000). La relacin es muy dbil (? 2 = 0.034). Existen 3 grupos de comunas homogeneos: Concepcin (alta escolaridad) Lota y Tom (baja escolaridad) Las 5 restantes (mediana escolaridad)

32

Coordenadas

Correlacin y Regresin

X 1 4 7 3 8 5 9 2

Y 5 5 8 2 5 6 8 4

El Plano Cartesiano10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10

La ubicacin de los puntos sobre el plano cartesiano no es un resumen de la informacin porque est el dato exacto representado en el plano. Cmo podemos resumir esa nube de puntos? Pidindole a las herramientas matemticas que trate de ajustar una lnea que capture la esencia de esa forma que vemos en el plano...

33

y=0,464968x+3,10828

y=0,051297x^2-0,053551x+4,039459

10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10

y=-0,045301x^3+0,719084x^2-2,788718x+6,832107

y=0,02843x^4-0,618735x^3+4,577348x^2-12,510745x+13,923185

10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10

34

y=0,018203x^5-0,422215x^4+3,456364x^3-11,810434x^2+15,799565x-2,020962

y=0,001162x^6-0,016608x^5-0,015505x^4+1,119963x^3-4,988162x^2+6,46096x+2,483871

10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10

y=0,006027x^7-0,209971x^6+2,984983x^5-22,24861x^4+92,700478x^3-211,756719x^2+239

10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10

Obviamente, la ultima lnea es la que mejor se ajusta a los 8 puntos en el plano... Pero la ecuacin que define esa lnea tiene 8 elementos Y = (0,006027x^7) (0,209971x^6) + (2,984983x^5) (22,24861x^4) + (92,700478x^3) (211,756719x^2) + (239,024248x) (95,500437) Es esto un buen resumen?

35

La Lnea Recta Dado que la estadstica busca resmenes que representen la tendencia general... ... Y que nosotros deberamos tener bastante claro la forma en que opera la matemtica de la lnea recta... ...Se hace lo posible para ajustar una lnea recta a los datos y ver cuan bien se ajustan los datos a esa representacin. a = la interseccin de la lnea recta con el eje vertical b = la pendiente, el cambio en Y para un cambio de una unidad en X

Y = a + bXLnea o Lneas Como se podrn imaginar, existe una infinidad de lneas que se pueden trazar por la nube de puntos...

y=0,464968x+3,10828

10 9 8 7 6 5 4

X = 1

b = Y = 0.46

a = 3.1

3 2 1 0 0 1 2 3 4 5 6 7 8 9 10

36

10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4y = 2+0,7x

Cmo s cual es la mejor? Mediante lo que se llama la lnea de mnimos cuadrados ordinarios (OLS, en ingls). Antes de poder entrar a lo que es OLS, tenemos que plantear lo que es la lnea de regresin.

5

6y = 4,2+0,3x

7

8Points

9

10

y = 3,1+0,46x

Yi = Yi = a + bX

Si yo pienso en la lnea de regresin como un resumen general de la tendencia observada en la lnea de puntos... ...y tengo presente que no todos los puntos van a estar en esa lnea... ...para cada punto habr una diferencia entre el valor observado de Y (Yi) y el valor esperado de Y (Yi) para un valor dado de X... ...es decir, un error.

Yi = a + bX + Yi = a + bX

Y Y = a + bX + a + bX = i i Y Y = 2 i i Yi Yi = 2 2 2

(

) (

)

37

Cmo calcularla? La mejor lnea es aquella lnea definida por Y-gorro (Yi) en la cual la suma de errores cuadrados sea lo mas pequeo posible... ...es decir que el cuadrado sea mnimo... ...por ende, lnea de mnimos cuadrados.b=

(X (X

i i

)( Y X )( XX

i i

Y

) = xy X ) x2

a = Y bX

Por suerte, la lnea de mnimos cuadrados se puede calcular algebraicamente... ...mejor an, los computadores (y hasta algunos calculadores) lo hacen fcilmente.

Y=3.11+0.46X Ahora tengo una ecuacin de una lnea recta que mejor resume la tendencia general en esa nube de puntos. Pero si bien es la mejor, an no s exactamente cuan buena es. Para poder responder a esa incgnita, puedo medir el grado en el cual los puntos se dispersan en torno a esa lnea.

La Correlacin La Correlacin (de Pearson) es una medida de cuan bien se ajustan los datos a esa lnea. Est compuesta por dos elementos: Un valor numrico (de 0 a 1) que me indica el grado de ajuste 0 = ningn ajuste 1 = ajuste perfecto

Un signo (+/-) que me indica la direccin de la relacin (positiva/directa o negativa/inversa)

38

La Correlacin

rxy

(X X )(Y Y ) = s = ss x y2 2

xy

x y

Para el ejemplo que venimos trabajando, el valor de la correlacin de Pearson (r) es +0.68. Es decir, es una relacin moderada y directa. Sin embargo, esta es la correlacin observada en mi muestra... ...y quiero saber si esta correlacin se puede generalizar a la poblacin del cual se sac la muestra con un cierto grado de confianza.

Si mi hiptesis es que existe una correlacin en la poblacin?0

to =

Mi hiptesis nula es que no existe esa correlacin o, en otras palabras, que la correlacin en la poblacin es cero.?=0

(1 r )/(n 2)2

r

Est lo suficientemente lejos de 0 mi correlacin observada como para poder rechazar la hiptesis nula con un 95% grado de confianza?

Este to debe ser comparado con un tc para ver si rechazo o no rechazo la hiptesis nula. Los paquetes estadsticos entregan un significado para el r calculado. La correlacin es direccional, por ende hay que tener cuidado con las decisiones.

39

to = =

0.68

(1 0.46) / (8 2)0.68 = 0.68 0.3

=

0.68 0.54 6 Si bien el r nos da una medida de ajuste de los datos a la lnea, no tiene un sentido intuitivo en cuanto a la fuerza de la relacin. Este se puede dar al elevar el r al cuadrado r2 = coeficiente de determinacin 1 r2 = coeficiente de indeterminacin

0.09 = 2.28 t c (2colas) = 2.45 (1cola) = 1.94

El r2 se puede interpretar como la proporcin de variacin en una variable explicada por la otra.

Un r de 0.68 nos arroja un r2 de 0.46... Una de las variables explica el 46% de la variacin en la otra. El 46% de la variacin de las variables es compartida

Los Datos (107 pases, 1995)COUNTRY Afghanistan Argentina Armenia Australia Austria Azerbaijan Bahrain Bangladesh Barbados Belarus Belgium LITERACY 29 95 98 100 99 98 77 35 99 99 99 BABYMORT 168.0 25.6 27.0 7.3 6.7 35.0 25.0 106.0 20.3 19.0 7.2

Tengan presente que la correlacin es una medida de asociacin, no implica una relacin de causa y efecto. La lnea de regresin, sin embargo, si plantea una relacin causal...

40

Scatterplot (X,Y)LITERACY vs. BABYMORT (Casewise MD deletion) 180 180

Scatterplot (con Coordenadas)LITERACY vs. BABYMORT (Casewise MD deletion)(29,168)

140

140(18,118)

(27,137)

(40,113) (61,94) (73,85) (38,76) (60,67)

100 BABYMORT BABYMORT

100

60

60

(97,53) (98,35) (68,22)

20

20

-20 10 30 50 LITERACY 70 90 110

-20 10 30 50 LITERACY 70 90 110

Scatterplot (con Identificadores)LITERACY vs. BABYMORT (Casewise MD deletion) 180Case 1

Medias de X e YLITERACY vs. BABYMORT (Casewise MD deletion)

X-barra = 78.3; Y-barra = 42.7180

140Case 17

Case 22

140Case 62 Case 38 Case 107 Case 86 Case 52

100 BABYMORT

60

Case 104 Case 6 Case 98

BABYMORT 110

100

60

20

20

-20 10 30 50 LITERACY 70 90

-20 10 30 50 LITERACY 70 90 110

41

Lnea de RegresinLITERACY vs. BABYMORT (Casewise MD deletion) 180

Ecuacin de RegresinLITERACY vs. BABYMORT (Casewise MD deletion)

BABYMORT = 160.73 - 1.507 * LITERACY

140

Y

X

180

140

100 BABYMORTBABYMORT 100

60

60

20

Y10 30 50 LITERACY 70 90 110

20

-20

-20 10 30 50 LITERACY 70 90 110

Bandas de ErrorLITERACY vs. BABYMORT (Casewise MD deletion)

CorrelacinLITERACY vs. BABYMORT (Casewise MD deletion)

BABYMORT = 160.73 - 1.507 * LITERACY180 180

Correlation: r = -.9005

140

140

BABYMORT

60

BABYMORT 10 30 50 LITERACY 70 90 110

100

100

60

20

20

-20

-20 10 30 50 LITERACY 70 90 110

42

Lnea de RegresinLITERACY vs. BABYMORT (Casewise MD deletion) 180

Descomposicin de la Varianza (Y Y ) = Y Y + Y Y (Y Y ) = Y Y + Y Y (Y Y ) = Y Y + Y Y i i 2 2 2 i i 2 2 i i

Y140 100 BABYMORT

(Y Y )i i

Yi Y = Yi Y Y + Y

(Y Y )i

60

(Y Y )i

2

20

Y10 30 50 LITERACY 70 90 110

-20

SCTotal = SC Error + SC Re gresin

Tabla de ANOVA

Resultados

Effect Regress. Residual Total

Sums of Squares 126066.8 29400.8 155467.7

df 1 105

Mean Squares 126066.8 280.0

STAT. MULTIPLE REGRESS. Regression Summary for Dependent Variable: BABYMORT

F 450.2261

p-level .000000N=107 Intercpt LITERACY BETA St. Err. of BETA

R= .90049312 R= .81088786 Adj. R= .80908679 F(1,105)=450.23 p