LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

49
LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación

Transcript of LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Page 1: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

LABORATORIO DE ESTADÍSTICA

Sesión 4

Contingencia, Anova y correlación

Page 2: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

EXPERIENCIA 1

Estudio de una tabla de contingencia

Page 3: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

¿En qué se parecen estas interrogantes?

¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales?

¿Depende del colegio de egreso el puntaje obtenido en la PSU?

¿Depende del sexo la marca de cigarrillo escogida?

Page 4: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Las preguntas involucran

Una variable

2 variables

Más de dos variables

Para seleccionar su repuesta identifique las variables y la o las poblaciones estudiadas.

Page 5: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

RESPUESTA INCORRECTA Hay dos variables en cada problema

¿Depende de la carrera estudiada el nivel de ingreso ¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales?percibido por los profesionales? El ingreso y la carrera profesional

¿Depende del colegio de egreso el puntaje obtenido ¿Depende del colegio de egreso el puntaje obtenido en la prueba de aptitud?en la prueba de aptitud? El puntaje de la PSU y el colegio

¿Depende del sexo la marca de cigarrillo escogida?¿Depende del sexo la marca de cigarrillo escogida? La marca de cigarrillo y el sexo

Page 6: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

La La preguntapregunta que se quiere que se quiere contestar en cada caso escontestar en cada caso es

¿Las variables siguen una distribución normal?

¿La muestra es representativa de la población? ¿Las variables son independientes ó

dependientes?

Para seleccionar su repuesta identifique el tipo y el número de variables de interés.

Page 7: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

RESPUESTA INCORRECTA Se busca saber si hay o hay una relación entre las dos

variables en cada problema ¿Depende de la carrera estudiada el nivel de ingreso percibido por

los profesionales? ¿El ingreso depende de la carrera profesional?

¿Depende del colegio de egreso el puntaje obtenido en la prueba de aptitud? ¿El puntaje de la PSU depende del colegio donde se estudio?

¿Depende del sexo la marca de cigarrillo escogida? ¿Los hombres o las mujeres tienen una preferencia para una marca de

cigarrillo?

Page 8: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Una empresa que realiza estudios de mercado decide realizar un estudio que le permitirá decidir el nombre de marca a unos nuevos cigarrillos que serán comercializados.

En la encuesta realizada sobre una muestra aleatoria se pide a los encuestados que clasifica cada uno de los 5 nombres:

Alezan; Corsario; Fontenoy; Icaro y Zodiaco.

con una de las 8 categorías

Cuico; Sobrio; Ridículo; Con clase; Distinguido; Vulgar; Masculino; Femenino.

Page 9: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Pregunta a responder en esta experiencia:

¿Depende del nombre propuesto a la nueva marca de cigarrillos la característica asociada

por los posibles consumidores?

Page 10: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Tabla de Contingencia

Aquí tenemos dos variables X e Y nominales.

Construiremos la tabla de contingencia

asociada a los datos muestrales, que es la distribución conjunta de frecuencias absolutas

no acumuladas

Page 11: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Tabla de datos muestrales

2 variables nominales

X : p categorías (A1,A2,...,Ap)

Y : q categorías (B1,B2,...,Bq)

Las respuestas (Xk,Yk) del

encuestado k son del tipo (Ai ,Bj )

Encuestado X Y

1 A3 B5

2 A1 B4

... ... ...

... ... ...

n A2 B1

Tabla 1

Page 12: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Tabla de contingencia

Mij :CANTIDAD DE RESPUESTAS (Ai ,Bj)

p Categorías

q Categor

Í

a

s

A1 A2 . . . Aj . . . . . ApTotal

B1 M11 M12 M1.

B2 M2.

.

.

Mij

Bi

Bq Mq1 Mq.

Total M.1 n

Page 13: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

¿Qué sucede al pasar de la Tabla 1 de los datos a la tabla de contingencia?

Se pierde solamente la identificación de cada encuestado

Se distorsiona la relación entre las dos variables

Se supone un tipo de distribución sobre las dos variables

Elige una de las 3 repuestas

Page 14: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

RESPUESTA INCORRECTA

Se pierde solamente la identificación de cada encuestado

En efecto como el número de alternativas de repuestas de X o Y es finito podríamos reconstruir la Tabla 1 a partir de la tabla de contingencia. Lo que no podemos recuperar es el nombre del encuestado para cada repuesta.

Page 15: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

La tabla de contingencia permite estimar la distribución de probabilidad de:

X+Y X (X,Y)

Elige una de las 3 repuestas

Page 16: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

RESPUESTA INCORRECTA

La repuesta es

La distribución conjunta de (X,Y) En efecto las proporciones Mij/n, que son las

frecuencias relativas de encuestados que contestaron (Ai, Bj), estiman las probabilidades de la distribución conjunta

)( jiij yYxXPP

Page 17: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

¿Cómo podemos concluir sobre la independencia de X e Y a partir de las frecuencias observadas Mij?

Si X e Y son independientes, las probabilidades Pij cumplen:

• 1

• 2 las probabilidades Pij son todas iguales

)()( jiij yYPxXPP

Page 18: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

RESPUESTA INCORRECTA

La repuesta es

En efecto la distribución conjunta es el producto de las distribuciones marginales cuando hay independencia

)()( jiij yYPxXPP

Page 19: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Tenemos entonces que estimar las

probabilidades Pij bajo la hipótesis nula Ho de independencia:

con

)y(YP)x(XPP jiHij

o ˆˆˆ

n

MyYP

n

MxXP

jj

ii

)(ˆ

)(ˆ

Page 20: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

¿Cuantos parámetros se tienen que estimar para obtener las probabilidades ?

p*q parámetros

p+q-2 parámetros

p+q parámetros

oHijP̂

Page 21: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

RESPUESTA INCORRECTA

La repuesta esp+q-2 parámetros

En efecto hay p parámetros para las categorías de X, pero basta estimar P(X=A1), P(X=A2), ..., P(X=Ap-1) y deducir la estimación de P(X=Ap) de manera que las probabilidades suman 1. Es decir son p-1 estimaciones y q-1 para la variable Y.

Page 22: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

TEST

Consideramos las dos hipótesis: H0: X e Y son independientes

H1: X e Y tienen algún grado de dependencia

El estadístico del Test es:

2

2)1q)(1p(

ji

2

jiij

~

n

MMn

MMM

Q

Page 23: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Si Qo es el valor observado en la muestra, se rechaza Ho si

1

2

3

500211 .)( ))(( oqp QP

010211 .)( ))(( oqp QP

01211 .)( ))(( oqp QP

Page 24: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

RESPUESTA INCORRECTA

La repuesta es 2

En efecto si el valor Qo encontrado en la muestra es muy improbable cuando X e Y son independientes, podemos esperar que las variables tengan algún tendencia a relacionarse.

010211 .)( ))(( oqp QP

Page 25: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Comandos StatitTrabajaremos con el archivo: "Cigarros.wrk”, el cual contiene la encuesta de mercado la cual recolectó 698 opiniones.

Realiza el test de tabla de contingencia con Statit:Statistics:

Enumerative Data

Contingency Data

Analyse of Independence

Raw variable: ”Percepcion”;

Column variable: “Marca”

Layout of Table: Display Column Percentage

Page 26: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Concluye si tenemos suficiente evidencia para rechazar que la marca es independiente de la percepción

Se rechaza la independencia

Se acepta la independencia

Page 27: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

RESPUESTA INCORRECTA

La repuesta es

Se rechaza la independencia

En efecto el p-valor se obtiene de la tabla

Statistic DF Value Prob

Chi-Square 28 394.706 0.000

0000796394247 .).( xP

Page 28: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Veamos ahora si podemos definir una relación entre la marca y su percepción:

Examine la tabla de contingencia, y

responda la pregunta 1 del test

Page 29: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

EXPERIENCIA 2

Anova de un factor

Page 30: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Búsqueda de una droga para controlar el pulso de pacientes

Ahora estamos interesados en comparar tratamientos para bajar el pulso

Se mide el pulso de pacientes después del tratamiento A, B o C

Paciente A B C1 76 81 772 73 83 743 73 82 75 . . . . . . . . . . . . . . . .

Tratamiento

Page 31: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Procedimientos

Se calcularán algunos estadísticos para comparar las distribuciones del pulso de los 3 tratamientos

Las medias y varianzas por grupo

Se graficará un Box plot para comparar las distribuciones del pulso de los 3 tratamientos

Page 32: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Comandos Statit

Abra el archivo “pulso1.wkr”

StatisticsStatisticsDescriptive toolsDescriptive tools

Multi-way Univariate Statistics:Multi-way Univariate Statistics:Analysis Variable: “pulso”; Analysis Variable: “pulso”;

Class Variable: “Tratamiento”Class Variable: “Tratamiento”

Statistics: Statistics: Mean y Mean y Standard Desviation Standard Desviation

Layout of Table: Layout of Table: Display a summary Display a summary tabletable......

Page 33: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Comandos Statit

Para la realizacion del gráfico: En Statit con el archivo “pulso1.wkr”:

GraphicsDistribution Plots

Box Plot: Variables: “pulso”; DisplayBox: “By group”;

Group variable: “Tratamiento”

Examine los estadísticos y el gráfico. Responde a la pregunta 2 del test

Page 34: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

• Para confirmar las conclusiones anteriores se propone hacer un test para rechazar la hipótesis:

Las varianzas del pulso en los 3 grupos son iguales

Las medias del pulso en los 3 grupos son

iguales La media del tratamiento C es el promedio de las

medias de los tratamientos A y B

Elige una de las 3 repuestas

Page 35: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

RESPUESTA INCORRECTA

La repuesta es

Las medias del pulso en los 3 grupos son

iguales

En efecto es lo primero que se pregunta. Después se puede ver las otras preguntas..

Page 36: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

ANOVAANOVA

Consideramos las dos hipótesis H0: μ1=μ2=μ3

H1: las medias no son iguales

Para probar una u otra hipótesis vamos a comparar las varianzas de las medias con las varianzas de los 3 grupos

Page 37: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Varianza para el tratamiento j:

Varianza promedio de los 3 grupos:

Varianza de las 3 medias:

Varianza Total:

1,2,3)(j s2j

jn

ijij

j

xxn 1

21)(

3

1

2

jj

j sn

nw

3

1

2

jj

j xxn

nb )(

3

1 1

2

j

n

iij

j

xx )(T

Page 38: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

03

02

01

1

T

w

b

Ho

32

)(

)(

)(

:

Entonces, elige una de las 3 repuestas

Page 39: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

RESPUESTA INCORRECTA

La repuesta es (1) b=0

Además T=w+b Si q es el numero de grupos, el estadístico

del test es::

qn,1qF~)qn/(w

)1q/(bF

Page 40: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Para rechazar la hipótesis nula, se espera

un estadístico F

Grande Chico

Page 41: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

RESPUESTA INCORRECTA

La repuesta es Grande

Ya que si la hipótesis nula es cierta b=0. Un valor de F grande aleja de la hipótesis nula. .

Page 42: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Comandos Statit

En Statit:En Statit:Statistics Statistics ANOVAANOVA

OneWayOneWayDependente Variable: ”Pulso”; Dependente Variable: ”Pulso”; Classification Variable: Classification Variable:

“Tratamiento”“Tratamiento” Examine los resultados y concluya sobre la

hipótesis nula de igualdad de la medias.

Page 43: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

LA RAZÓN DE CORRELACIÓNLA RAZÓN DE CORRELACIÓN

Utilizando el hecho que T=b+w, se construye Un índice llamado razón de correlación

2=b/T

Que vale 1 cuando w=0 0 cuando b=0

Utilizando la tabla ANOVA calcule este índice y responda el test

Page 44: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

EXPERIENCIA 3

Coeficiente de correlación

Page 45: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Se busca estudiar la relación Se busca estudiar la relación entre el peso y la talla de un entre el peso y la talla de un grupo de niñasgrupo de niñas Queremos estudiar el

efecto de la edad sobre la relación entre el peso y la talla de las niñas

Niña Edad Peso Talla1 4 1456 10252 5 1635 10823 6 1800 1132 . . . . . . . . . . . . . . . .

Variables

Page 46: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Si {(xi, yi)|i=1,2,...,n} son los pesos y tallas de las niñas, el coeficiente de correlación lineal se escribe:

Si r=1 X e Y son independientes X e Y son linealmente dependientes

n

1i

2i

n

1i

2i

n

1iii

)yy()xx(

)yy)(xx(r

Page 47: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

RESPUESTA INCORRECTA

La repuesta es X e Y son linealmente dependientes

En efecto, utilizando la desigualdad de Schwarz, se tiene r=1 cuando se alcanza la igualdad, lo que corresponde a la colinealidad de los n puntos

Además si r=-1, se tiene colinealidad también pero de signo negativo. Es decir que en este caso, si X crece, Y decrece.

Page 48: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Con los datos “Sempe1.wkr”, calcule el coeficiente de correlación entre el peso y la talla

En Statit:En Statit: StatisticsStatistics Regresion and CorrelationRegresion and Correlation

Correlation coefficienteCorrelation coefficiente

Variables: ”Peso” y “Talla” Variables: ”Peso” y “Talla” Observe el valor y el signo del Coeficiente de

correlación

Page 49: LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

El calculo anterior fue considerando todas las edades juntas

Repetimos el calculo del coeficiente para una edad dada: por ejemplo 10 u otra

En Statit:En Statit: Statistics Statistics Regresion and CorrelationRegresion and Correlation

Correlation coefficientesCorrelation coefficientesVariables: ”Peso” y “Talla” Variables: ”Peso” y “Talla” Local selection: edad==10Local selection: edad==10

Responda el test