LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

Post on 23-Jan-2016

215 views 0 download

Transcript of LABORATORIO DE ESTADÍSTICA Sesión 4 Contingencia, Anova y correlación.

LABORATORIO DE ESTADÍSTICA

Sesión 4

Contingencia, Anova y correlación

EXPERIENCIA 1

Estudio de una tabla de contingencia

¿En qué se parecen estas interrogantes?

¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales?

¿Depende del colegio de egreso el puntaje obtenido en la PSU?

¿Depende del sexo la marca de cigarrillo escogida?

Las preguntas involucran

Una variable

2 variables

Más de dos variables

Para seleccionar su repuesta identifique las variables y la o las poblaciones estudiadas.

RESPUESTA INCORRECTA Hay dos variables en cada problema

¿Depende de la carrera estudiada el nivel de ingreso ¿Depende de la carrera estudiada el nivel de ingreso percibido por los profesionales?percibido por los profesionales? El ingreso y la carrera profesional

¿Depende del colegio de egreso el puntaje obtenido ¿Depende del colegio de egreso el puntaje obtenido en la prueba de aptitud?en la prueba de aptitud? El puntaje de la PSU y el colegio

¿Depende del sexo la marca de cigarrillo escogida?¿Depende del sexo la marca de cigarrillo escogida? La marca de cigarrillo y el sexo

La La preguntapregunta que se quiere que se quiere contestar en cada caso escontestar en cada caso es

¿Las variables siguen una distribución normal?

¿La muestra es representativa de la población? ¿Las variables son independientes ó

dependientes?

Para seleccionar su repuesta identifique el tipo y el número de variables de interés.

RESPUESTA INCORRECTA Se busca saber si hay o hay una relación entre las dos

variables en cada problema ¿Depende de la carrera estudiada el nivel de ingreso percibido por

los profesionales? ¿El ingreso depende de la carrera profesional?

¿Depende del colegio de egreso el puntaje obtenido en la prueba de aptitud? ¿El puntaje de la PSU depende del colegio donde se estudio?

¿Depende del sexo la marca de cigarrillo escogida? ¿Los hombres o las mujeres tienen una preferencia para una marca de

cigarrillo?

Una empresa que realiza estudios de mercado decide realizar un estudio que le permitirá decidir el nombre de marca a unos nuevos cigarrillos que serán comercializados.

En la encuesta realizada sobre una muestra aleatoria se pide a los encuestados que clasifica cada uno de los 5 nombres:

Alezan; Corsario; Fontenoy; Icaro y Zodiaco.

con una de las 8 categorías

Cuico; Sobrio; Ridículo; Con clase; Distinguido; Vulgar; Masculino; Femenino.

Pregunta a responder en esta experiencia:

¿Depende del nombre propuesto a la nueva marca de cigarrillos la característica asociada

por los posibles consumidores?

Tabla de Contingencia

Aquí tenemos dos variables X e Y nominales.

Construiremos la tabla de contingencia

asociada a los datos muestrales, que es la distribución conjunta de frecuencias absolutas

no acumuladas

Tabla de datos muestrales

2 variables nominales

X : p categorías (A1,A2,...,Ap)

Y : q categorías (B1,B2,...,Bq)

Las respuestas (Xk,Yk) del

encuestado k son del tipo (Ai ,Bj )

Encuestado X Y

1 A3 B5

2 A1 B4

... ... ...

... ... ...

n A2 B1

Tabla 1

Tabla de contingencia

Mij :CANTIDAD DE RESPUESTAS (Ai ,Bj)

p Categorías

q Categor

Í

a

s

A1 A2 . . . Aj . . . . . ApTotal

B1 M11 M12 M1.

B2 M2.

.

.

Mij

Bi

Bq Mq1 Mq.

Total M.1 n

¿Qué sucede al pasar de la Tabla 1 de los datos a la tabla de contingencia?

Se pierde solamente la identificación de cada encuestado

Se distorsiona la relación entre las dos variables

Se supone un tipo de distribución sobre las dos variables

Elige una de las 3 repuestas

RESPUESTA INCORRECTA

Se pierde solamente la identificación de cada encuestado

En efecto como el número de alternativas de repuestas de X o Y es finito podríamos reconstruir la Tabla 1 a partir de la tabla de contingencia. Lo que no podemos recuperar es el nombre del encuestado para cada repuesta.

La tabla de contingencia permite estimar la distribución de probabilidad de:

X+Y X (X,Y)

Elige una de las 3 repuestas

RESPUESTA INCORRECTA

La repuesta es

La distribución conjunta de (X,Y) En efecto las proporciones Mij/n, que son las

frecuencias relativas de encuestados que contestaron (Ai, Bj), estiman las probabilidades de la distribución conjunta

)( jiij yYxXPP

¿Cómo podemos concluir sobre la independencia de X e Y a partir de las frecuencias observadas Mij?

Si X e Y son independientes, las probabilidades Pij cumplen:

• 1

• 2 las probabilidades Pij son todas iguales

)()( jiij yYPxXPP

RESPUESTA INCORRECTA

La repuesta es

En efecto la distribución conjunta es el producto de las distribuciones marginales cuando hay independencia

)()( jiij yYPxXPP

Tenemos entonces que estimar las

probabilidades Pij bajo la hipótesis nula Ho de independencia:

con

)y(YP)x(XPP jiHij

o ˆˆˆ

n

MyYP

n

MxXP

jj

ii

)(ˆ

)(ˆ

¿Cuantos parámetros se tienen que estimar para obtener las probabilidades ?

p*q parámetros

p+q-2 parámetros

p+q parámetros

oHijP̂

RESPUESTA INCORRECTA

La repuesta esp+q-2 parámetros

En efecto hay p parámetros para las categorías de X, pero basta estimar P(X=A1), P(X=A2), ..., P(X=Ap-1) y deducir la estimación de P(X=Ap) de manera que las probabilidades suman 1. Es decir son p-1 estimaciones y q-1 para la variable Y.

TEST

Consideramos las dos hipótesis: H0: X e Y son independientes

H1: X e Y tienen algún grado de dependencia

El estadístico del Test es:

2

2)1q)(1p(

ji

2

jiij

~

n

MMn

MMM

Q

Si Qo es el valor observado en la muestra, se rechaza Ho si

1

2

3

500211 .)( ))(( oqp QP

010211 .)( ))(( oqp QP

01211 .)( ))(( oqp QP

RESPUESTA INCORRECTA

La repuesta es 2

En efecto si el valor Qo encontrado en la muestra es muy improbable cuando X e Y son independientes, podemos esperar que las variables tengan algún tendencia a relacionarse.

010211 .)( ))(( oqp QP

Comandos StatitTrabajaremos con el archivo: "Cigarros.wrk”, el cual contiene la encuesta de mercado la cual recolectó 698 opiniones.

Realiza el test de tabla de contingencia con Statit:Statistics:

Enumerative Data

Contingency Data

Analyse of Independence

Raw variable: ”Percepcion”;

Column variable: “Marca”

Layout of Table: Display Column Percentage

Concluye si tenemos suficiente evidencia para rechazar que la marca es independiente de la percepción

Se rechaza la independencia

Se acepta la independencia

RESPUESTA INCORRECTA

La repuesta es

Se rechaza la independencia

En efecto el p-valor se obtiene de la tabla

Statistic DF Value Prob

Chi-Square 28 394.706 0.000

0000796394247 .).( xP

Veamos ahora si podemos definir una relación entre la marca y su percepción:

Examine la tabla de contingencia, y

responda la pregunta 1 del test

EXPERIENCIA 2

Anova de un factor

Búsqueda de una droga para controlar el pulso de pacientes

Ahora estamos interesados en comparar tratamientos para bajar el pulso

Se mide el pulso de pacientes después del tratamiento A, B o C

Paciente A B C1 76 81 772 73 83 743 73 82 75 . . . . . . . . . . . . . . . .

Tratamiento

Procedimientos

Se calcularán algunos estadísticos para comparar las distribuciones del pulso de los 3 tratamientos

Las medias y varianzas por grupo

Se graficará un Box plot para comparar las distribuciones del pulso de los 3 tratamientos

Comandos Statit

Abra el archivo “pulso1.wkr”

StatisticsStatisticsDescriptive toolsDescriptive tools

Multi-way Univariate Statistics:Multi-way Univariate Statistics:Analysis Variable: “pulso”; Analysis Variable: “pulso”;

Class Variable: “Tratamiento”Class Variable: “Tratamiento”

Statistics: Statistics: Mean y Mean y Standard Desviation Standard Desviation

Layout of Table: Layout of Table: Display a summary Display a summary tabletable......

Comandos Statit

Para la realizacion del gráfico: En Statit con el archivo “pulso1.wkr”:

GraphicsDistribution Plots

Box Plot: Variables: “pulso”; DisplayBox: “By group”;

Group variable: “Tratamiento”

Examine los estadísticos y el gráfico. Responde a la pregunta 2 del test

• Para confirmar las conclusiones anteriores se propone hacer un test para rechazar la hipótesis:

Las varianzas del pulso en los 3 grupos son iguales

Las medias del pulso en los 3 grupos son

iguales La media del tratamiento C es el promedio de las

medias de los tratamientos A y B

Elige una de las 3 repuestas

RESPUESTA INCORRECTA

La repuesta es

Las medias del pulso en los 3 grupos son

iguales

En efecto es lo primero que se pregunta. Después se puede ver las otras preguntas..

ANOVAANOVA

Consideramos las dos hipótesis H0: μ1=μ2=μ3

H1: las medias no son iguales

Para probar una u otra hipótesis vamos a comparar las varianzas de las medias con las varianzas de los 3 grupos

Varianza para el tratamiento j:

Varianza promedio de los 3 grupos:

Varianza de las 3 medias:

Varianza Total:

1,2,3)(j s2j

jn

ijij

j

xxn 1

21)(

3

1

2

jj

j sn

nw

3

1

2

jj

j xxn

nb )(

3

1 1

2

j

n

iij

j

xx )(T

03

02

01

1

T

w

b

Ho

32

)(

)(

)(

:

Entonces, elige una de las 3 repuestas

RESPUESTA INCORRECTA

La repuesta es (1) b=0

Además T=w+b Si q es el numero de grupos, el estadístico

del test es::

qn,1qF~)qn/(w

)1q/(bF

Para rechazar la hipótesis nula, se espera

un estadístico F

Grande Chico

RESPUESTA INCORRECTA

La repuesta es Grande

Ya que si la hipótesis nula es cierta b=0. Un valor de F grande aleja de la hipótesis nula. .

Comandos Statit

En Statit:En Statit:Statistics Statistics ANOVAANOVA

OneWayOneWayDependente Variable: ”Pulso”; Dependente Variable: ”Pulso”; Classification Variable: Classification Variable:

“Tratamiento”“Tratamiento” Examine los resultados y concluya sobre la

hipótesis nula de igualdad de la medias.

LA RAZÓN DE CORRELACIÓNLA RAZÓN DE CORRELACIÓN

Utilizando el hecho que T=b+w, se construye Un índice llamado razón de correlación

2=b/T

Que vale 1 cuando w=0 0 cuando b=0

Utilizando la tabla ANOVA calcule este índice y responda el test

EXPERIENCIA 3

Coeficiente de correlación

Se busca estudiar la relación Se busca estudiar la relación entre el peso y la talla de un entre el peso y la talla de un grupo de niñasgrupo de niñas Queremos estudiar el

efecto de la edad sobre la relación entre el peso y la talla de las niñas

Niña Edad Peso Talla1 4 1456 10252 5 1635 10823 6 1800 1132 . . . . . . . . . . . . . . . .

Variables

Si {(xi, yi)|i=1,2,...,n} son los pesos y tallas de las niñas, el coeficiente de correlación lineal se escribe:

Si r=1 X e Y son independientes X e Y son linealmente dependientes

n

1i

2i

n

1i

2i

n

1iii

)yy()xx(

)yy)(xx(r

RESPUESTA INCORRECTA

La repuesta es X e Y son linealmente dependientes

En efecto, utilizando la desigualdad de Schwarz, se tiene r=1 cuando se alcanza la igualdad, lo que corresponde a la colinealidad de los n puntos

Además si r=-1, se tiene colinealidad también pero de signo negativo. Es decir que en este caso, si X crece, Y decrece.

Con los datos “Sempe1.wkr”, calcule el coeficiente de correlación entre el peso y la talla

En Statit:En Statit: StatisticsStatistics Regresion and CorrelationRegresion and Correlation

Correlation coefficienteCorrelation coefficiente

Variables: ”Peso” y “Talla” Variables: ”Peso” y “Talla” Observe el valor y el signo del Coeficiente de

correlación

El calculo anterior fue considerando todas las edades juntas

Repetimos el calculo del coeficiente para una edad dada: por ejemplo 10 u otra

En Statit:En Statit: Statistics Statistics Regresion and CorrelationRegresion and Correlation

Correlation coefficientesCorrelation coefficientesVariables: ”Peso” y “Talla” Variables: ”Peso” y “Talla” Local selection: edad==10Local selection: edad==10

Responda el test