Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016-...

58
Estadísca 2016- Prof. Tamara Burdisso Fundamentos para la inferencia

Transcript of Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016-...

Page 1: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

Fundamentos para la inferencia

Page 2: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

Nota periodística Perfil 22/3/2015

• Scioli y Macri, con ventaja en la pelea por el ballottage http://www.perfil.com/politica/Scioli-y-Macri-con-ventaja-en-la-pelea-por-el-ballottage-20150322-

0002.html

Page 3: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

Nota periodística Perfil 22/3/2015

• Cuando apenas faltan tres meses para la presentación de listas y fórmulas presidenciales, los sondeos de opinión de la consultora González y Valladares que publica en exclusiva PERFIL muestran por primera vez un vuelco en el orden en el que se posicionan los tres principales candidatos. El gobernador bonaerense saltó al primer lugar (31%), el jefe de Gobierno porteño lo secunda (27,6%), y el diputado del Frente Renovador perdió el lugar de privilegio y ahora mira a sus contrincantes desde atrás (25%). En el cuarto lugar logra posicionarse Margarita Stolbizer, la última en lanzarse al ruedo luego de las bajas de Hermes Binner y Julio Cobos. En alianza con el Socialismo y Libres del Sur, la diputada del GEN alcanza 8% de intención de voto.

• Ficha técnica: Encuesta telefónica /1200 casos. Nivel de error: ±2.89% con nivel de confianza del 95%. Fecha del 17 al 20 de marzo de 2015. Consultora González y Valladares.

Page 4: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

Nota periodística Perfil 22/3/2015

• ¿Cómo debe leerse esta información periodística que involucra porcentajes de opinión y márgenes de error estadístico?

• 31% ± 2.89% : Estamos un 95% seguros que al 22/3/15, entre el 28.11% a 33.89% de los ciudadanos votarían en promedio por el gobernardor Scioli como candidato a presidente.

• 27.6% ± 2.89% : Estamos un 95% seguros que al 22/3/15, entre el 24.71% a 30.49% de los ciudadanos votarían en promedio por el actual jefe de gobierno porteño como candidato a presidente.

• 25% ± 2.69% : Estamos un 95% seguros que al 22/3/15, entre el 22.11% a 27.89% de los ciudadanos votarían en promedio por el diputado del Frente Renovador como candidato a presidente.

Page 5: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso Estadísca 2015 - Cátedra Prof. Tamara Burdisso

Nota periodística Perfil 22/3/2015

Se tomo una muestra que arrojó el 31%, el 27.6% y el 25%

El interés radica en los parámetros poblacionales que son desconocidos

A través de un estimador puntual ( en la nota periodística el estimador es una proporción)

Muestra 1 Muestra 2 Muestra 3

Inferencia

Page 6: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

Objetivos de los métodos estadísticos

• Ya vimos que uno de los objetivos de la estadística consiste en aprender de las distribuciones poblacionales a partir de muestras de esa población.

• Mediante métodos estadísticos se puede hacer inferencia acerca de la distribución poblacional.

• Tres tipos de métodos estadísticos utilizaremos a lo largo del curso: estimación, test de hipótesis e intervalos de confianza.

• La estimación consiste en computar el “mejor predictor” numérico de una característica de una distribución.

• Mediante la evidencia muestral, se intenta testear cierta hipótesis acerca de la población para ver si es cierta o no.

• Un intervalo de confianza permite establecer en base a datos muestrales un rango de valores para una característica desconocida de la población.

Page 7: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso Unidad 3 – Parte I 7

Muestreo aleatorio simple

• El muestreo aleatorio simple es el más común de los métodos para seleccionar una muestra al azar a partir de una población.

• Una muestra aleatoria simple se elige mediante un proceso que selecciona n objetos de una población de manera tal que cada uno de los miembros de la población tiene la misma probabilidad de ser seleccionado, la selección de uno de los miembros es independiente de la selección de cualquier otro y toda muestra posible de tamaño n, tiene la misma probabilidad de selección.

Page 8: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso Unidad 3 – Parte I 8

Muestreo aleatorio simple

• El proceso de selección de la muestra depende de si la población es finita o infinita.

• Muestreo para poblaciones finitas: Una muestra aleatoria simple de tamaño n, de una población finita de tamaño N, es una muestra seleccionada de manera tal que cada muestra posible de tamaño n tenga la misma probabilidad de ser seleccionada.

• Muestreo para poblaciones infinitas (o finita pero muy grande): una muestra aleatoria simple de una población infinita es aquella que se selecciona de forma tal que se satisfacen las siguientes condiciones.

1. Cada elemento seleccionado proviene de la misma población.

2. Cada elemento se selecciona en forma independiente.

Page 9: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso Unidad 3 – Parte I 9

Muestreo aleatorio simple

• Muestreo aleatorio simple con reemplazo y sin reemplazo.

• Si muestreamos con reemplazo, no hay problemas ya que los n objetos de la muestra son independientes ( no alteramos las frecuencias relativas).

• Además si la población es muy grande, muestrear con o sin reemplazo, prácticamente no altera las frecuencias relativas. Por lo tanto también tenemos independencia.

• El problema se origina cuando muestreamos sin reemplazo y la población es pequeña. Hay que introducir correcciones que tengan en cuenta este punto (factor de corrección para muestra finita).

Page 10: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso Unidad 3 – Parte I 10

Muestreo aleatorio simple y vs. as. i.i.d.

• En una muestrea aleatoria simple, se extraen n objetos de una población y cada objeto tiene la misma probabilidad de salir. Sea X v.a. y Xi el i-ésimo objeto extraído aleatoriamente.

• Como cada objeto tiene igual probabilidad de salir y la distribución de Xi es la misma para todo i, las vs. as. X1,X2,…Xn son independientes idénticamente distribuidas (i.i.d.)

Page 11: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

Parámetro, estimador y estimación

• Parámetro: es una medida numérica descriptiva de una población. Su valor es casi siempre desconocido

• Estadístico/estimador: un estadístico es cualquier función de una muestra de datos aleatoria proveniente de una población.

• Estimación: una estimación es el valor numérico del estimador cuando el mismo es evaluado utilizando los datos de una muestra específica.

• Un estimador es una variable aleatoria, ya que hereda la aleatoriedad de la muestra aleatoria, mientras que una estimación es un número no aleatorio.

• Ejemplos

Page 12: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso Unidad 3 – Parte I 12

Parámetro vs. estadístico/estimador

Parámetro

poblacional

Estadístico

muestral

Media μ

Varianza σ2S2

Desviación estándar σ S

Proporción

Coeficiente de

correlación

X

p̂p

ˆ

Page 13: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

Motivación

• Vamos a considerar el archivo RUN10 que contiene información sobre la totalidad de los corredores de las 10 millas (~16 km) de Washington de la carrera “2012 Cherry Blossom Run”

• Son 16924 corredores para los que se dispone de la edad, género, tiempo en minutos y estado al que representan.

• Notar que contamos con la población de corredores del año 2012.

Page 14: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

Motivación

• Vamos a tratar de estimar dos cualidades de los corredores de esta carrera, usando una muestra

1. ¿Cuanto tiempo le lleva, en promedio, a un corredor completar las 10 millas?

2. ¿Cuál es la edad promedio de los corredores?

• Estas preguntas podrían ser informativas para organizar futuras carreras.

• Vamos representar por los tiempos de 100 corredores muestreados y por las edades de los 100 corredores.

• Queremos estimar las medias poblacionales del tiempo de carrera mediante las medias muestrales.

100321 ,...,, xxxx

100321 ,...,, yyyy

Page 15: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

Motivación

• Muestra de tamaño 100 del archivo RUN10

Page 16: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

Variación muestral

• Muestra de tamaño 100 del archivo RUN10

98.95100

49.89...52.10967.10031.881

x

19.97100

43.86...33.10567.9815.902

x

es una estimación puntual de la media poblacional, i.e. del tiempo medio de todos los corredores que participaron en la carrera del 2012.

98.951 x

es otra estimación muestral de la media poblacional. Las estimaciones varían de una muestra a otra: variación muestral

19.972 x

Page 17: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

Otros estimadores

• Se pueden generar estimaciones muestrales no sólo de la media sino también de otros parámetros poblacionales, como por ejemplo, desvío estándar, la mediana, etc.

• Supongan que queremos estimar la diferencia en el tiempo de carrera entre hombres y mujeres. Supongamos y , cual sería un buen estimador puntual para la diferencia poblacional?

• Si quisiésemos brindar un estimador puntual del RIC poblacional del tiempo de carrera, como se podría estimar este parámetro en base a la muestra?

13.102mujeresx

65.87hom bresx

summary(run10$time)

Min. 1st Qu. Median Mean 3rd Qu. Max. NA's

0.995 83.710 94.020 94.490 104.400 171.000 19

Page 18: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

El tamaño de la muestra • Las estimaciones generalmente no son iguales al parámetro

poblacional, pero son mejores a medida que aumenta el tamaño de la muestra.

• Una corrida de medias es una secuencia de medias, donde cada media usa una observación más que la anterior

• A medida que más observaciones entran en el cálculo de la media, más se aproxima al verdadero promedio poblacional, 94.49

Unidad 3 – Parte I

Page 19: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

POBLACIÓN

Muestra

Muestra

Muestra

Muestra

Estadístico

Estadístico

Estadístico

Estadístico

Distribución de la muestra

Distribución muestral del estadístico

Distribución muestral (de muestreo) de los estadísticos

Unidad 3 – Parte I

Page 20: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

Distribución de los tiempos de carrera de la población summary(run10$time)

Min. 1st Qu. Median Mean 3rd Qu. Max. NA's

0.995 83.710 94.020 94.490 104.400 171.000 19

Page 21: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 21

Distribución de los tiempos de carrera de diferentes muestras de tamaño n=100

(muestra1<-run10[sample(1:nrow(run10),100,replace=FALSE),])

Page 22: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 22

Distribución de los tiempos de carrera de 10 diferentes muestras con n=100

Unidad 3 – Parte I

Page 23: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 23

Distribución de los tiempos de carrera de 5 diferentes muestras aleatorias y la distribución poblacional

Unidad 3 – Parte I

Page 24: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 24

Distribución muestral del estadístico

• Vimos que el promedio de n-observaciones muestreadas aleatoriamente es una estimación de la media muestral. También vimos que la media muestral de una segunda muestra difiere de la obtenida anteriormente. Así podrían construirse una sucesión de que servirían para construir la distribución de probabilidades. La distribución de se denomina distribución muestral de , porque se trata de la distribución muestral asociada a todos los posibles valores que puede tomar .

• La distribución muestral de representa la distribución de las estimaciones puntuales basadas en muestras de tamaño fijo de una cierta población.

X

nXXX ,...,, 21

X

XX

Unidad 3 – Parte I

X

Page 25: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 25

Distribución muestral del estadístico

• Histograma de 1000 medias muestrales del tiempo promedio de la carrera, donde el tamaño de cada muestra es n=100

Unidad 3 – Parte I

Page 26: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

El error estándar de la media • Se observa que las medias muestrales tienden a caer alrededor de

la media poblacional.

• El histograma de la distribución de las medias muestrales muestra cierta variabilidad alrededor de la media poblacional.

• Una medida de la variabilidad de la media muestral, está dada por la desviación estándar de la distribución de las medias muestrales.

• La desviación estándar de las medias muestrales nos dice cuan lejos una estimación típica está del verdadero valor medio poblacional.

• Se trata de la descripción del error típico del estimador muestral y por esta razón este desvío estándar recibe el nombre de error estándar.

• Por lo tanto, la desviación estándar asociada con un estimador se denomina error estándar

Unidad 3 – Parte I

Page 27: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 27

Cálculo del error estándar

• Si se les solicita estimar cierto parámetro, utilizarían una muestra pequeña o una muestra grande? Por qué?

• Que relación cree que habrá entre el error estándar de las estimaciones del parámetro basados en la muestra pequeña y las estimaciones del parámetro basadas en la muestra grande?

• Por lo tanto, cuanto mayor es el tamaño de la muestra menor es el error estándar.

• Cálculo del error estándar: dada una muestra de n observaciones independientes de una población con

desviación estándar σ, el error estándar de la media muestral es igual a

nSE

Unidad 3 – Parte I

Page 28: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso Estadísca 2015 - Cátedra Prof. Tamara Burdisso 28

https://gallery.shinyapps.io/CLT_mean/

Unidad 3 – Parte I

Page 29: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 29

Teorema del Límite Central

Unidad 3 – Parte I

Page 30: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 30

Teorema del Límite Central

Unidad 3 – Parte I

Page 31: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 31

Teorema del Límite Central

Unidad 3 – Parte I

Page 32: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 32

Teorema del Límite Central

Unidad 3 – Parte I

Page 33: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 33

Teorema del Límite Central

Unidad 3 – Parte I

Page 34: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 34

Teorema del Límite Central

Unidad 3 – Parte I

Page 35: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 35

Teorema del Límite Central

Unidad 3 – Parte I

Page 36: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso Modulo 2 - Parte III

Estadísca 2015 - Cátedra Prof. Tamara Burdisso 36

Teorema del Límite Central

Unidad 3 – Parte I

Page 37: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso Modulo 2 - Parte III

Estadísca 2015 - Cátedra Prof. Tamara Burdisso 37

Teorema del Límite Central

Unidad 3 – Parte I

Page 38: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso Modulo 2 - Parte III

Estadísca 2015 - Cátedra Prof. Tamara Burdisso 38

Teorema del Límite Central

Unidad 3 – Parte I

Page 39: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso Estadísca 2015 - Cátedra Prof. Tamara Burdisso 39

Teorema del Límite Central

Unidad 3 – Parte I

Page 40: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 40

Aproximación de muestras grandes a las distribuciones muestrales

• Las distribuciones muestrales juegan un rol central enla inferencia estadística. Ahí radica la importancia de conocer la distribución muestral de .

• Existen 2 enfoques para establecer la distribución muestral de : el enfoque exacto y el enfoque aproximado.

• Enfoque exacto: establece la distribución de para cualquier valor de n, siempre y cuando sean normales i.i.d. con media y varianza .Entonces la distribución exacta de es normal con media y varianza .

• Sin embargo, si no tiene distribución normal, la distribución de depende de la distribución de y puede ser difícil establecerla.

X

X

nX

nXXX ...,, 21

nXx

nX

2

XX X

Unidad 3 – Parte I

x

2

X

Page 41: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 41

Aproximación de muestras grandes a las distribuciones muestrales

• Afortunadamente si el tamaño de muestra es grande, nos basamos en el enfoque aproximado que descansa en el tamaño de muestras grandes. La aproximación de muestras grandes a distribuciones muestrales es a menudo llamada “distribución asintótica”, debido a que se vuelven exactas en el límite cuando .

• Dos son la herramientas claves utilizadas en la aproximación a distribuciones muestrales:

• La ley de los grandes números

• El teorema central del límite

n

Unidad 3 – Parte I

Page 42: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso

• Establece bajo condiciones generales, que si la son i.i.d. con una distribución común, con esperanza y varianza finita, entonces la probabilidad de que se aleje de en una fracción muy pequeña a medida que n crece, es tan pequeña como uno lo desee. Matemáticamente podemos escribirlo de la siguiente manera:

X

42

La ley de los grandes números

nX

nXP

ónXP

Xn

Xn

cuando1)(

cuando0

Unidad 3 – Parte I

kX

X

Page 43: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 43

Teorema del Límite Central

• Establece que bajo consideraciones generales, la distribución estandarizada de está bien aproximada por la distribución normal estándar cuando n es lo suficientemente grande.

• Recordemos que tiene distribución normal exacta si cada tiene distribución normal.

• El TCL dice que cuando n es lo suficientemente grande, la distribución estandarizada de es aproximadamente , aún si no se distribuyen según una normal.

X

nX

nXXX ,...,, 21

nX )1,0(N

nXXX ,...,, 21

Unidad 3 – Parte I

Page 44: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 44

Teorema del Límite Central

• TCL: Supongamos que son i.i.d. con y donde . Entonces cuando , la distribución

se aproxima a una distribución normal estándar.

• ¿Cuán grande es suficientemente grande? Cuán grande debe ser n para que se distribuya aproximadamente normal? Depende. La calidad de la aproximación normal depende de la distribución implícita de cada una de las que conforman a . Pero por lo general, a partir de n>30 la aproximación es bastante buena más allá de la distribución de .

X

kX

X

kX

nXXX ,...,, 21 xkXE )(2)( XkXVar 20 X n

n

X

x

xn

Unidad 3 – Parte I

Page 45: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 45

Condiciones para el buen funcionamiento del TCL

• i.i.d. : las observaciones muestrales deben ser independientes

• Muestreo aleatorio/ asignación aleatoria

• Si la muestra es sin reemplazo, entonces n≤10% de la población.

• Asimetría/tamaño de la muestra: tanto si la distribución es normal como si la distribución es sesgada, el tamaño de la muestra debe ser grande (regla empírica: n>30).

• ¿Cómo podemos chequear este supuesto?

Unidad 3 – Parte I

Page 46: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 46

TCL: sesgo y tamaño de la muestra

Unidad 3 – Parte I

Page 47: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 47

TCL: sesgo y tamaño de la muestra

Unidad 3 – Parte I

Page 48: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 48

TCL: sesgo y tamaño de la muestra

Unidad 3 – Parte I

Page 49: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 49

TCL: sesgo y tamaño de la muestra

Unidad 3 – Parte I

Page 50: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 50

Ejemplo del TCL

• Supongan que mi ipod tiene 3000 canciones. El histograma adjunto muestra la distribución de la longitud de las canciones de mi ipod. También sabemos que la longitud promedio de las canciones de mi ipod es de 3.45 minutos con una desviación estándar de 1.63 minutos. Calcular la probabilidad que una canción seleccionada aleatoriamente dure más de 5 minutos

Unidad 3 – Parte I

222

289

591

802

580

395

94

22 50

100

200

300

400

500

600

700

800

900

1 2 3 4 5 6 7 8 9

longitud del tema en minutos

Page 51: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 51

Ejemplo del TCL

• Supongan ahora que debo realizar un viaje en auto que dura 6 horas . Preparo entonces una playlist de 100 canciones. ¿Cuál es la probabilidad de que la playlist dure al menos todo el viaje?

Unidad 3 – Parte I

Page 52: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 52

Distribución muestral para una proporción

• La media muestral no es el único estadístico que satisface el TCL.

• ¿Qué ocurre si nos preguntamos por el porcentaje de ciudadanos que votarían por el candidato A?

• O el porcentaje de fumadores en la Argentina?

• Cada individuo es un ensayo de Bernoulli. Luego tenemos un experimento binomial.

Unidad 3 – Parte I

totalpoblación

éxitos de #

totalpoblación

Argentinaen fumadores de #p

totalpoblación

i

i

i

i

X

pXX

Page 53: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 53

POBLACIÓN

Muestra

Muestra

Muestra

Muestra

Estadístico

Estadístico

Estadístico

Estadístico

Distribución muestral del estadístico

Distribución muestral de

Unidad 3 – Parte I

ppmedia )ˆ(

Variable categórica: fuma o no fuma

Page 54: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 54

Teorema del Límite Central para proporciones

• Establece que bajo consideraciones generales, la distribución de está bien aproximada por la distribución normal cuando n es lo suficientemente grande.

• El n suficientemente grande nos va a permitir utilizar la aproximación de la binomial a la normal

• El TCL dice que cuando n es lo suficientemente grande, la distribución de es aproximadamente

• Se deben cumplir alguna condiciones. Veámoslas.

np̂

2

))1(, npppN

Unidad 3 – Parte I

Error estándar de

la proporción

Page 55: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 55

Condiciones para el buen funcionamiento del TCL

• i.i.d. : las observaciones muestrales deben ser independientes

• Muestreo aleatorio/ asignación aleatoria

• Si la muestra es sin reemplazo, entonces n≤10% de la población.

• Asimetría/tamaño de la muestra: np≥10 y n(1-p) ≥10

• ¿Qué ocurre si esta última condición no se cumple? El TCL para proporciones aún puede aplicarse pero…

Unidad 3 – Parte I

Page 56: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 56

Y si no se satisfacen la condiciones del TCL…

• Si no se cumple que np≥10 ó n(1-p) ≥10

• La media de la distribución muestral de las proporciones aún estará alrededor del verdadero parámetro.

• La variabilidad de la distribución muestral de las proporciones aún puede ser aproximada usando la misma fórmula del error estándar.

• Sin embargo la forma de la distribución va a depender de si el verdadero parámetro está cercano a cero o cercano a 1 (ver gráfico siguiente).

Unidad 3 – Parte I

Page 57: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 57

Condiciones para el buen funcionamiento del TCL

Unidad 3 – Parte I

Page 58: Fundamentos para la inferencia · PDF fileEstadísca 2015 Estadísca 2016- Cátedra Prof. Tamara Burdisso- Prof. Tamara Burdisso Nota periodística Perfil 22/3/2015 Se tomo una muestra

Estadísca 2016- Prof. Tamara Burdisso 58

Ejemplo del TCL para proporciones

• La candidata A confía en que ganará la candidatura a su provincia siempre y cuando obtenga al menos el 55% de los votos en el distrito clave de la provincia. También estima que la intención de voto de los electores provinciales para con ella es del 50%.S i se toma una muestra de 100 electores del distrito clave, ¿cuál es la probabilidad de que la candidata A obtenga por lo menos el 55% de los votos?

Unidad 3 – Parte I