4. Distribuciones de Probabilidad

39
4. Distribuciones de Probabilidad Probabilidad: Con una muestra aleatoria o experimento aleatorio, la probabilidad que una observación tome un valor en particular es la proporción de veces que el resultado ocurriría en una secuencia muy larga de observaciones. • Generalmente corresponde a la proporción poblacional (y por lo tanto, cae entre 0 y 1) ya sea para una población real o conceptual.

description

4. Distribuciones de Probabilidad. Probabilidad : Con una muestra aleatoria o experimento aleatorio , la probabilidad que una observación tome un valor en particular es la proporción de veces que el resultado ocurriría en una secuencia muy larga de observaciones . - PowerPoint PPT Presentation

Transcript of 4. Distribuciones de Probabilidad

Page 1: 4.  Distribuciones  de  Probabilidad

4. Distribuciones de Probabilidad

• Probabilidad: Con una muestra aleatoria o experimento aleatorio, la probabilidad que una observación tome un valor en particular es la proporción de veces que el resultado ocurriría en una secuencia muy larga de observaciones.

• Generalmente corresponde a la proporción poblacional (y por lo tanto, cae entre 0 y 1) ya sea para una población real o conceptual.

Page 2: 4.  Distribuciones  de  Probabilidad

Reglas básicas de probabilidad

Sean A, B posibles resultados

• P(no A) = 1 – P(A)

• Para A y B, posibles resultados distintos P(A o B) = P(A) + P(B)

• P(A y B) = P(A)P(B dado A)

• Para resultados “independientes” P(B dado A) = P(B), entonces P(A y B) = P(A)P(B)

Page 3: 4.  Distribuciones  de  Probabilidad

Datos de GSS 2006 Happiness Income Very Pretty Not too Total --------------------- Above Aver. 272 294 49 615 Average 454 835 131 1420 Below Aver. 185 527 208 920 --------------------- Total 911 1656 388 2955

Sea A = average income, B = very happy• P(A) estimada por 1420/2955 = 0.481 (“probabilidad marginal”),

P(no A) = 1 – P(A) = 0.519• P(B dado A) estimada por 454/1420 = 0.320

(“probabilidad condicional ”)• P(A y B) = P(A)P(B dado A) estimada por 0.481(0.320) = 0.154

(igual a 454/2955, “probabilidad conjunta”)

Page 4: 4.  Distribuciones  de  Probabilidad

B1: una persona selec. aleatoriamente es “very happy”B2: segunda persona selec. aleatoriamente es “very happy”

• P(B1), P(B2) estimada por 911/2955 = 0.308

• P(B1 y B2) = P(B1)P(B2) estimada por(0.308)(0.308) = 0.095

• Si, por otro lado, B2 se refiere a la pareja de la persona B1, B1 y B2 probablemente no son independientes y esta fórmula no es apropiada

Page 5: 4.  Distribuciones  de  Probabilidad

Distribución de probabilidad de una variable

• Lista de los posibles resultados de una “variable aleatoria” y sus probabilidades

• Variable discreta: asigna probabilidades P(y) a valores individuales y, con

0 ( ) 1, ( ) 1P y P y

Page 6: 4.  Distribuciones  de  Probabilidad

Ejemplo

• Selecciona una muestra aleatoria de 3 personas y pregunta si están a favor (F) o en contra (C) de un sistema de salud públicoy = número a favor (0, 1, 2, ó 3)

• Para posibles muestras de tamaño n = 3,

Muestra y Muestra y(C, C, C) 0 (C, F, F) 2(C, C, F) 1 (F, C, F) 2(C, F, C) 1 (F, F, C) 2(F, C, C) 1 (F, F, F) 3

Page 7: 4.  Distribuciones  de  Probabilidad

• Si la población está igualmente dividida entre F y C, estas ocho muestras son igualmente posibles y la distribución de probabilidad de la variable aleatoria y (el número a favor) es

y P(y) 0 1/8 1 3/8 2 3/8 3 1/8

• (Caso especial de la “distribución binomial”, en Cap. 6)

• En la práctica, las distribuciones de probabilidad son estimadas de datos muestrales y entonces tienen una forma de distribuciones de frecuencias

Page 8: 4.  Distribuciones  de  Probabilidad

Datos GSS

• Ejemplo: y = número de personas que conocen a alguien que se haya suicidado en los últimos 12 meses (variable “suiknew”).

Distribución de probabilidad estimada es

y P(y) 0 .895 1 .084 2 .015 3 .006

Page 9: 4.  Distribuciones  de  Probabilidad

Media (valor esperado)

• Como las distribuciones de frecuencias, distribuciones de probabilidad tienen medidas descriptivas tales como media y desviación estándar

• Media (valor esperado)

• µ = 0(0.895) + 1(0.084) + 2(0.015) + 3 (0.006) = 0.13 representa un “resultado promedio de una secuencia larga”

(media = moda = 0)

( ) ( )E Y yP y

Page 10: 4.  Distribuciones  de  Probabilidad

Desviación estándar

• Desviación estándar – medida de una distancia “típica” de un resultado de la media, denotada por

(No vamos a necesitar calcular esta fórmula)

• Si una distribución tiene aprox. forma de campana, entonces:– Toda o casi toda la distribución cae dentro del

intervalo µ - 3σ y µ + 3σ– Probabilidad del 0.68 cae dentro de µ - σ y µ + σ

2 = ( ) ( )y P y

Page 11: 4.  Distribuciones  de  Probabilidad

Ejemplo• De un resultado más adelante en el capítulo, si n personas son

seleccionadas aleatoriamente de una población con proporción que favorece sistema de salud público (1- , se oponen), entonces

y = número de personas en la muestra que está a favor, tiene una distribución de probabilidad con forma de campana con

p. ej., con n = 1000, = 0.50, obtenemos µ = 500, σ = 16

• Casi toda la distribución cae entre 500 – 3(16) = 452 y 500 + 3(16) = 548

• Es decir, casi seguro entre 45% y 55% de la muestra dirá estar a favor de un sistema de salud pública

( ) , (1 )E y n n

Page 12: 4.  Distribuciones  de  Probabilidad

Variables continuas

• Variables continuas: probabilidades asignadas a intervalos de números

• Ejemplo: Cuano y toma muchos valores, como en el último ejemplo, se considera continua para términos prácticos. Entonces, si la distribución de probabilidad tiene aprox. forma de campana,

• La distribución de probabilidad más importante para variables continuas es la distribución normal

( ) 0.68, ( 2 2 ) 0.95P y P y

In previous example, ( ) (484 516) 0.68P y P y

Page 13: 4.  Distribuciones  de  Probabilidad

Distribución normal

• Es simétrica y con forma de campana (fórmula en Ejercicio 4.56)

• Se caracteriza por la media () y desviación estándar (), representando el centro y la dispersión

• La probabilidad dentro de un número particular de desviaciones estándar de la media es la misma para todas las distribuciones normales

• Una observación individual de una distribución aprox. normal tiene probabilidad– 0.68 de caer a 1 desviación estándar de la media– 0.95 de caer a 2 desviaciones estándar– 0.997 de caer a 3 desviaciones estándar

Page 14: 4.  Distribuciones  de  Probabilidad
Page 15: 4.  Distribuciones  de  Probabilidad

Tabla A• Tabla A da la probabilidad en la cola derecha arriba de

µ + zσ para varios valores de z. Segundo decimal del valor de zz .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641 … …1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0722 .0708 .0694 .0681 1.5 .0668 .0655 .0643 .0630 .0618 .0606 .0594 .0582 .0571 .0559 ......

Page 16: 4.  Distribuciones  de  Probabilidad

Ejemplo: ¿Cuál es la probabilidad de caer entre µ - 1.50σ y µ + 1.50σ ?

• z = 1.50 tiene una prob. a la derecha = 0.0668• La prob. de la cola izq. = 0.0668 por simetría• La prob. se las dos colas = 2(0.0668) = 0.1336• Prob. entre µ - 1.50σ y µ + 1.50σ = 1 – 0.1336 = 0.87

Ejemplo: z = 2.0 da • Prob. de las dos colas = 2(0.0228) = 0.046 • Probabilidad entre µ ± 2σ es 1 - 0.046 = 0.954

Page 17: 4.  Distribuciones  de  Probabilidad

Ejemplo: ¿Qué valor-z corresponde al percentil-99? Es decir, ¿qué valor-z resulta en µ + zσ = percentil-99?

• Probabilidad de la cola derecha = 0.01 tiene z = 2.33• 99% cae abajo de µ + 2.33σ

Ejemplo: Si el coeficiente intelectual (IQ) tiene µ = 100, σ = 16, entonces percentil-99%

µ + 2.33σ = 100 + 2.33(16) = 137

Nota: µ - 2.33σ = 100 – 2.33(16) = 63 es el percentil-1% 0.98 = probabilidad que IQ caiga entre 63 y 137

Page 18: 4.  Distribuciones  de  Probabilidad

Ejemplo

¿Qué valor de z hace que el intervalo µ ± zσ incluya exactamente el 95% de la curva normal?

• Probabilidad total en las dos colas = 0.05• Probabilidad en la cola derecha = 0.05/2 = 0.025• z = 1.96

µ ± 1.96σ contiene probabilidad 0.950 (µ ± 2σ contiene probabilidad 0.954)

Ejercicio: Intenta para 99%, 90% (debes obtener 2.58, 1.64)

Page 19: 4.  Distribuciones  de  Probabilidad

Ejemplo

Minessota Multiphasic Personality Inventory (MMPI), basado en respuestas de 500 preguntas de verdadero/falso, provee calif. para varias escalas (p.ej., depresión, ansiedad, abuso de sustancias), con µ = 50, σ = 10.

Si la distribución es normal y una calificación ≥ 65 es considerada muy alta, qué porcentaje es éste?

• z = (65 - 50)/10 = 1.50• Prob. de la cola derecha = 0.067 (menos que 7%)

Page 20: 4.  Distribuciones  de  Probabilidad

Notas de valores-z

• Valor-z representa el número de desviaciones estándar que un valor está de la media de la distribución

• Un valor y está z = (y - µ)/σ desviaciones estándar de µ

Ejemplo: y = 65, µ = 50, σ = 10 z = (y - µ)/σ = (65 – 50)/10 = 1.5

• El valor-z es negativo cuando y está por debajo de µ (p.ej., y = 35 tiene z = -1.5)

Page 21: 4.  Distribuciones  de  Probabilidad

Distribución normal• La distribución normal estándar es una distribución normal con

µ = 0 y σ = 1

• Por la distribución, z = (y - )/ = (y - 0)/1 = yEs decir, valor original = valor-z; µ + zσ = 0 + z(1) = z (usamos la normal estándar para inferencia estadístca empezando en Cap. 6, donde ciertas estadísticas son convertidas para tener una distribución normal estándar)

• Por qué es la distribución normal importante?Hoy aprenderemos que si estudios diferentes toman muestras aleatorias y calculan estadísticas (p.ej., media muestral) para estimar un parámetro (p.ej., media poblacional), la colección de los valores de las estadísticas de estos estudios usualmente tienen aprox. una distribución normal. (Y?)

Page 22: 4.  Distribuciones  de  Probabilidad

Distribución muestral• Una distribución muestral lista los posibles valores de la

estadística (p.ej., media muestral y proporción muestral) y sus probabilidades

Ejemplo: y = 1 si a favor del sistema público de salud y = 0 si se opone

• Para posibles muestras de tamaño n = 3, considera la media muestralMuestra Media Muestra Media(1, 1, 1) 1.0 (1, 0, 0 ) 1/3(1, 1, 0) 2/3 (0, 1, 0) 1/3(1, 0, 1) 2/3 (0, 0, 1) 1/3(0, 1, 1) 2/3 (0, 0, 0) 0

Page 23: 4.  Distribuciones  de  Probabilidad

• Para datos binarios (0, 1), media muestral es igual a proporción muestral de casos “1”. Para la población

es la proporción poblacional de casos “1”(p.ej., a favor del sistema de salud pública)

• ¿Qué tan cerca está la media muestral de la media poblacional µ?

• Para responder esto, debemos poder responder, “¿Cuál es la distribución de probabilidad de la media muestral?”

( )=0P(0)+1P(1)=P(1)yP y

Page 24: 4.  Distribuciones  de  Probabilidad

Distribución muestral• Distribución muestral de una estadística es la distibución de

probabilidad para los posibles valores de la estadística

• Ejemplo. Asume P(0) = P(1) = ½. Para una variable aleatoria de tamaño n = 3, cada uno de las 8 possible muestras son igualmente probables. La distribución muestral de la proporción muestral es

Proporción muestral Probabilidad 0 1/8 1/3 3/8 2/3 3/8 1 1/8 (Intenta para n = 4)

Page 25: 4.  Distribuciones  de  Probabilidad

Distribución muestral de la media muestral

• es una variable, sus valores varian de muestra a muestra alrededor de la media poblacional µ

• La desviación estándar de la distribución muestral de se llama error estándar de

• Para el muetreo aleatorio, la distribución muestral de tiene una media µ y error estándar

y

y

y

y

𝜎𝑌ത= 𝜎ξ𝑛 = desviación estándar poblacionalξtamaño de muestra

Page 26: 4.  Distribuciones  de  Probabilidad

Ejemplo

• Para datos binarios (y =1 ó 0) con P(Y=1) = (con 0 < < 1), se puede mostrar que (Ej. 4.55b, y caso especial de la fórmula anterior en p.11 de estas notas con n = 1)

• Cuando = 0.50, = 0.50, y el error estándar es

(1 )

0.50 y n n

n error estándar3 .289100 .050200 .0351000 .016

Page 27: 4.  Distribuciones  de  Probabilidad

• Nota el error estándar decrece a medida que n crece (es decir, tiende a caer más cerca de µ)

• Con n = 1000, error estándar = 0.016, así que si la distribución muestral tiene forma de campana, con una alta probabilidad, la proporción cae a 3(0.016) = 0.05 de la proporción poblacional de 0.50 (es decir, entre 0.45 and 0.55)

• Ejemplo: Número de veces y = 1 (es decir, número de personas a favor) es 1000×(proporción), así que la variable que “cuenta” el número de personas tiene media = 1000(0.50) = 500 y desv. est. 1000(0.016) = 16 (como en un ejemplo anterior en p. 11)

y

Page 28: 4.  Distribuciones  de  Probabilidad

• Consecuencia práctica: Este capítulo presenta resultados teóricos acerca de la dispersión (y forma) de las distribuciones muestrales, pero esto implica cómo, en la práctica, los diferentes estudios en el mismo tema pueden variar de estudio a estudio (y, por lo tanto, qué tan preciso cada estudio tiende a ser)

• Ejemplo: Tú planeas una muestra de 200 personas para estimar la proporción poblacional que está a favor de un sistema de salud público. Otros pueden estar haciendo lo mismo. Cómo variarán los resultados entre los estudios (y qué tan precisos son sus resultados)?

• La distribución muestral de la proporción muestral a favor del sistema de salud público tiene un error estándar que describe la variabilidad de estudio a estudio.

Page 29: 4.  Distribuciones  de  Probabilidad

EjemploMuchos estudiantes toman una muestra de n = 200 para estimar

proporción poblacional

• Lanzar una moneda 200 veces simula el proceso cuando la proporción poblacional = 0.50.

• En teoría, hemos visto que la proporción muestral varía de estudio a estudio (es decir, de estudiante a estudiante) alrededor de 0.50 con un error estándar de 0.035

• Evidencia empírica: Tomé los datos que ustedes generaron y calculé que el conjunto de todas las proporciones muestrales (0.515 = 103/200, 0.470 = 94/200, etc.) tiene una media de 0.488 y una desviación estándar de 0.028. (OK, hice trampa y borré un outlier de 0.67)

• Forma? Parecida a forma de campana. Por qué?

Page 30: 4.  Distribuciones  de  Probabilidad

Teorema Central del Límite

• Teorema Central del Límite: Para muestreo aleatorio con n “grande”, la distribución muestral de la media muestral tiene aprox. una distribución normal

• Es aprox. normal sin importar la forma de la distribución poblacional

• Qué tan “grande” debe de ser n depende de qué tan asimétrica sea la distribución poblacional, pero usualmente n ≥ 30 es suficiente

• Puede verificarse empíricamente, haciendo simulaciones con el applet de “sampling distribution” en www.prenhall.com/agresti

y

Page 31: 4.  Distribuciones  de  Probabilidad
Page 32: 4.  Distribuciones  de  Probabilidad

Ejemplo

Muestra aleatoria de 100 estudiantes seleccionados para estimar la proporción que han participado en actividad A. Encuentra la probabilidad de la proporción muestral caiga entre 0.04 de la proporción poblacional, si la proporción poblacional = 0.30 (es decir, entre 0.26 y 0.34)

y = 1, sí y = 0, no

µ = = 0.30

• Por el TCL, distribución muestral de la media muestral (la proporción de “sí”) es aprox. normal con– media = 0.30,– error estándar =

(1 ) (0.3)(0.7) 0.458

Page 33: 4.  Distribuciones  de  Probabilidad

• 0.26 tiene valor-z = (0.26 - 0.30)/0.0458 = -0.87

• 0.34 tiene valor-z = (0.34 - 0.30)/0.0458 = 0.87

• P(media muestral ≥ 0.34) = 0.19

• P(media muestral ≤ 0.26) = 0.19

• P(0.26 ≤ media muestral ≤ 0.34) = 1 – 2(0.19) = 0.62

La probabilidad es 0.62 que la proporción muestral caiga a 0.04 de la proporción poblacional

0.458 0.458 0.0458100y n n

Page 34: 4.  Distribuciones  de  Probabilidad

Ejemplo

Lanzamiento de monedas, n = 200 por estudiante

• Si la probabilidad de águila = 0.50, entonces la proporción muestral de águilas en 200 lanzamientos varía de estudiante a estudiante de acuerdo a una distribución normal con – media = 0.50, y – error estándar 0.035 (¿cómo?)

• Sería inusual que la proporción de águilas estuviera por debajo de 0.40 o por arriba de 0.60 (por qué?)

• Cómo cambiaría el intervalo de valores factibles (0.40, 0.60) a medida que n crece? (p.ej., n = 1000 en una encuesta)

Page 35: 4.  Distribuciones  de  Probabilidad

No se dejen “engañar por aleatoriedad”

• Hemos visto que algunas cosas son muy predecibles (es decir, qué tan cerca la media muestral cae de la media poblacional, para una n determinada)

• Pero, en el corto plazo, aleatoriedad no es “regular” como uno esperaría (Por lo general, yo puede predecir quién “falsificó” los lanzamientos de monedas

• En 200 lanzamientos de una moneda balanceada,– P(la secuencia más larga de Caras consecutivas < 5) = 0.04– La distribución de probabilidad de Caras consecutivas tiene µ = 7

• Implicaciones: deportes (ganar/perder, éxito/fracaso individual), mercado de acciones sube o baja día con día, …

Page 36: 4.  Distribuciones  de  Probabilidad

Algunos comentarios

• Consecuencia del TCL: Cuando el valor de una variable es resultado de promediar muchas influencias individuales, ninguna domina, la distribución es aprox. normal (p.ej., coef. intelectual, presión arterial)

• En la práctica, no conocemos µ, pero podemos usar la dispersión de la distribución muestral como base para la inferencia de parámetros desconocimos

(veremos cómo en los próximos dos capítulos)

• Ahora podemos discutir tres tipos de distribuciones:

Page 37: 4.  Distribuciones  de  Probabilidad

• Distribución de la población – descrita por parámetros tales como µ, σ (generalmente desconocidos)

• Distribución de la muestra – descrita por estadísticas de la muestra tales como

media muestral , desviación estándar s

• Distribución muestral de una estadística – distribuciones de la probabilidad de los posibles valores de la estadística muestral; determina la probabilidad que una estadística caiga dentro a cierta distancia del parámetro poblacional

(gráfico mostrando diferencias)

y

Page 38: 4.  Distribuciones  de  Probabilidad

• Ejemplo (categórica): Encuesta sobre sistema de salud– Estadística = proporción muestral que está a favor del plan

de sistema de salud propuesto– Cuál es (1) la distribución poblacional, (2) distribución de la

muestra, (3) distribución muestral?

• Ejemplo (cuantitativa): Experimento sobre el impacto de uso de celular en tiempos de reacción– Estadística =media muestral del tiempo de reacción– Cuál es (1) la distribución poblacional, (2) distribución de la

muestra, (3) distribución muestral?

Page 39: 4.  Distribuciones  de  Probabilidad

Por el Teorema Central del Límite (opción múltiple)

• Todas las variables tienen aprox. distribuciones muestrales normales si una muestra aleatoria tiene al menos 30 observaciones

• Distribuciones poblacionales son normales cuando el tamaño de la población es grande (al menos 30 observ.)

• Para muestras grandes, la distribución muestral de la media muestral es aprox. normal, sin tomar en cuenta la forma de la distribución poblacional

• La distribución muestral se parece más a la distribución poblacional si el tamaño de muestra aumenta

• Todas las opciones anteriores