La distribucion normal y su uso en la inferencia estadistica

25
La La distribuci distribuci ó ó n n Normal y su uso en Normal y su uso en la Inferencia Estad la Inferencia Estad í í stica stica

Transcript of La distribucion normal y su uso en la inferencia estadistica

Page 1: La distribucion normal y su uso en la inferencia estadistica

La La distribucidistribucióónn Normal y su uso en Normal y su uso en la Inferencia Estadla Inferencia Estadíísticastica

Page 2: La distribucion normal y su uso en la inferencia estadistica

Los conceptos básicos de ProbabilidadProbabilidad y de DistribucionesDistribuciones MuestralesMuestralessirven como introducción al método de Inferencia Estadística; esta se compone en dos áreas:

• EstimaciEstimacióónn• PruebasPruebas de de HipHipóótesistesis

La estimación busca evaluar los valores de los parámetros de la población(por ejemplo la media y la desviación estándar) basados en una muestra.

Las pruebas de Hipótesis constituyen un proceso relacionado con aceptar o rechazar alguna afirmación acerca de los parámetros de la población.

Page 3: La distribucion normal y su uso en la inferencia estadistica

Ejemplo.

Supóngase que un fabricante de lápices compra a un proveedor borradores para pegarlos a los lápices. El fabricante tiene que decidir si cada lote de borradores del proveedor es de calidad aceptable. Para ello necesita que contenga el 15% o menos de borradores defectuosos.

Desde luego, no puede inspeccionar cada borrador del lote. Debido a esto, obtiene una muestra de 20 borradores de cada lote y la inspecciona. Decide que si hay 3 o menos borradores defectuosos en la muestra, aceptará un lote; si hay más de 3 defectuoso rechazará el lote y lo de volverá al proveedor.

Sin embargo, si acepta un lote cuando éste contiene más del 15% de borradores defectuosos, ha cometido un error. Por otra parte si rechaza un lote cuando contiene menos del 15% de borradores defectuosos, también ha cometido un error.Con base en la evidencia proporcionada por la muestra, el fabricante ha tratado de responder a la pregunta ¿tiene el lote una proporción de lápices defectuoso tan grande que sea necesario rechazarlo?

Page 4: La distribucion normal y su uso en la inferencia estadistica

Al responder a lo anterior, el fabricante de lápices ha tomado una decisión acerca de la proporción de defectos en la población general, ya que la proporción en la población es un parámetro de la población y las decisiones acerca de los parámetros de la población constituyen el proceso de pruebas de hipótesis, en realidad el fabricante ha realizado la tarea de probar una hipprobar una hipóótesistesis.

Si el fabricante está interesado en estimar la verdadera proporción de defectos con base a su información muestral, tendrá que intentar responder a la pregunta

Esta pregunta corresponde a lo que se llama EstimaciEstimacióónn.

Con base en la muestra ¿Quéafirmación puedo hacer acerca de la proporción de la población que es defectuosa ?

Page 5: La distribucion normal y su uso en la inferencia estadistica

Al hacer mediciones de cualquier tipo y distribuir nuestros resultados bajo algún criterio, es muy común encontrar que los datos se agrupen de manera muy característica.

En muchos de estos casos veremos que dichas distribuciones siguen una forma muy particular en la que tenemos un mayor número de observaciones para cierto valor, disminuyendo la cantidad de observaciones a ambos lados de la observación más frecuente.

Un ejemplo es al dejar caer canicas por entre una serie clavos como lo muestra la figura, al final del experimento con muchas canicas tendremos que las canicas se han agrupado como se ve en la figura.

http://www.ms.uky.edu/~mai/java/stat/GaltonMachine.htmlEjemplo interactivo:

¿¿PorquPorquéé eses normal la normal la distribucidistribucióónn Normal?Normal?

Page 6: La distribucion normal y su uso en la inferencia estadistica

A este tipo de distribución se le conoce como Distribución Gaussiana, ya que el matemático alemán Karl F. Gauss (1799-1830) fue quien la describió de manera analítica.

La forma de ésta función es parecida a la de una campana, por eso también se conoce como “campana de Gaus”.

Page 7: La distribucion normal y su uso en la inferencia estadistica

Es tan común encontrar esta distribución en tan diversas ramas del conocimiento, que también se le da el nombre de Distribución Normal. La aportación de Gauss se honraba en los billetes de los marcos alemanes (antes de los Euros) como uno de sus descubrimientos más trascendentales.

Page 8: La distribucion normal y su uso en la inferencia estadistica

La distribución Gaussiana se aplica a una gran gama de observaciones en ramas como la biología, la geografía, la astronomía y por supuesto la economía.

Muchos ejemplos de la naturaleza se pueden aproximar con una distribución normal.

En general esto se puede pensar como resultado de la interacción de muchos (o un gran número) efectos aleatorios en la variable que se estudia.

Por ejemplo, si medimos el tamaño de las hojas de un árbol, veremos que tienden a distribuirse en forma gaussiana.

http://www.shodor.org/interactivate/activities/NormalDistribution/?version=1.6.0_03&browser=Mozilla&vendor=Sun_Microsystems_Inc.

Ejercicio interactivo: Máquina de Galton Muestra como se va formando una distribución normal a partir de una combinación de parámetros (8 en este caso)

Page 9: La distribucion normal y su uso en la inferencia estadistica

Pero ¿a qué se debe esta aparentemente sorprendente resultado?

Estas distribuciones son el resultado del agregadoagregado de muchos procesos azarosos o fortuitos que podrían no ser observables individualmente.

Matemáticamente esta distribución obedece a lo que se conoce como el

Teorema del LTeorema del Líímite Centralmite Central.

Este teorema estipula que si tomamos muestras de una población que tenga cualquier tipo de distribución, pero una media y varianza finitas, entonces, la distribución de las medias tiende a la distribución normal. Entre mayor sea el número de muestras mejor será la aproximación a una distribución normal.

Page 10: La distribucion normal y su uso en la inferencia estadistica

Entre las propiedades agradables de la distribución normal, están

• La de la distribución normal de suma. La suma de dos variables con distribuciones normales es también normal.

• La de la distribución normal de diferencias. La diferencia de dos variables con distribuciones normales es también normal..

Otro motivo por el cual as distribuciones normales son muy utilizadas es que tienen muchas propiedadespropiedades muy convenientes. Por eso, si las variables aleatorias que nos interesan tienen distribuciones desconocidas, podemos hacer inferencias iniciales suponiendo distribuciones normales.

Debido a todo lo anterior esta distribución es muchas veces el modelo de partida de los análisis de los datos. Aunque cuando no podemos generalizar, en la mayoría de los casos la podremos utilizar como una buena aproximación a la realidad.

Page 11: La distribucion normal y su uso en la inferencia estadistica

DistribuciDistribucióón Normal Estn Normal Estáándar o tipificada. ndar o tipificada. CalificaciCalificacióón Zn Z..

Una de las consecuencias del Teorema del Límite Central es que dada una

población con media μ y para n lo bastante grande, la distribución de la variable

es una distribución normal.

donde:

es la observación que estamos queriendo analizar

es el valor de la media de la muestra

s es el valor de la desviación estándar de la muestra

Si nos fijamos en la fórmula el valor de Z es la distancia de la observacila distancia de la observacióón n a la media en unidades de desviacia la media en unidades de desviacióón estn estáándarndar, es decir, a cuántas desviaciones estándar está alejada nuestra observación de la media.

ix xZ

s−

=

ix x

Page 12: La distribucion normal y su uso en la inferencia estadistica

z = s

z = 2sz = 0.5s

Veamos a qué corresponde esto para una distribución normal:

Page 13: La distribucion normal y su uso en la inferencia estadistica

d) ¿Qué significa este resultado?

Actividad 1 Si nos dicen que una población tiene una media de 23 y una desviación estándar de 3.5, encontrar la calificación Z de

a)26.6, b) 16, c)19.5 d) 29:

a) lo que significa que 26.6 está a 1.03

desviaciones estándar a la derechaa la derecha de la media (porque es positivo).

03.1

5.3236.26

=−

=Z

b) lo que significa que la observación está

a 2 desviaciones estándar a la izquierdaa la izquierda de la media (porque es negativo).

16 - 23Z = = -23.5

c) ¿Qué significa este resultado?19.5 - 23Z = = -13.5

72.15.32329

=−

=Z

Page 14: La distribucion normal y su uso en la inferencia estadistica

Si cambiamos todos los valores observados a calificaciones Z, entonces podemos crear una distribución normal genérica llamada distribución normal estándar o tipificada en donde

•• la media, que estla media, que estáá en el centro de la curva, nos queda en el valor 0en el centro de la curva, nos queda en el valor 0

•• la desviacila desviacióón estn estáándar es ahora igual a 1 y ndar es ahora igual a 1 y

•• el el áárea bajo la curva tambirea bajo la curva tambiéén es igual a la unidadn es igual a la unidad lo que equivale al total de los casos de la población estudiada, es decir,

El El áárea es rea es == 1 corresponde al 100% de los casos, y porciones del 1 corresponde al 100% de los casos, y porciones del áárea rea son proporcionales a porcentajes parciales de la muestra.son proporcionales a porcentajes parciales de la muestra.

De este modo, la porción de área bajo la curva, limitada por dos ordenadas o perpendiculares levantadas en puntos del eje X, expresan el porcentaje de casos que quedan comprendidos entre las calificaciones Z correspondientes a los puntos sobre los que se trazan las ordenadas. Veámoslo en el siguiente diagrama.

Page 15: La distribucion normal y su uso en la inferencia estadistica

Valores o calificaciones z

-3 -2 -1 0 1 2 3

2.15% 13.59% 34.13% 34.13% 13.59% 2.15%

El área correspondiente a una distancia de 1 desviación estándar de la media (a ambos lados) es de aproximadamente 68%

Porcentajes del Área total o porcentajes de la población oprobabilidad

Page 16: La distribucion normal y su uso en la inferencia estadistica

De acuerdo a lo especificado anteriormente entonces entre 0 y 1 se encuentra el 34.13% de los casos, es decir que el área bajo la curva es 0.3413, o lo que significa que el 68.26% de la población está alejada de la media a lo más una desviación estándar. O que solamente el 4.30% de los casos están más allá de dos desviaciones estándar de la media.

Existen tablas que nos ayudan a obtener los porcentajes de casos entre diferentes calificaciones Z y la media.

Sin embargo se debe tener mucho cuidado de ver cuál es el área bajo la curva que nos dan, porque se tabula de forma diferente en los libros, algunos la dan

a partir de 0 y otros a partir de - ∞.

Ejemplos:

1.Si queremos encontrar el área bajo la curva comprendida entre las calificaciones estándar de los incisos a) y d) anteriores, buscamos en la tabla los valores que corresponden:

R e g la e m p ír ica

-4 -3 -2 -1 0 1 2 3 4

z

f(z)

Page 17: La distribucion normal y su uso en la inferencia estadistica

para Z = 1.03 el área bajo la curva es 0.8485

para Z = 1.72 el área bajo la curva es 0.9564

lo que nos da un área de 0.9564-0.8485 = 0.1079

Esto quiere decir que el 10.79% está entre los valores 26.6 y 29 (recordar que el área total =1 equivale al 100% de los casos).

10.79%

1.03 1.72 Z

Page 18: La distribucion normal y su uso en la inferencia estadistica

Que porcentaje de datos podríamos esperar con valores mayores a 29?

para Z = 1.72 el área bajo la curva es 0.9564

lo que nos da 1 – 0.9564 = 0.0436 o sea 4.36%

10.79%

1.03 1.72 Z

Page 19: La distribucion normal y su uso en la inferencia estadistica

2. Encontrar el área bajo la curva entre las calificaciones z = -2 y z = -1Como la tabla no nos da el área del lado izquierdo tomamos los mismos valores del lado derecho y el área es la misma porque es simétrica.

Para Z = 2 el área bajo la curva es 0.9772para Z = 1 el área bajo la curva es 0.8413lo que nos da un área entre medio de ellas de 0.9772-0.8413 = 0.1359

13.59%

-2 -1 0 1 2 Z

13.59%

Page 20: La distribucion normal y su uso en la inferencia estadistica

CCáálculo de Probabilidadeslculo de Probabilidades

Antes de pasar a usar los conceptos anteriores tenemos que definir quées la probabilidad. Podemos pensar en este concepto de dos maneras:

1. Si conocemos todos los resultados posibles de un experimento u observación, y queremos saber el porcentaje de que ocurra un cierto tipo de resultado, entonces llamamos probabilidad a:

( ) Número de resultados de un cierto tipo nP ANúmero de resultados totales N⋅ ⋅ ⋅ ⋅ ⋅ ⋅

= =⋅ ⋅ ⋅

Actividad No. 1:

Al tirar dos dados queremos ver la probabilidad de que salga el número 4 al sumar los puntos.

Page 21: La distribucion normal y su uso en la inferencia estadistica

En este caso el número total de resultados es 36, por lo tanto N=36

El número de resultados que cumplen el criterio es 1+3, 2+2, 3+1, n=3

Es la probabilidad de que la suma de los puntos de dos dados sea = 4

3 1( )36 12

nP AN

= = =

Page 22: La distribucion normal y su uso en la inferencia estadistica

Si embargo, algunas de estas sumas se repiten, por lo que podemos hacer una tabla como la siguiente

Valoresde la suma(x)

Número decasos

ProbabilidadP(x)

2 1 1/36

3 2 2/36

4 3 3/36

5 4 4/36

6 5 5/36

7 6 6/36

8 5 5/36

9 4 4/36

10 3 3/36

11 2 2/36

12 1 1/26

Total 36 1.0

Page 23: La distribucion normal y su uso en la inferencia estadistica

Si ahora hacemos un histograma con los valores de las sumas y sus probabilidades, tendremos lo siguiente

Esto es lo que llamaríamos a una distribucidistribucióón de probabilidadn de probabilidad para la suma de dos dados. La cual, por cierto, en este caso se aproxima a una distribución normal.

Page 24: La distribucion normal y su uso en la inferencia estadistica

2. Por medio de la frecuencia. Si realizamos un experimento muchas veces (tantas como sea posible) entonces

La diferencia con la forma anterior es que ahora no conocemos todos los posibles casos, sino que los “medimos”. Como puede pensarse, en esta situación tendremos una “aproximación” a la probabilidad buscada, la cual es mejor mientras mayor sea el número de experimentos.

( ) Número de resultados de un cierto tipo nP ANúmero de resultados totales N⋅ ⋅ ⋅ ⋅ ⋅ ⋅

= =⋅ ⋅ ⋅

Page 25: La distribucion normal y su uso en la inferencia estadistica

Tarea 3. Si se tiene una media de 156 y una desviación estándar de 15, encontrar las calificaciones Z para:

a) 144 b) 167 c) 173 d) 136

Encontrar el área bajo la curva entre las calificaciones Z de:

a) y b)b) y c)b) y d)

Nota: se puede consultar cualquier tabla de calificaciones Z en un libro de estadística pero hay que fijarse si se tabula la curva completa o sólo la mitad.