Presentar Recursos

17
DISTRIBUCION NORMAL Historia La distribución normal fue presentada por primera vez por Abraham de Moivre en un artículo del año 1733, 2 que fue reimpreso en la segunda edición de su The Doctrine of Chances , de 1738, en el contexto de cierta aproximación de la distribución binomial para grandes valores de n. Su resultado fue ampliado por Laplace en su libro Teoría analítica de las probabilidades (1812), y en la actualidad se llama Teorema de De Moivre-Laplace . Laplace usó la distribución normal en el análisis de errores de experimentos. El importante método de mínimos cuadrados fue introducido por Legendre en 1805. Gauss , que afirmaba haber usado el método desde 1794 , lo justificó rigurosamente en 1809 asumiendo una distribución normal de los errores. El nombre de Gauss se ha asociado a esta distribución porque la usó con profusión cuando analizaba datos astronómicos 3 y algunos autores le atribuyen un descubrimiento independiente del de De Moivre. 4 Esta atribución del nombre de la distribución a una persona distinta de su primer descubridor es un claro ejemplo de la Ley de Stigler . El nombre de "campana" viene de Esprit Jouffret que usó el término "bell surface" (superficie campana) por primera vez

description

tarea

Transcript of Presentar Recursos

Page 1: Presentar Recursos

DISTRIBUCION NORMAL

Historia

La distribución normal fue presentada por primera vez por Abraham de Moivre en un artículo del año 1733,2 que fue reimpreso en la segunda edición de su The Doctrine of Chances, de 1738, en el contexto de cierta aproximación de la distribución binomial para grandes valores de n. Su resultado fue ampliado por Laplace en su libro Teoría analítica de las probabilidades (1812), y en la actualidad se llama Teorema de De Moivre-Laplace.

Laplace usó la distribución normal en el análisis de errores de experimentos. El importante método de mínimos cuadrados fue introducido por Legendre en 1805. Gauss, que afirmaba haber usado el método desde 1794, lo justificó rigurosamente en 1809 asumiendo una distribución normal de los errores. El nombre de Gauss se ha asociado a esta distribución porque la usó con profusión cuando analizaba datos astronómicos3 y algunos autores le atribuyen un descubrimiento independiente del de De Moivre.4 Esta atribución del nombre de la distribución a una persona distinta de su primer descubridor es un claro ejemplo de la Ley de Stigler.

El nombre de "campana" viene de Esprit Jouffret que usó el término "bell surface" (superficie campana) por primera vez en 1872 para una distribución normal bivariante de componentes independientes. El nombre de "distribución normal" fue otorgado independientemente por Charles S. Peirce, Francis Galton y Wilhelm Lexis hacia 1875.[cita  requerida] A pesar de esta terminología, otras distribuciones de probabilidad podrían ser más apropiadas en determinados contextos; véase la discusión sobre ocurrencia, más abajo.

Page 2: Presentar Recursos

En estadística y probabilidad se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece aproximada en fenómenos reales.[cita  requerida]

La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de un determinado parámetro estadístico. Esta curva se conoce como campana de Gauss y es el gráfico de una función gaussiana.

La importancia de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observación se obtiene como la suma de unas pocas causas independientes.

De hecho, la estadística descriptiva sólo permite describir un fenómeno, sin explicación alguna. Para la explicación causal es preciso el diseño experimental, de ahí que al uso de la estadística en psicología y sociología sea conocido como método correlacional.

La distribución normal también es importante por su relación con la estimación por mínimos cuadrados, uno de los métodos de estimación más simples y antiguos.

Distribución normal

Distribución normal

Page 3: Presentar Recursos

La línea verde corresponde a la distribución normal

estándar

Función de densidad de probabilidad

Función de distribución de probabilidad

Parámetros

Dominio

Función de

densidad(pdf)

Función de

distribución (cdf)

Media

Mediana

Page 4: Presentar Recursos

Moda

Varianza

Coeficiente de

simetría

0

Curtosis 0

Entropía

Función generadora

de momentos (mgf)

Función característica

 1.1         MOMENTOS DE LAS DISTRIBUCIONES Las propiedades de las distribuciones pueden ser definidas completamente en términos de los momentos.  Los momentos en estadística son similares a los momentos en física (rotación respecto al origen) 

 para la variable continua 

 para la variable discreta o respecto a la media (eje de rotación diferente al origen) 

 para la variable continua 

 para la variable discreta  1.2         PARÁMETROS ESTADÍSTICOS Los estadísticos extraen información de una muestra, indicando las características de la población.  Los principales estadísticos son los momentos de primer, segundo y tercer orden correspondiente a la media, varianza, y asimetría respectivamente. 

Page 5: Presentar Recursos

1.2.1      Media : es el valor esperado de la variable misma .  Primer momento respecto a la origen.  Muestra la tendencia central de la distribución

 el valor estimado de la media a partir de la muestra es

1.2.2     Varianza ²: mide la variabilidad de los datos. Es el segundo momento respecto a la media.

 el valor estimado de la varianza a partir de la muestra es

en el cual el divisor es n-1 en lugar de n para asegurar que la estadística de la muestra no sea sesgada, es decir,  que no tenga una tendencia, en promedio, a ser mayor o menor que el valor verdadero.  Las unidades de la varianza son la media al cuadrado, la desviación estándar  s es una medida de la variabilidad que tiene las mismas dimensiones que la media y simplemente es la raíz cuadrada de la varianza, se estima por s.  El significado de la desviación estándar se ilustra en la siguiente figura 

Efectos de la función de densidad de probabilidad causados por cambios en la desviación estándar. 

Page 6: Presentar Recursos

Coeficiente de variación  es una medida adimensional de la variabilidad su estimado es  

 

1.2.3      Coeficiente de asimetría la distribución de los valores de una distribución alrededor de la media se mide por la asimetría.  Se obtiene a partir del tercer momento alrededor de la media, dividiéndolo por el cubo de la desviación estándar para que sea adimensional. 

      tercer momento respecto a la media

 Un estimativo del coeficiente de asimetría está dado por

   

Ejemplo Encontrar el valor medio de la precipitación si se tiene 

Intervalo (mm) Xi medioFrecuencia

absolutaFrecuencia

relativax f(x)

100 110 105 10 0.1 10.5110 120 115 16 0.16 18.4120 130 125 9 0.09 11.25130 140 135 10 0.1 13.5140 150 145 20 0.2 29150 160 155 15 0.15 23.25160 170 165 20 0.2 33

      Total=100    = 138.9  2  ANALISIS DE FRECUENCIA El análisis de frecuencia es una herramienta utilizada para, predecir el comportamiento futuro de los caudales en un sitio de interés, a partir de la información histórica de caudales.  Es un método basado en procedimientos estadísticos que permite calcular la magnitud del caudal asociado a un período de retorno.  Su confiabilidad depende de la longitud y calidad de la serie histórica, además de la incertidumbre propia de la distribución de probabilidades seleccionada.  Cuando se pretende realizar

Page 7: Presentar Recursos

extrapolaciones, período de retorno mayor que la longitud de la serie disponible, el error relativo asociado a la distribución de probabilidades utilizada es más importante, mientras que en interpolaciones la incertidumbre está asociada principalmente a la calidad de los datos a modelar; en ambos casos la incertidumbre es alta dependiendo de la cantidad de datos disponibles (Ashkar, et al. 1994).  La extrapolación de frecuencias extremas en una distribución empírica de crecientes es extremadamente riesgosa (Garcon, 1994). Para determinar la magnitud de eventos extremos cuando la distribución de probabilidades no es una función fácilmente invertibles se requiere conocer la variación de la variable respecto a la media.  Chow en 1951 propuso determinar esta variación a partir de un factor de frecuencia KT que puede ser expresado: 

 y se puede estimar a partir de los datos 

 Para una distribución dada, puede determinarse una relación entre K y el período de retorno Tr.  Esta relación puede expresarse en términos matemáticos o por medio del uso de una tabla. El análisis de frecuencia consiste en determinar los parámetros de las distribuciones de probabilidad y determinar con el factor de frecuencia la magnitud del evento para un período de retorno dado. A continuación se describen las principales distribuciones de probabilidad utilizadas en hidrología, la forma de estimar sus parámetros, el factor de frecuencia y los límites de confianza.  Estos últimos son indicadores de que tanta incertidumbre se tiene con las extrapolaciones, puesto que determinar el rango de valores donde realmente estaría la variable, si el rango es muy grande la incertidumbre es muy alta y si es pequeño, por el contrario, habrá mucha confianza en el valor estimado.   

 

Page 8: Presentar Recursos

Pruebas de bondad de ajuste

Prueba Chi – cuadrado (x2).

La prueba Chi cuadrado se basa en el cálculo de frecuencias, tanto de valores observados, como valores esperados, para un número determinado de intervalos.

Esta prueba es comúnmente usada, para verificar la bondad de ajuste de la distribución empírica a una distribución teórica conocida, fue propuesta por Pearson en 1900.

La expresión general de la prueba Chi – cuadrado está dada por:

xc2=∑

i=1

k

¿¿¿

donde :∑i=1

k

θi=∑i=1

k

ei=¿ N ¿

xc2=¿Valor calculado de Chi – cuadrado, a partir de los datos

i = número de valores observados en el intervalo de clase i

ei = número de valores esperados en el intervalo de clase i

k = número de intervalos de clase

Page 9: Presentar Recursos

Asignando probabilidades a la ecuación general es decir, asignando igual probabilidad de ocurrencia a cada intervalo de clase, se tiene:

xc2=∑

i=1

k

¿¿¿

Donde:

Ni = número de observaciones que caen dentro de los límites de clase ajustadas del intervalo i.

N = tamaño muestral.

PI = probabilidad igual para todos los intervalos de clases.

Pi=1k

ó ei=Pi . N

Simplificando la ecuación general, se obtiene la formula computacional desarrollada por Markovic:

xc2=∑

i=1

k

¿2−N

El valor del xc2 obtenido por la anterior ecuación se compara con x t

2 de la tabla, cuyo

valor se determina con:

Nivel de significación: α = 0,05 ó α = 0,01

Grados de libertad: g.l. = k – 1 – h

Donde:

h = es el número de parámetros a estimarse, así:

h = 2, para la distribución normal

h = 3, para la distribución log – normal de 3 parámetros.

Criterios de decisión.

El criterio de decisión se fundamenta en la comparación del valor calculado de Chi – cuadrado con el valor tabular encontrado, esto es:

Si el Chi – cuadrado calculado es menor o igual que el valor tabular, es decir: xc2 ≤

x t2

Entonces, se acepta la hipótesis que es bueno al nivel de significación seleccionado.

Page 10: Presentar Recursos

Si el Chi – cuadrado calculado es mayor que el valor tabular, es decir: xc2 > x t

2 entonces, el ajuste es malo y se rechaza la hipótesis, siendo necesario probar otra distribución teórica.

Ventajas y limitaciones.

Es aplicable solo para ajustes a la distribución normal, puesto que ha sido desarrollado con base en los datos normales e independientes.

Se realiza en la función densidad de datos agrupados en intervalos de clases. Requiere un conocimiento a priori, de la función de distribución teórica utilizada

en el ajuste. En la práctica se usa para cualquier modelo de ajuste, pero estrictamente es válido

solo para la normal.

EJEMPLO DE APLICACIÓN.

Se tienen los siguientes datos de caudales en m3/s , en la estación Alcira en el Rio Berna

53.5 64 169.6 162.7 102.1165.6 155.8 199 22.8 76250.5 120.5 250.5 231.7 207234 189 196 96.9 91.665.4 123 119 200 380

Realizar la prueba de bondad de ajuste para ver si los datos se ajustan a una distribución normal mediante CHI2 con un nivel de significación de 5%, en caso positivo, calcular la probabilidad de que el caudal sea superior a 80 m3/s e inferior a 190 m3/S

Solución:

1º Se ordenan los datos de menor a mayor.

Page 11: Presentar Recursos

Nº X1 22.82 53.53 644 65.45 105.66 767 91.68 96.49 102.1

10 120.511 12312 155.813 162.714 165.615 169.616 18917 19618 19919 20020 20721 231.722 23423 250.524 250.525 380

2º Cálculo del número de intervalosNC = 1 + 1.33 ln (N)

Dónde:N = Número de datosNC = Numero de intervalosNC = 1 + 1.33 ln(25)NC = 5.28 ≈ 6

3º Cálculo de Amplitud de cada intervalo

ΔX = Dato má ximo−Dato m í nimo

NC−1

ΔX = 38−22.8

6−1 = 71.44 ≈ 72

Δ X2

= 722

= 36

Page 12: Presentar Recursos

4º Tabulo la siguiente tabla

Intervalo de clase

marca de clase

frecuencia absoluta

Xi fi0 - 72 36 4

72 - 144 108 7144 - 216 180 9216 - 288 252 4288 - 360 324 0360 - 432 396 1

5º Cálculo de la Media y la Desviación Estándar

* Media:

* Desviación Estándar:

6º Se tabula la siguiente tabla

LÍmite de clase

Area bajo la Curva

Frecuencia Relativa

Frecuencia Abs. (ei)

Frecuencia Obs. (θi)

0 -1.8468 -0.4678 - - -72 -0.9996 -0.3389 0.1289 3.2225 ≈ 3 4

144 -0.1525 -0.0596 0.2793 6.9825 ≈ 7 7216 0.6946 0.2549 0.3145 7.8625 ≈ 8 9288 1.5418 0.4382 0.1833 4.5825 ≈ 5 4360 2.389 0.4916 0.0534 1.3350 ≈ 1 0432 3.2362 0.4994 0.0078 0.1950 ≈ 1 1

25 25

7º Cálculo de Xc2

X=Σ xi∗fiN

X=156.96

Sx = √ Σ( xi−x )2∗fi

N−1 Sx = √7223.026 Sx = 84.98

Z

¿ X−XSx

Xc2=∑i=1

n (θ i−ei )2

e i

Xc2=2.458

Page 13: Presentar Recursos

8º Cálculo de X2

→ 𝐺𝑟𝑎𝑑𝑜 𝐿𝑖𝑏𝑒𝑟𝑡𝑎𝑑 ( 𝜈 )

Dónde:k= Numero de Intervalos de claseh= Numero de Parámetros a estimar

h=2 → Para una Distribución Normalh=3 → Para una Distribución Log-normal de 3P

→Nivel de Significación (α)α= 5%α= 0.05

Valores con los que entramos a tablas

9º Criterio de Decisión

El ajuste es bueno para el nivel de significación seleccionado

10º Aplicando La ley Normal

a) P(80m3/s<Q<190m3/s)=

ν=k−h−1

ν=6−2−1

ν=¿3

{ ν=3 ; α=0.05

X2=7.81→ Valor Optenido Por Tabla

Si Xc2≤ X2

3.78 ≤7.81 ok!!!!! Buen Ajuste

X=∑ X i

n=157.048

Sx=√∑ (X i−X ¿)2

n−1=80.31¿

Page 14: Presentar Recursos

= F(190)-F(80)= 0.6591-0.1685=0.491*100=49.10%

F(190)=0.6591 (Por Tablas)

F(80)=0.1685 (Por Tablas)

b) P(Q<210m3/s)== F(210)= 0.7454*100=74.54%

F(210)=0.7454 (Por Tablas)

Z=190−157.04880.31

=0.410

Z=80−157.04880.31

=−0.959

Z=210−157.04880.31

=0.659