NOCIONES DE ESTADISTICA[1] - meteo.fisica.edu.uymeteo.fisica.edu.uy/Materias/climatologia/practico...

21
NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA – 2012 Matilde Ungerovich- [email protected]

Transcript of NOCIONES DE ESTADISTICA[1] - meteo.fisica.edu.uymeteo.fisica.edu.uy/Materias/climatologia/practico...

NOCIONES DE ESTADÍSTICA

CURSO PRÁCTICO DE CLIMATOLOGÍA – 2012

Matilde Ungerovich- [email protected]

DEFINICIÓN PREVIA:� Distribución: función que nos dice cuál es la probabilidad de

que cada suceso (valor) ocurra. Ej: distribución normal

� Distribución continua: para valores cercanos se producen variaciones de probabilidad de ocurrencia pequeñas

QUÉ ES LA ESTADÍSTICA?

� Estadística descriptiva: técnicas o procedimientos para recolectar, ordenar y resumir la información (ej: tablas, gráficos, promedios, etc)

� Estadística inferencial: técnicas para generalizar a una población entera con la información obtenida de unos pocos datos

EDA: Exploratory Data Analysis

� Da sentido a las series de datos

� Nos puede dar idea de cuál es el proceso que está ocurriendo

� Los gráficos son una forma de resumir y entender datos

Características de EDALa robustez y resistencia son medidas de insensibilidad a suposiciones sobre la naturaleza de los datos.

� Resistencia- sensibilidad a datos atípicos. Un método es resistente si es poco sensible a datos atípicos.

� Robustez- sensibilidad a la suposición de que los datos tienen una � Robustez- sensibilidad a la suposición de que los datos tienen una distribución dada. Por ejemplo, el promedio es una muy buena caracterización de una serie de datos si estos tienen una distribución Gaussiana, pero no si tienen distribución exponencial (el promedio no es robusto).

No es mejor o peor “globalmente” , depende de lo que estemos evaluando

CÓMO CARACTERIZAR UNA SERIE DE DATOS?

�POSICIÓN- dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos

�CENTRALIZACIÓN- indican valores con respecto a los �CENTRALIZACIÓN- indican valores con respecto a los cuales los datos parecen agruparse

�DISPERSIÓN- indican mayor o menor concentración de los datos con respecto a las medidas de centralización

�SIMETRÍA- cómo están distribuidos los datos respecto al valor central

MEDIDAS DE POSICIÓN: PERCENTILES

� Se llama Pr (percentil r) a un valor tal que el r% de las observaciones son iguales

o menores que él y el 100%-r% de las observaciones son mayores a él.

� ALGUNOS PERCENTILES IMPORTANTES:

• Mediana = P50 separa al 50% de los valores menores del 50% de las

observaciones mayores. Sea x la muestra ordenada de manera creciente:Sea x la muestra ordenada de manera creciente:

• Cuartiles: el primero es P25, el segundo o mediana es P50, el tercero es P75. Se para al conjunto ordenado de observaciones en 4 partes iguales , cada una de ellas formada por un 25% de los valores.

El primer cuartil es “la mediana de la mediana”.

Ejemplo

Tengo la siguiente muestra: [13 3 7 2 9 10 2 6 4 0 9 1 5 ]

1- Buscar el percentil 0.25 de la muestra (primer cuartil)

2- Buscar la mediana de la muestra

Repetir para [100 3 7 2 9 10 2 6 4 0 9 1 5 ]

Es la mediana resistente?

MEDIDAS DE CENTRALIZACIÓN: media, mediana y moda

� Este tipo de medidas nos permiten identificar y ubicar el valor alrededor del cual se tienden a reunir los datos (“Punto central”).

� MEDIA (promedio): suma de todos los valores dividido entre la � MEDIA (promedio): suma de todos los valores dividido entre la cantidad de valores. Es decir, nos informa el valor que obtendría cada uno de los individuos si se distribuyeran los valores en partes iguales.

� MEDIANA: valor que cumple que la mitad de los datos son mayores al mismo y la mitad son menores.

� MODA: valor que más veces se repite dentro de los datos. Si los que más se repiten son 2 valores, se llama bimodal, si son varios, multimodal.

Ejemplo

Tengo las siguiente muestra:

[30 20 27 22 21 18 18 25 26 20]

[0 20 27 22 21 18 18 25 26 20][0 20 27 22 21 18 18 25 26 20]

Buscar media y moda

Son estas medidas resistentes?

MEDIA vs. MEDIANA� Coinciden si la distribución es simétrica

� Si no coinciden, es preferible la mediana (por ser mas resistente, es decir, poco sensible a datos atípicos)

� La media siempre es única (a diferencia de la mediana)

� La media es muy representativa si la distribución es Gaussiana, pero inútil en otro tipo de distribuciones. Por ejemplo, es representativa de la temperatura media pero no de la precipitación acumulada.

EJEMPLO:

Sólo un valor supera la media!!!!

PUESTO CANT. DE EMPLEADOS SUELDO

repartidor 3 300

capataz 1 450

encargado 1 750

administrativo 1 900

gerente 1 6000

MEDIDAS DE DISPERSIÓN

Nos dicen en qué medida las observaciones difieren entre sí.

RANGO- mayor valor-menor valor

RANGO INTERCUARTÍLICO (IQR)- es la distancia entre el primer y tercer cuartilRI=P75-P25

VARIANZA- promedio del cuadrado de las distancias entre cada valor y la media

Siendo la media y N la cantidad de valores

DESVIACIÓN ESTÁNDAR O TÍPICA- - raíz cuadrada de la varianza

COEFICIENTE DE VARIACIÓN- es la desviacióno estándar del conjunto de valoresexpresada como un porcentaje de la media

EJEMPLO 1� Para las series:

[11 12 13 14 15 16 17 18 19]

[11 12 13 14 15 16 17 18 91]

Calcular IQR y desviación estándar. Cuál es más resistente y � Calcular IQR y desviación estándar. Cuál es más resistente y por qué?

EJEMPLO 2

4

5

6

7

serie 1

serie 2SERIE 1 SERIE 2

1,3 1

1,5 3

1,7 5

1,9 7

1,9 7

1,7 5

1 2 3 4 5 6 7 81

2

3

1,7 5

1,5 3

1,3 1

MEDIDAS DE ASIMETRÍA O SESGOUna medida es simétrica cuando su mediana, su media y su

moda coinciden

PERIODICIDAD� También es importante darse cuenta si existe algún tipo de

oscilación periódica.

� En el siguiente gráfico se muestran las temperaturas medias en Paso de los Toros en el año 2000

0,0

5,0

10,0

15,0

20,0

25,0

30,0

1 2 3 4 5 6 7 8 9 10 11 12

Series1

ANOMALÍAS� Cuando en meteorología estudiamos una variable en un

período en particular es importante saber cuál es la anomalía con respecto a los valores climatológicos .

� La climatología para la estación de Paso de los Toros es

E F M A M J J A S O N D

� Los datos para el año 1999 son:

E F M A M J J A S O N D

24,47 23,56 21,8 17,89 14,69 11,6 11,3 12,65 14,36 17,35 20,07 23,07

E F M A M J J A S O N D

22,9 23,3 23,6 16,5 13,7 11,0 11,4 13,5 15,7 17,7 20,7 23,6

ANOMALÍA� La anomalía se es la diferencia, mes a mes, de los datos de ese

año en particular y la climatología (climatología-año particular).

� En este caso es:

� Obs: el promedio de las anomalías suma siempre cero

E F M A M J J A S O N D

1,57 0,31 -1,8 1,39 1,04 0,65 -0,05 -0,8 -1,29 -0,3 -0,63 -0,53

VISUALIZACIÓN DE SERIES � HISTOGRAMAS

� La superficie de cada barra es proporcional a la cantidad de veces que aparece cada valor

Histograma para la serie: 1

3

1 3 4 5 4 4 2 10 3 1 0 6

1 2 3 4 5 6 7 8 9 100

0.5

1

1.5

2

2.5

VISUALIZACIÓN DE SERIES� GRÁFICO DE LÍNEA (para la misma serie)

9

10

1 2 3 4 5 6 7 8 9 10 111

2

3

4

5

6

7

8

EJEMPLORealizar un gráfico de línea y un histograma para la segunda

mitad de la serie de temperaturas mínimas en Paso de los Toros.

P. Toros

61-80 81-00

Ene 7,6 8,2Ene 7,6 8,2

Feb 7,2 9,5

Mar 4,6 6,8

Abr 1,4 0,6

May 0,1 -2,3

Jun -3,3 -3,5

Jul -3,2 -3,2

Ago -2 -2,4

Set 0 -1,2

Oct 1,7 0,5

Nov 5,8 3,1

Dic 8,1 8