Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M....

29
Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal simple

Transcript of Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M....

Page 1: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Análisis Estadístico de

Datos Climáticos

Facultad de Ciencias – Facultad de Ingeniería2009

M. Barreiro – M. Bidegain – A. Díaz

Composites

Regresión lineal simple

Page 2: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Composites

El método de “composites” consiste en clasificar los datos en categorías y comparar p. ej. los valores medios o anomalías de otras variables para las distintas categorías.

Puede servir para identificar “señales” no muy fuertes que están ocultas debido a la existencia de “ruido”.

Page 3: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Composites

Ejemplo 1: componemos anomalías de lluvias en el trimestre OND según anomalías simultáneas de TSM positivas (eventos “cálidos”) o negativas (eventos “fríos”) en N3.4 en 1980-2000.

Page 4: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

-0.7-0.7-0.5-0.4-0.4-0.4-0.6-0.6-0.8-1.0-1.4-1.72000

-1.7-1.4-1.2-1.0-1.0-0.9-0.8-0.8-0.8-0.9-1.2-1.51999

-1.5-1.4-1.2-1.1-1.0-0.7-0.10.41.11.42.02.31998

2.52.52.42.22.01.71.30.80.3-0.1-0.3-0.41997

-0.4-0.3-0.2-0.1-0.2-0.1-0.2-0.2-0.3-0.5-0.7-0.81996

-0.8-0.8-0.6-0.5-0.2-0.10.10.20.30.60.91.21995

1.31.30.90.70.50.50.40.40.30.20.20.21994

0.30.30.30.30.30.40.70.70.70.50.40.41993

0.30.1-0.1-0.10.20.50.91.21.41.51.71.81992

1.61.30.90.90.91.00.80.60.30.30.40.41991

0.40.30.30.30.30.30.20.20.30.30.10.11990

-0.1-0.2-0.3-0.4-0.4-0.4-0.4-0.7-0.9-1.2-1.6-1.81989

-2.0-2.0-1.6-1.3-1.2-1.4-1.3-0.9-0.30.10.50.71988

1.11.21.51.61.71.51.21.01.11.21.31.21987

1.21.00.90.60.40.20.0-0.1-0.2-0.3-0.5-0.51986

-0.4-0.4-0.4-0.6-0.5-0.6-0.6-0.8-0.8-0.8-0.9-1.01985

-1.1-0.9-0.6-0.2-0.2-0.3-0.4-0.4-0.3-0.2-0.2-0.41984

-0.7-0.9-0.7-0.5-0.10.30.71.01.31.62.12.31983

2.32.21.91.51.00.80.70.70.40.20.10.01982

0.0-0.1-0.1-0.2-0.3-0.3-0.3-0.2-0.3-0.4-0.4-0.21981

0.00.00.0-0.10.00.20.30.30.20.30.40.51980

NDJONDSONASOJASJJAMJJAMJMAMFMAJFMDJFYear

Episodios cálidos y fríos en la región N3.4 (1980-2000)

http://www.cpc.noaa.gov/products/analysis_monitoring/ensostuff/ensoyears.shtml

Page 5: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Composites

Eventos cálidos (1982-86-87-91-94-97)

Composites de lluvias

Page 6: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

CompositesEventos fríos (1984-88-95-98-99)

Composites de lluvias

Page 7: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Composites

4 regiones en Uruguay-Río Grande do Sul

(21 + 17 pluviómetros en 1950-1998)OND

Ejemplo 2: aplicación al prónóstico

Región Niño 3.4 en el Océano PacíficoJul-Ago anterior

Page 8: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

CompositesClimatología de precipitación en OND

Subpoblación condicionada a (0.34 ºC < (Jul-Ago N3.4) < 1. 24 º C )

(situación similar a la de N3.4 en Jul-Ago 2004)

Los resultados deben sometersea pruebas para determinar si sonestadísticamentesignificativos

Se hacen “composites” de precipitaciones en OND en cada región, condicionados por el índice N3.4 dos meses antes.

Page 9: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

RegresiónWilks (Cap. 6)

La regresión se usa para describir relaciones que involucran variables medidas en una escala continua.

Para vincular variables aleatorias (ej., ancho de un anillo de árbol con la temperatura), o una variable aleatoria con uno o más factores externos no aleatorios (ej modelar trend con un polinomio).

Se puede utilizar para la predicción cuando las variables a relacionar no son simultáneas.

Page 10: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Regresión lineal simple

• Estimación de los parámetros• Distribución de los residuos• Tabla ANOVA• Bondad del ajuste• Análisis de los residuos• Distribución muestral de coeficientes de la

regresión• Intervalos de confianza de la predicción

Page 11: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Regresión lineal simple

Cor = 0.93

y= a b x

x

y

Dados los pares de valores: (x1, y1), (x2, y2)….(xn, yn)

se busca ajustar una recta de ecuación

n=58

Page 12: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

y= a b xa y { b son parámetros a estimar ¿

x variable independiente o “predictor”

y variable dependiente o “predictando”

Pero no se debe suponer que necesariamente existe una relación de causalidad entre ambas variables

Regresión lineal simple

Page 13: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Hay distintos criterios para estimar los parámetros.

El más habitual es el método de mínimos cuadrados.

∑i=1

n

ei2=∑

1

n

y i− a− b xi 2=SSE

(suma de errores cuadráticos)

Se busca minimizar

e i = y i− y x i

y i= { a b x i e i ¿

Estimación de los parámetros

Page 14: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Se plantea la anulación de las derivadas parciales

respecto de a y { b ¿ obteniéndose las soluciones:

b=∑1

n

x i y i−n { x y

∑1

n

x i2−n { x2

¿ ¿ a= y − b x

En el ejemplo:

b= 1 . 26 a= 0 .09

ATENCIÓN: Existe asimetría entre x e y (si se invierten los roles, no se obtiene la misma recta!!)

b = rxy σY/σX

Estimación de los parámetros

Page 15: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

En Matlab:

A=[ones(58,1) n34set5007'];Y=n34nov5007';ab=A\Y

ab =

0.0894 1.2563

Page 16: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Distribución de los residuos

Supondremos que los residuos (o errores) ei son independientes e idénticamente distribuidos (iid) con media 0 y varianza σ (igual para todos los ei).

Además se suele suponer que los residuos siguen una distribución gaussiana.

En general, cuantas más hipótesis se hagan, más ricas serán las conclusiones estadísticas que podremos extraer, pero más limitada será la aplicabilidad del modelo.

Cuanto mayor sea el tamaño de la muestra (n), más se atenúa la eventual no gaussianidad.

Page 17: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Distribución de los residuosLa suposición de varianza constante implica que la distribución condicionada a x constante, no depende de x.

Page 18: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Estimación de la varianza de los residuos

En el ejemplo: se2 =0 .18

se2=

1n-2∑

1

n

ei2−

pero ∑1

n

e i=0se2=

1n-2∑

1

n

ei2−

1n ∑

1

n

e i 2

Distribución de los residuos

Page 19: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Distribución de los residuos

∑1

n

x i2−n { x2

SSR =∑1

n

[ y xi − y ]2= b2 [¿ ]

SST =∑1

n

y i - { y 2=∑1

n

y i2− n { y ¿2¿ suma de cuadrados total

suma de cuadrados dada por la regresión (es bueno que se acerque a SST)

suma de cuadrados de los residuos

Se cumple: SST = SSR + SSE

En el ejemplo anterior:SST = 72.47 (ºC)2

SSR = 62.49 (ºC)2

SSE = 9.98 (ºC)2

SSE =∑1

n

e i2

Page 20: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Tabla ANOVA

F=MSR/MSE

MSE=se2SSEn-2Residuos

MSR=SSR/1SSR1Regresión

SSTn- 1Total

Media cuadrática

Suma de cuadrados

Grados de libertad

(ANOVA = Análisis de varianza)

Page 21: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Tabla ANOVA

F=MSR/MSE= 347.2

MSE=se2 =0.18SSE=9.9856Residuos

MSR=SSR/1=62.49

SSR=62.491Regresión

SST=72.4757Total

Media cuadrática

Suma de cuadrados

Grados de libertad

Para el ejemplo:

Page 22: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

1) (da un promedio de la exactitud del ajuste; lo ideal sería MSE=0)

MSE = se2

R2= SSRSST

=1− SSESST

Bondad del ajuste

Hay 3 indicadores usuales para la bondad de ajuste:

2) Coeficiente de determinación: en el peor caso vale 0, en el mejor, vale 1.

3) El estadístico F=MSR/MSE (es mayor cuanto mejor es el ajuste)

En el ejemploR2 = 0.86

Page 23: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

En general, cuanto más cercano a 0 esté el coeficiente angular b, menos información aporta la regresión lineal o, de otra forma, más débil es la relación entre x e y.

Bondad del ajuste

Page 24: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Análisis de los residuos

Page 25: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Análisis de los residuos (para el ejemplo)

OK

Page 26: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Distribución muestral de

coeficientes de la regresión

Los estimadores de a y b son insesgados y, en las hipótesis hechas, sus distribuciones son gaussianas, siendo sus desviaciones estándar respectivas:

∑1

n

x i2

n∑1

n

x i - { x 2

σa= se [¿ ]1/2

∑1

n

x i - { x 2

σb=se

[¿ ]1/2

y

Sin embargo, como se es una estimación, para las pruebas de hipótesis hay que usar la distribución t de Student con n-2 grados de libertad.

Page 27: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Distribución muestral de coeficientes de la regresión

t =b - 0

se/∑1n

x i - { x 2 ¿

Por ejemplo, para hacer una prueba en que la hipótesisnula sea H0: b = 0, contra la hipótesis H1: b ≠ 0 ,

observamos que el estadístico

en la hipótesis nula sigue una distribución t de Student con n-2

grados de libertad.

En nuestro ejemplo, obtenemos: t = 18.7 , que, con 56 grados

de libertad, ,es muy significativa (a menos del 0.1%), por lo

que se rechaza la hipótesis nula.No hay que olvidar que los datos pueden no ser

independientes

Page 28: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Puede interesar hallar intervalos de confianza para siendo x0 un valor cualquiera, independiente de losutilizados para construir el modelo.

Intervalos de confianza de la predicción

11n

x0 - { x 2

∑1

n

x i - { x 2

s y2=se

2 [¿¿ ]

y x 0

yDebido a la incertidumbre en la estimación de y de b, la varianza es mayor que se

2 :

Page 29: Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Composites Regresión lineal.

Intervalos de confianza de la predicción

y x0 ±t1p

2se1

1n

x0 - { x 2

∑1

n

x i - { x 2¿¿

No son rectas!