Estadística Descriptiva: 4. Correlación y Regresión Lineal

Post on 03-Jan-2016

140 views 3 download

description

Estadística Descriptiva: 4. Correlación y Regresión Lineal. Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María. Obtener información desde una muestra, que permita entender o formular hipótesis acerca del fenómeno que se estudia. Tipos de Análisis: - PowerPoint PPT Presentation

Transcript of Estadística Descriptiva: 4. Correlación y Regresión Lineal

Estadística Descriptiva:4. Correlación y Regresión Lineal

Ricardo Ñanculef AlegríaUniversidad Técnica Federico Santa María

Estadística Descriptiva Objetivo

• Obtener información desde una muestra, que permita entender o formular hipótesis acerca del fenómeno que se estudia.

• Tipos de Análisis:

• Describir cómo se comporta una variable• Describir cómo una variable (digamos explicativa) afecta el comportamiento de a otra (digamos dependiente)• Describir cómo interaccionan varias variables

Estadística Descriptiva Correlación en Análisis Bivariado• Correlación: Medida cuantitativa del grado de asociación entre dos variables X e Y continuas

• Idea: Si X e Y están correlacionadas un cambio en X se corresponde con un cambio en Y y viceversa.

• Si un incremento en X genera un incremento en Y diremos que las variables están correlacionadas positivamente. En caso contrario diremos que están correlacionadas negativamente.

Estadística Descriptiva Correlación en Análisis Bivariado• Ejemplo: Columna del New York Times

Estadística Descriptiva Correlación en Análisis Bivariado• Covarianza: La idea es medir los cambios con respecto al nivel medio de cada variable

• Claramente generaliza la varianza: cov(x,x)• Problema: la medida depende de las magnitudes absolutas de x e y. Una mayor covarianza no significa mayor asociación

)()(1

),cov(1

yyxxn

yx i

n

ii

Estadística Descriptiva Correlación en Análisis Bivariado• Coeficiente de Correlación de Pearson: La idea es normalizar la covarianza con una medida de dispersión para X y para Y

• Medida acotada entre -1 y 1 (probarlo! se sigue de la desigualdad de Cauchy-Schwarz para productos puntos)

yxxy σσ

yxρ

),cov(

yyxxyx ,,, 2

Estadística Descriptiva Correlación en Análisis Bivariado• Observación: Si x e y tienen una relación lineal exacta

la correlación de Pearson es igual al signo de a

baxy

baxy ii bxay

)()(1

),cov(1

xaaxxxn

yx i

n

ii

)var(),cov( xayx

Estadística Descriptiva Correlación en Análisis Bivariado• Observación: Si x e y tienen una relación lineal exacta

la correlación de Pearson es igual al signo de a

baxy

baxy ii bxay

n

ii

n

ii xaax

nyy

ny

1

2

1

2 )(1

)(1

)var(

)var()var( 2 xay

Estadística Descriptiva Correlación en Análisis Bivariado• Observación: Si x e y tienen una relación lineal exacta

la correlación de Pearson es igual al signo de a

baxy

baxy ii bxay

)()var(),cov(

asignσσaxa

σσyx

ρxxyx

xy

Estadística Descriptiva Correlación en Análisis Bivariado• Correlación positiva (Pearson)

0xyρ

Estadística Descriptiva Correlación en Análisis Bivariado• Correlación negativa (Pearson)

0xyρ

Estadística Descriptiva Correlación en Análisis Bivariado• Correlación nula (Pearson)

0xyρ

Estadística Descriptiva Correlación en Análisis Bivariado• Limitaciones del Coeficiente de Pearson

81.0ρ

5.7Y12.4Yσ

Estadística Descriptiva Correlación en Análisis Bivariado• Limitaciones del Coeficiente de Pearson

81.0ρ

5.7Y12.4Yσ

Estadística Descriptiva Correlación en Análisis Bivariado• Limitaciones del Coeficiente de Pearson

81.0ρ

5.7Y12.4Yσ

Estadística Descriptiva Correlación en Análisis Bivariado• Limitaciones del Coeficiente de Pearson

81.0ρ

5.7Y12.4Yσ

Estadística Descriptiva Regresión

• Modelo de una variable y como función de otra x

• x se denomina la variable independiente • y se denomina la variable dependiente• ε es el residuo, la parte que no logra ser explicada por el modelo (f será usualmente una función determinista)

εXfY )(

Estadística Descriptiva Regresión

• Modelo de una variable y como función de otra x

• A partir de una muestra de valores de x e y, queremos encontrar un modelo apropiado.

• Qué tipo de función f utilizar?• Cómo seleccionar un modelo adecuado en base a la muestra de observaciones?

εXfY )(

Estadística Descriptiva Regresión

• ¿Qué función f utilizar?: Una función periódica?

εXfY )(

)()( 01 axsenaxf

Estadística Descriptiva Regresión

• ¿Qué función f utilizar? un polinomio?

εXfY )(

01

12

2)( axaxaxf

Estadística Descriptiva Regresión

• ¿Qué función f utilizar? una exponencial?

εXfY )(

)exp()( 01 xaaxf

Estadística Descriptiva Regresión

• ¿Qué función f utilizar? una logística?

εXfY )(

)exp(1)exp(

)(0

0

xaxa

xf

Estadística Descriptiva Regresión

• Graficar la muestra de valores (x,y) y estudiar la forma de la posible relación

εXfY )(

x

y

x

y

Estadística Descriptiva Regresión Lineal

• Una alternativa simple consiste en modelar y como función lineal de x, es decir

εxfy )(

01)( bxbxf

x

y

Estadística Descriptiva Regresión Lineal

• Una alternativa simple consiste en modelar y como función lineal de x, es decir

εxfy )(

01)( bxbxf 0b

xyb /1

x

y

x

y

Estadística Descriptiva Regresión Lineal

• ¿Qué parámetros b0 y b1 son apropiados para modelar la relación entre x e y?• Supongamos que hemos conseguido una muestra de n pares de valores x e y:

niii yxS 1:),(

),(,),,(),,( 2211 nn yxyxyxS

Estadística Descriptiva Regresión Lineal

• Ejemplo:

¿El financiamiento entregado a la autoridad Palestina contribuye a mitigar el conflicto en la región?

Estadística Descriptiva Regresión Lineal• Variables: X: financiamiento entregado a la autoridad palestina. Y: número de homicidios el año siguiente.

• Muestra: Si medimos x e y en los últimos años tenemos:

X Y

1999 0 75

2000 50 250

2001 450 500

2002 375 275

2003 190 210

2004 300 240

2005 290 375

2006 610 600

Estadística Descriptiva Regresión Lineal

• Graficando X versus Y

x

y

Estadística Descriptiva Regresión Lineal

• Graficando X e Y en cada año

Estadística Descriptiva Regresión Lineal

• Variables: X: financiamiento entregado a la autoridad palestina. Y: número de homicidios el año siguiente.

• Modelo: Postulamos un modelo lineal

εxfy )(

01)( bxbxf

Estadística Descriptiva Regresión Lineal

• Ajustar el modelo lineal consiste en buscar parámetros b0 y b1 que hagan el modelo adecuado • Cada combinación de parámetros genera una predicción para el valor de y asociado a x

01)( bxbxfy

Estadística Descriptiva Regresión Lineal

• b0 = 10 y b1 = 1

10)( xxfy

X Y f(X) Y-f(X)

1999 0 75 10 65

2000 50 250 60 190

2001 450 500 460 40

2002 375 275 385 - 110

2003 190 210 200 10

2004 300 240 310 -70

2005 290 375 300 75

2006 610 600 620 -20

Estadística Descriptiva Regresión Lineal

• b0 = 50 y b1 = 0.5

505.0)( xxfy

X Y f(X) Y-f(X) Anterior

1999 0 75 50 25 65 -

2000 50 250 75 175 190 -

2001 450 500 275 225 40 +

2002 375 275 237 38 - 110 -

2003 190 210 145 65 10 +

2004 300 240 200 40 -70 -

2005 290 375 195 85 75 +

2006 610 600 355 245 -20 +

Estadística Descriptiva Regresión Lineal

• b0 = 50 y b1 = 0.75

5075.0)( xxfy

X Y f(X) Y-f(X) Anterior

1999 0 75 50 25 25 -

2000 50 250 87.5 162 175 -

2001 450 500 387.5 112 225 -

2002 375 275 331.25 -56.25 38 +

2003 190 210 192.5 17.5 65 -

2004 300 240 275 -35 40 -

2005 290 375 267 107.5 85 +

2006 610 600 507.5 92.5 245 -

Estadística Descriptiva Regresión Lineal

• Lo que necesitamos es definir una función de error y encontrar los parámetros b0 y b1 que la minimizan

• Propuesta: minimizar error cuadrático, 22 )(),( xfyyxl

2201

2 ),( εbxbyyxl

x

y

Estadística Descriptiva Regresión Lineal

• Dada la muestra de observaciones buscamos el modelo que minimiza el error promedio

Sx

iiSx

iiSii

xfyyxlR 2)(),(

x

y

Sx

iiSi

bxbyR 201

Estadística Descriptiva Regresión Lineal

• Si los paramétros b0 y b1 minimizan

• Se debe verificar

Sx

iiSi

bxbyR 201

00

bRS 0

1

bRS

0

21

2

01

210

2

20

2

bR

bbR

bbR

bR

SS

SS

0 SR

0H

Estadística Descriptiva Regresión Lineal

• Ecuaciones normales: derivando

Sxii

S

i

bxbybR

0010

0011

Sxiii

S

i

xbxbybR

Estadística Descriptiva Regresión Lineal

• Ecuaciones normales: reordenando y dividiendo por n

0010

bxbybRS

002

1

11

xbxxy

bR

ii

iii

S

n

b

n

Estadística Descriptiva Regresión Lineal

• Despejando b0 en la primera y reemplazando en la segunda

01211

xxbyxxyi

ii

iin

b

n

21

211xbxxyxy

ii

iii

n

b

n )var(),cov( 1 xbyx

)var(),cov(

1 xyx

b

Estadística Descriptiva Regresión Lineal

• Estimadores de Mínimos Cuadrados del Modelo Lineal para Y en función de X

)var(),cov(

1̂ xyx

b xbyb 10ˆˆ

xbbxfy 10ˆˆ)(

Estadística Descriptiva Regresión Lineal• En nuestro ejemplo anterior, variables: X: financiamiento entregado a la autoridad palestina. Y: número de homicidios el año siguiente.

• Muestra

X Y

1999 0 75

2000 50 250

2001 450 500

2002 375 275

2003 190 210

2004 300 240

2005 290 375

2006 610 600

125.283x625.315y

Estadística Descriptiva Regresión Lineal• Calculamos la varianza de la variable predictora y la covarianza entre las variables x e y

X Y

1999 0 75 -283.125 -240.625 80160

2000 50 250 -233.125 -65.625 54350

2001 450 500 166.875 184.375 27850

2002 375 275 91.875 -40.625 8440

2003 190 210 -93.125 -105.625 8670

2004 300 240 16.875 -75.625 280

2005 290 375 6.875 59.375 50

2006 610 600 326.875 284.375 10685

yy xx 2)( xx

Estadística Descriptiva Regresión Lineal• Tenemos entonces que

X Y

1999 0 75

2000 50 250

2001 450 500

2002 375 275

2003 190 210

2004 300 240

2005 290 375

2006 610 600

2648),cov( yx3583)var( x

.74090)var(

),cov(1̂

xyx

b

125.283x625.315y

105.8577ˆˆ10 xbyb

Estadística Descriptiva Regresión Lineal• Predicciones de nuestro modelo

X Y f(x)

1999 0 75 105.8501

2000 50 250 142.8964

2001 450 500 439.2672

2002 375 275 383.6977

2003 190 210 246.6262

2004 300 240 328.1281

2005 290 375 320.7189

2006 610 600 557.8155

xbbxfy 10ˆˆ)(

Estadística Descriptiva Regresión Lineal• Predicciones de nuestro modelo (magenta)

x

y

Estadística Descriptiva Regresión Lineal• ¿Cómo juzgar cuantitativamente qué tan bueno es el modelo?: Análisis de Varianza.

2:)(

ii yyyS variabilidad total de Y

22 ˆ i

iii

iS yyεR variabilidad NO explicada por el modelo

2ˆˆ)ˆ( i

ii yyyS variabilidad explicada por el modelo

Estadística Descriptiva Regresión Lineal• ¿Cómo juzgar cuantitativamente qué tan bueno es el modelo?: Análisis de Varianza.

2ˆˆ)ˆ( i

ii yyyS variabilidad explicada por el modelo

yxbbxbbn

yi

ii 1010ˆˆˆˆ1ˆ

2ˆ)ˆ( i

i yyyS

Estadística Descriptiva Regresión Lineal• ¿Cómo juzgar cuantitativamente qué tan bueno es el modelo?: Análisis de Varianza.

2:)(

ii yyyS variabilidad total de Y

22 ˆˆ)( i

ii

ii yyyyyS

variabilidad NO explicada por el modelo

variabilidad explicada por el modelo

Estadística Descriptiva Regresión Lineal• Coeficiente de Determinación: Fracción de la variabilidad que sí es explicada por el modelo lineal

)()ˆ(

ySyS

D variabilidad explicada por el modelovariabilidad total de Y

SRySyS

D

)ˆ(

)ˆ( variabilidad explicadavariabilidad explicada +

variabilidad NO explicada

Estadística Descriptiva Regresión Lineal• Coeficiente de Determinación: Fracción de la variabilidad que sí es explicada por el modelo lineal

2102 ˆˆˆ)ˆ(

ii

ii yxbbyyyS

211ˆˆ)ˆ(

ii xbxbyS

xbyb 10ˆˆ

)var(ˆˆ)ˆ( 21

221 xnbxxbyS

ii

Estadística Descriptiva Regresión Lineal• Coeficiente de Determinación: Fracción de la variabilidad que sí es explicada por el modelo lineal

)var()var(ˆ

)()ˆ( 2

1

ynxnb

ySyS

D

)var()var(ˆ2

1

yxb

D

Estadística Descriptiva Regresión Lineal• Coeficiente de Determinación: Fracción de la variabilidad que sí es explicada por el modelo lineal

)var()var(

),(cov)var(

)var(ˆ 221

yxyx

yxb

D

)var(

),cov(1̂ x

yxb

22

)var()var(),(cov

xyρyx

yxD

yxxy σσ

yxρ

),cov( Coeficiente de correlación

de Pearson!!

Estadística Descriptiva Regresión Lineal• Transformaciones

x

y Cómo ajustar un modelo lineal sobre estas observaciones?