MAT-032: Correlación y Regresión lineal

35
MAT-032: Correlaci´ on y Regresi´ on lineal Felipe Osorio fosorios.mat.utfsm.cl Departamento de Matem´ atica, UTFSM 1 / 35

Transcript of MAT-032: Correlación y Regresión lineal

Page 1: MAT-032: Correlación y Regresión lineal

MAT-032: Correlacion y Regresion lineal

Felipe Osorio

fosorios.mat.utfsm.cl

Departamento de Matematica, UTFSM

1 / 35

Page 2: MAT-032: Correlación y Regresión lineal

Correlacion: Midiendo asociacion lineal

●●

●●

●●●

●●

● ●

●●

●●●

● ●

● ●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

● ●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●●

●●

● ●

●●

●●●

●● ●

● ●●

●●

●●

●●

●●●

●●

●●

● ●

●●

● ●

●●

●●

●●●

●●

●●

●●

● ●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●●

●●

●●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●●

●●

●●

−4 −2 0 2 4

−4−2

02

4

x

y

r = 0.0

(a) r = 0.000

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0

x

y

r = 0.058

(b) r = 0.058

●●●●

●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●

●●●●●●●●●●●●

●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●

●●●●●

●●●

0.0 0.5 1.0 1.5 2.0

−1.0

−0.5

0.0

0.5

1.0

x

y

r = −0.033

(c) r = �0.033

−15 −10 −5 0 5 10 15

−15

−10

−50

510

x

y

r = 0.000

(d) r = 0.0002 / 35

Page 3: MAT-032: Correlación y Regresión lineal

Correlacion: Midiendo asociacion lineal

●●

● ●

●●●

●●

●●

●●

●●

●●

●●●

● ●

●●

●●

● ●●

●●

●●●

●●

●●

●●

●●

● ●●

●●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

● ●

● ●

●●

●●

● ●

●●

● ●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●●

● ●

●●

●●

●●

●●

●●

● ●

● ●

●●●

●●

●●

●●

●●

● ●●

●●

●●

● ●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

−4 −2 0 2 4

−4−2

02

4

x

y

r = 0.3

(a) r = 0.30

●●

●●

●●

●● ●●

●●

●●

●●

●●

●●

●●

●●

●●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●●

●●

● ●

● ●

●●

●●

● ●

●●

●●

● ●

●●

● ●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

● ●●

●●

●●●

●●

● ●

●●

●●

−4 −2 0 2 4

−4−2

02

4

x

y

r = 0.5

(b) r = 0.50

●●

●●

●●

●●

●●

●●●●

●●

●●●

●●

●●●

● ●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●●

● ●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●●

●●

●●

● ●

● ●● ●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

●● ●●

●●

●●

●●

●●

● ●

●●

●●

−4 −2 0 2 4

−4−2

02

4

x

y

r = 0.7

(c) r = 0.70

●●

●● ●

● ●

●●●

●●

●●

●●

●●

● ●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●● ●

● ●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

● ●

●●

●●

● ●

●●

●●

●●●

●●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

−4 −2 0 2 4

−4−2

02

4

x

y

r = 0.9

(d) r = 0.90

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●●

●●●

●●

● ●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

● ●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●●

●●

●●

●●

●●

●●

●●●

● ●

●● ●

●●

● ●

●●

● ●

−4 −2 0 2 4

−4−2

02

4

x

y

r = −0.85

(e) r = �0.85

●●

●●

●●

●●

●●

●●

−4 −2 0 2 4

−4−2

02

4

x

y

r = −1.00

(f) r = �1.00

3 / 35

Page 4: MAT-032: Correlación y Regresión lineal

Covarianza

Definicion 1 (Covarianza):

Para el conjunto (x1, y1), . . . , (xn, yn), se define la covarianza como una medida devariabilidad conjunta de dos variables cuantitativas, como:

cov(x,y) =1

n� 1

nX

i=1

(xi � x)(yi � y).

Observacion:

Evidentemente, cov(x,x) = var(x) = s2x.

4 / 35

Page 5: MAT-032: Correlación y Regresión lineal

Propiedades de la covarianza

Propiedades:

(a)nX

i=1

(xi � x)(yi � y) =nX

i=1

xiyi � nx y.

(b)cov(ax+ b, cy + d) = ac cov(x,y).

5 / 35

Page 6: MAT-032: Correlación y Regresión lineal

Correlacion

Definicion 2 (Correlacion):

La correlacion entre x = (x1, . . . , xn)> e y = (y1, . . . , yn)> es la covarianza de susversiones estandarizadas. Es decir,

cor(x,y) =1

n� 1

nX

i=1

⇣xi � x

sx

⌘⇣yi � y

sy

=

Pni=1(xi � x)(yi � y)

pPni=1(xi � x)2

Pni=1(yi � y)2

=cov(x,y)

pvar(x) var(y)

.

Observacion:

cor(x,y) es una medida adimensional.

6 / 35

Page 7: MAT-032: Correlación y Regresión lineal

Propiedades de la correlacion

Propiedades:

(a)cor(ax+ b, cy + d) = ± cor(x,y).

(b)var(x+ y) = var(x) + var(y) + 2 cov(x,y).

(c){cor(x,y)}2 1.

Observacion:

I Evidentemente, �1 cor(x,y) 1.

I Cuando cor(x,y) = 0, diremos que x e y son no correlacionados.

7 / 35

Page 8: MAT-032: Correlación y Regresión lineal

Correlacion

Definicion 3 (Coeficiente de correlacion de Spearman):

Suponga los datos pareados (x1, y1), . . . , (xn, yn). Sea Ri, Si los rangos de xi e yi,respectivamente (i = 1, . . . , n). Entonces el coeficiente de correlacion de Spearmanes dado por

rS =

Pni=1(Ri �R)(Si � S)

qPni=1(Ri �R)2

Pni=1(Si � S)2

.

Observacion:

Sea

D =nX

i=1

(Ri � Si)2,

y suponga que no existen empates entre los x’s e y’s, entonces podemos escribir

rS = 1�6D

n2 � 1.

8 / 35

Page 9: MAT-032: Correlación y Regresión lineal

Ejemplo: Distorsiones de Lenna1

(a) r = 1.000 (b) r = 0.903 (c) r = 0.991

(d) r = 0.915 (e) r = 0.983 (f) r = 0.799

1(a) Original, (b) sal y pimienta, (c) filtro mediana, (d) ruido speckle, (e) filtro Lee,(f) imagen saturada.

9 / 35

Page 10: MAT-032: Correlación y Regresión lineal

Ejemplo: Distorsiones de Lenna

> library(SpatialPack)# https://github.com/faosorios/SSIM/blob/master/data/lena.rda> load("lena.rda") # carga datos de Lena

# aplica distorsiones y filtros> lena .05 <- clipping(lena , low = 0.5) # saturaci on> lena.sp <- imnoise(lena , type = "saltnpepper")> lena.speckle <- imnoise(lena , type = "speckle")> lena.med <- denoise(lena.sp , type = "median") # filtro mediana> lena.lee <- denoise(lena.speckle , type = "Lee") # filtro de Lee

# calculando correlaciones> x <- as.vector(lena) # 262144 observaciones> cor(x, x)[1] 1> cor(x, as.vector(lena .05))[1] 0.7997093> cor(x, as.vector(lena.sp))[1] 0.9028631> cor(x, as.vector(lena.med))[1] 0.9907281> cor(x, as.vector(lena.speckle ))[1] 0.9154696> cor(x, as.vector(lena.lee))[1] 0.9829129

10 / 35

Page 11: MAT-032: Correlación y Regresión lineal

Datos de Flores Iris (Anderson, 1935; Fisher, 1936)

(a) setosa (b) versicolor

(c) virginica

11 / 35

Page 12: MAT-032: Correlación y Regresión lineal

Datos de Flores Iris (Anderson, 1935; Fisher, 1936)

Edgar Anderson's Iris Data

Scatter Plot Matrix

Sepal.Length

7

87 8

5

6

5 6●

●●●

●●

● ●

●● ●

●●

●●

●●

●●

●●

● ●

● ●

●●

●● ●

●●

●●

●●

●●

● ●

●●●

●●

●●●

● ●●

●●

●●

● ●

●●

●●

● ●

●●

●●●

●●

●●●

●●●

●●

●●●●

●●

●●

●●●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●●

●●

● ●

●● ●●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●● ●

●●●

●●

●●●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●●

●●

●●

● ●●

●●

●●

● ●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●● ●

●●● ●

● ●●

●●

●●

●●

●●●

●●

●Sepal.Width

3.5

4.0

4.53.5 4.0 4.5

2.0

2.5

3.0

2.0 2.5 3.0

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●●

●●● ●

● ●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●●

●●

●●

●●●

●●

●●

●●

● ●●

●●

●●●● ●

●● ●● ● ●●●

● ●●

●●●

●●

●●●●●●

●● ●● ●●● ●●●●●●●●●

●●

● ●●

●●

●●●

●●

●●

●●●

●●

●●●●

●●●

● ●●

●●●●

●●● ●

●●●

●●

●●

●●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●● ●● ●

●●●● ● ●●

●● ●

●●●

●●

●●

●●

● ●●●●● ● ●●●● ●●●

●●● ●●

●●

● ●●

●●

●●●

●●

●●

●●●

●●●●

●●

●●●

● ●●

●●●

●●

● ●●●

●●●

●●

●●

● ●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

Petal.Length4567

4 5 6 7

1234

1 2 3 4 ●●●●●

●●●●●●

●●●●

●●●

●●

●●

●●● ●●●●● ●●●●●●

●●●●●●

●●

●●●●●

●●●

●●●

●●

●●

●●●

●●●●●

●●●●

●●●

●●●

●●

●●●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●● ●

●●

●●●

●●●●

●●● ●●

●●

●●●●

●●●● ●

●● ●

●●●

●●

●● ●●

●● ●

●●

●●

●●

●●●●

●●●

●●

●●

●●●●

●●● ●

●●

●●●

●●

●●

●●

●●

● ●

●●●

●●

●●

●●

●●

●●

●●

●● ●● ●

●●●●

●●●

●●●

●●● ●●

●●

●●●●

●●●● ●

●● ●

●●●

●●

●● ●●

●●●

●●

●●

●●

●●●●

●●●

●●

●●

● ●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●●●●

●●●●●●●●●

●●●●●●

●●

●●●●

●●●●●●●●●●●

●●●●●●

●●●

●●

●●

●●

●●●●

●●●

●●●●

●●●●

●●●●

●●

●●●

●●

●●

●●

●●

● ●

●●●

●●

●●

●●

●●

●●

●●

Petal.Width1.5

2.0

2.51.5 2.0 2.5

0.0

0.5

1.0

0.0 0.5 1.0

12 / 35

Page 13: MAT-032: Correlación y Regresión lineal

Estadıstica descriptiva multivariada

Deseamos estudiar p variables (caracterısticas) de interes asociadas a una muestraaleatoria x1, . . . ,xn donde cada xi = (xi1, . . . , xip)> es un vector p-dimensional.

Podemos disponer la informacion en una matriz

X =

0

BBB@

x11 x12 . . . x1p

x21 x22 . . . x2p

......

...xn1 xn2 . . . xnp

1

CCCA=

0

BBB@

x>1

x>2...

x>n

1

CCCA.

13 / 35

Page 14: MAT-032: Correlación y Regresión lineal

Estadıstica descriptiva multivariada

Analogamente a la media y varianza muestrales x y s2, podemos definir suscontrapartes multivariadas como:

x =1

n

nX

i=1

xi,

S =1

n� 1

nX

i=1

(xi � x)(xi � x)>.

que representan el vector de medias y la matriz de covarianza, respectivamente.

Observacion:

En este caso, tenemos S = (sij), donde

sij =1

n� 1

nX

k=1

(xki � xi)(xkj � xj),

con xi =�Pn

k=1 xki�/n.

14 / 35

Page 15: MAT-032: Correlación y Regresión lineal

Estadıstica descriptiva multivariada

Los elementos anteriores permiten definir la matriz de correlacion entre las p variables,como:

R = (rij)

donde

rij =

Pnk=1(xki � xi)(xkj � xj)pPn

k=1(xki � xi)2Pn

k=1(xkj � xj)2=

sijpsiisjj

.

Observacion:

Defina D = diag(s11, s22, . . . , spp), de este modo, podemos definir

R = D�1/2SD�1/2.

15 / 35

Page 16: MAT-032: Correlación y Regresión lineal

Datos de Flores Iris (Anderson, 1935; Fisher, 1936)

Datos observados:

Mediciones (cm) del largo y ancho de los sepalos y el largo y ancho de petalos para 50flores desde 3 especies de Iris (setosa, virginica y versicolor).

Base de datos:

# Datos de flores Iris> iris

Sepal.Length Sepal.Width Petal.Length Petal.Width Species1 5.1 3.5 1.4 0.2 setosa2 4.9 3.0 1.4 0.2 setosa3 4.7 3.2 1.3 0.2 setosa4 4.6 3.1 1.5 0.2 setosa5 5.0 3.6 1.4 0.2 setosa...

149 6.2 3.4 5.4 2.3 virginica150 5.9 3.0 5.1 1.8 virginica

16 / 35

Page 17: MAT-032: Correlación y Regresión lineal

Datos de Flores Iris (Anderson, 1935; Fisher, 1936)

Matriz de Correlacion (R):

Largo Sepalo Ancho Sepalo Largo Petalo Ancho PetaloLargo Sepalo 1.000 -0.118 0.872 0.818Ancho Sepalo -0.118 1.000 -0.428 -0.366Largo Petalo 0.872 -0.428 1.000 0.963Ancho Petalo 0.818 -0.366 0.963 1.000

Calculo en R:

> cor(iris [ ,1:4])Sepal.Length Sepal.Width Petal.Length Petal.Width

Sepal.Length 1.0000 -0.1176 0.8718 0.8179Sepal.Width -0.1176 1.0000 -0.4284 -0.3661Petal.Length 0.8718 -0.4284 1.0000 0.9629Petal.Width 0.8179 -0.3661 0.9629 1.0000

17 / 35

Page 18: MAT-032: Correlación y Regresión lineal

Datos de Flores Iris (Anderson, 1935; Fisher, 1936)

Se obtuvo ademas el vector de medias (x) y la matriz de Covarianza (S):2

> z <- cov.wt(iris [ ,1:4])> z$cov

Sepal.Length Sepal.Width Petal.Length Petal.WidthSepal.Length 0.6856935 -0.0424340 1.2743154 0.5162707Sepal.Width -0.0424340 0.1899794 -0.3296564 -0.1216394Petal.Length 1.2743154 -0.3296564 3.1162779 1.2956094Petal.Width 0.5162707 -0.1216394 1.2956094 0.5810063

$centerSepal.Length Sepal.Width Petal.Length Petal.Width

5.843333 3.057333 3.758000 1.199333

$n.obs[1] 150

2Analogamente podemos usar cov(iris[,1:4]).18 / 35

Page 19: MAT-032: Correlación y Regresión lineal

Objetivo del analisis de regresion

Estudiar una variable de respuesta, y [asuminda continua] como funcion de unavariable explicativa o regresor, x [puede ser discreta y/o continua].

Entrada ! Proceso ! Salida

En ocasiones la relacion funcional es conocida salvo algunos coeficientes (parametros).

Es decir, la relacion es gobernada por un proceso fısico o por leyes bien aceptadas

y ⇡ f(x;✓),

en cuyo caso, el interes recae en estimar el vector de parametros ✓ = (↵,�)>.

19 / 35

Page 20: MAT-032: Correlación y Regresión lineal

Datos de Forbes

Presion barometrica en pulgadas de mercurio y temperatura de ebullicion del agua engrados Fahrenheit para 17 diferentes altitudes.

●●

●●

●●●●

●●

195 200 205 210

2224

2628

30

Temperatura

Pres

ión

baro

mét

rica

20 / 35

Page 21: MAT-032: Correlación y Regresión lineal

Datos de Forbes

Para describir la relacion entre la temperatura y la media de la presion barometrica,podemos considerar

yi = ↵+ �xi + ✏i, i = 1, . . . , n,

El conjunto de datos consiste del vector de respuestas.

y = (y1, . . . , yn)>,

y una matriz de diseno n⇥ 2

X =

0

B@

1 x1

......

1 xn

1

CA .

21 / 35

Page 22: MAT-032: Correlación y Regresión lineal

Regresion lineal (simple)

Deseamos hallar ↵ y � tal que produzcan el mejor ajuste a los datos3. En este cursousaremos el metodo de mınimos cuadrados ordinarios, dado por

min✓

S(✓),

con ✓ = (↵,�)> y

S(✓) =nX

i=1

(yi � ↵� �xi)2 =

nX

i=1

✏2i

Observacion:

La funcion S(✓) es conocida como suma de cuadrados de los errores.

3Es decir, deseamos obtener estimadores para ↵ y �22 / 35

Page 23: MAT-032: Correlación y Regresión lineal

Regresion lineal (simple)

Usando el metodo de minimos cuadrados obtenemos:

b↵ = y � b�x,

b� =

Pni=1(xi � x)(yi � y)Pn

i=1(xi � x)2=

cov(x,y)

var(x).

La recta de regresion es dada por:

byi = b↵+ b�xi, i = 1, . . . , n,

y llamamos a byi es valor predicho (o valor ajustado). Ademas,

ei = yi � byi = yi � b↵+ b�xi, i = 1, . . . , n,

es conocido como el i-esimo residuo.

23 / 35

Page 24: MAT-032: Correlación y Regresión lineal

Regresion lineal (simple)

Una medida de variabilidad es dada por:

s2 =1

n� 2

nX

i=1

(yi � b↵� b�xi)2 =

1

n� 2

nX

i=1

(yi � byi)2.

Mientras que

R2 =

Pni=1(byi � y)2

Pni=1(yi � y)2

,

se denomina coeficiente de determinacion.4

Interpretacion:

R2 es la varianza de los datos que puede ser explicada por el modelo.

4permite medir la calidad (bondad) del ajuste24 / 35

Page 25: MAT-032: Correlación y Regresión lineal

Regresion lineal (simple)

Es posible notar que (cuando el modelo tiene intercepto):

R2 = 1�RSS

s2DATOS

,

con

RSS =nX

i=1

(yi � byi)2, s2DATOS =nX

i=1

(yi � y)2.

Interpretacion:

En efecto, 0 R2 1 permite medir la calidad (o bondad) del ajuste.

25 / 35

Page 26: MAT-032: Correlación y Regresión lineal

Datos de Forbes

> library(MASS)> data(forbes) # disponibiliza los datos en la sesi on

> forbesbp pres

1 194.5 20.792 194.3 20.793 197.9 22.404 198.4 22.675 199.4 23.156 199.9 23.357 200.9 23.898 201.1 23.999 201.4 24.0210 201.3 24.0111 203.6 25.1412 204.6 26.5713 209.5 28.4914 208.6 27.7615 210.7 29.0416 211.9 29.8817 212.2 30.06

26 / 35

Page 27: MAT-032: Correlación y Regresión lineal

Datos de Forbes

# ajuste de un modelo de regresi on> fm <- lm(pres ~ bp, data = forbes)

# salida:> fm

Call:lm(formula = pres ~ bp, data = forbes)

Coefficients:(Intercept) bp

-81.0637 0.5229

# residuos y valores ajustados> res <- residuals(fm)> fit <- fitted(fm)

# otra forma de calcular R^2> cor(fit , forbes$pres )^2[1] 0.9944282

27 / 35

Page 28: MAT-032: Correlación y Regresión lineal

Datos de Forbes

# salida un poco mas extensa> summary(fm)

Call:lm(formula = pres ~ bp, data = forbes)

Residuals:Min 1Q Median 3Q Max

-0.25717 -0.11246 -0.05102 0.14283 0.64994

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -81.06373 2.05182 -39.51 <2e-16 ***bp 0.52289 0.01011 51.74 <2e-16 ***

Residual standard error: 0.2328 on 15 degrees of freedomMultiple R-squared: 0.9944 , Adjusted R-squared: 0.9941F-statistic: 2677 on 1 and 15 DF, p-value: < 2.2e-16

28 / 35

Page 29: MAT-032: Correlación y Regresión lineal

Datos de Forbes

●●

●●

●●●●

●●

195 200 205 210

2224

2628

30

Temperatura

Pres

ión

(a) recta ajustada

● ●

●●●

195 200 205 210

−0.2

0.0

0.2

0.4

0.6

Temperatura

Res

iduo

s

12

(b) residuos vs. ajuste

29 / 35

Page 30: MAT-032: Correlación y Regresión lineal

Datos de Forbes

Ahora consideramos el modelo

100⇥ log10(Presioni) = ↵+ �Temperaturai + ✏i,

para i = 1, . . . , n.

Se obtuvo (usando funcion lm de R)

b� = (�42.1378, 0.8955)> y s2 = 0.1438

Ademas, R2 = 0.9950.

30 / 35

Page 31: MAT-032: Correlación y Regresión lineal

Datos de Forbes

# modelo con datos transformados> f1 <- lm(100 * log10(pres) ~ bp , data = forbes)

> summary(f1)

Call:lm(formula = 100 * log10(pres) ~ bp , data = forbes)

Residuals:Min 1Q Median 3Q Max

-0.31974 -0.14707 -0.06890 0.01877 1.35994

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -42.16418 3.34136 -12.62 2.17e-09 ***bp 0.89562 0.01646 54.42 < 2e-16 ***

Residual standard error: 0.3792 on 15 degrees of freedomMultiple R-squared: 0.995 , Adjusted R-squared: 0.9946F-statistic: 2962 on 1 and 15 DF, p-value: < 2.2e-16

31 / 35

Page 32: MAT-032: Correlación y Regresión lineal

Datos de Forbes

Recta de regresion y grafico de residuos para los datos de Forbes5.

●●

●●

●●●●

●●

195 200 205 210

135

140

145

Temperatura

log(

pres

ión)

(a) recta ajustada

● ●

● ●

●●

●●

195 200 205 2100.

00.

51.

0

Temperatura

Res

iduo

s

12

(b) residuos vs. ajuste

5datos transformados32 / 35

Page 33: MAT-032: Correlación y Regresión lineal

Cuarteto de regresiones “identicas” de Anscombe (1973)

●●

5 10 15 20

46

810

12

x

y

(a)

●●●

5 10 15 20

46

810

12

x

y

(b)

5 10 15 20

46

810

12

x

y

(c)

●●

5 10 15 20

46

810

12

x

y

(d)

33 / 35

Page 34: MAT-032: Correlación y Regresión lineal

Cuarteto de regresiones “identicas” de Anscombe (1973)

●●

●●

6 8 10 12

−2−1

01

23

Valores predichos

Res

iduo

s

(a)

●●

6 8 10 12

−2−1

01

23

Valores predichos

Res

iduo

s

(b)

6 8 10 12

−2−1

01

23

Valores predichos

Res

iduo

s

(c)

6 8 10 12

−2−1

01

23

Valores predichos

Res

iduo

s

(d)

34 / 35

Page 35: MAT-032: Correlación y Regresión lineal

Cuarteto de regresiones “identicas” de Anscombe (1973)

Observaciones:

I Para el cuarteto de regresiones de Anscombe se obtiene (para todos los modelos):

b↵ = 3.001, b� = 0.500, s2 = 1.528, R2 = 0.666, F = 17.97, p = 0.002

confiar solamente en medidas globales puede ser enganoso.

I En efecto, note quenX

i=1

ei = 0,nX

i=1

eibyi = 0,

de modo que el grafico de dispersion de residuos vs. valores predichos no deberıapresentar algun comportamiento sistematico.

I Es recomendable realizar un analisis de residuos o de diagnostico.6

6Cook, R.D., Weisberg, S. (1982). Residuals and Influence in Regression, Chapman andHall, New York.

35 / 35