Regresión lineal

27
1 Tema: Correlación y Regresión Lineal. Docente: Lic. Denís Leonor Mendoza Rivas ESTADÍSTICA I

Transcript of Regresión lineal

Page 1: Regresión lineal

1

Tema: Correlación y Regresión Lineal.

Docente: Lic. Denís Leonor Mendoza Rivas

ESTADÍSTICA I

Page 2: Regresión lineal

2

DIAGRAMA DE DISPERSIÓN O NUBE DE PUNTOS

La primera forma de describir una distribución bidimensional es representar los pares de valores (x, y) en el plano cartesiano. El gráfico obtenido recibe el nombre de nube de puntos o diagrama de dispersión.

Altura en cm

. 162 154 180 158 171 169 166 176 163

Peso en Kg. 61 60 78 62 66 60 54 84 68

Page 3: Regresión lineal

3

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Diagramas de dispersión o nube de puntos

Mid

e 18

7 cm

.

Mide 161 cm.

Pesa 76 kg.

Pesa 50 kg.

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.

Page 4: Regresión lineal

4

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Relación entre variables.

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.

Parece que el peso aumenta con la altura

Page 5: Regresión lineal

5

Incorrelación

30

80

130

180

230

280

330

140 150 160 170 180 190 200

Relación directa e inversa

Fuerte relacióndirecta.

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Cierta relacióninversa

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

Para valores de X por encima de la media tenemos valores de Y por encima y por debajo en proporciones similares. Incorrelación.

Para los valores de X mayores que la media le corresponden valores de Y menores. Esto es relación inversa o decreciente.

•Para los valores de X mayores que la media le corresponden valores de Y mayores también.

•Para los valores de X menores que la media le corresponden valores de Y menores también.

•Esto se llama relación directa.

Page 6: Regresión lineal

6

La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos variables es directa o inversa. Directa: Sxy >0

Inversa: Sxy <0

Incorreladas: Sxy =0

El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables.

Covarianza de dos variables X e Y

))((1

yyxxn

S ii

ixy −−= ∑

Page 7: Regresión lineal

7

Coef. de correlación lineal de Pearson

La coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).

tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relación sea directa o inversa.

r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica,...)

yx

xy

SS

Sr =

Page 8: Regresión lineal

8

Es adimensional Sólo toma valores en [-1,1] Las variables son incorreladas r=0 Relación lineal perfecta entre dos variables r=+1 o r=-1

Excluimos los casos de puntos alineados horiz. o verticalmente. Cuanto más cerca esté r de +1 o -1 mejor será el grado de

relación lineal. Siempre que no existan observaciones anómalas.

Propiedades de r

-1 +10

Relación inversa perfecta

Relación directa

casi perfecta

Variables incorreladas

Page 9: Regresión lineal

9

Entrenando el ojo: correlaciones positivas

r=0,1

30

80

130

180

230

280

330

140 150 160 170 180 190 200

r=0,4

30405060708090

100110120130

140 150 160 170 180 190 200

r=0,8

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

r=0,99

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Page 10: Regresión lineal

10

Entrenando el ojo: correlaciones negativas

r=-0,5

0

10

20

30

40

50

60

70

80

90

140 150 160 170 180 190 200

r=-0,7

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

r=-0,95

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

r=-0,999

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

Page 11: Regresión lineal

11

Animación: Evolución de r y diagrama de dispersión

Page 12: Regresión lineal

12

coeficiente o índice de correlación de Pearson (r):

Para medir la correlación lineal simple utilizaremos el coeficiente o índice de correlación de Pearson (r):

( ) ( )2 22 2*

xy

x y

S n xy x yrS S n x x n y y

−= =

− −

∑ ∑ ∑∑ ∑ ∑

Page 13: Regresión lineal

13

Regresión El análisis de regresión sirve para predecir una

medida en función de otra medida (o varias). Y = Variable dependiente

predicha explicada

X = Variable independiente predictora explicativa

¿Es posible descubrir una relación? Y = a + bX + eDonde: el error es aleatorio, pequeño, y no depende de X

Page 14: Regresión lineal

14

Encontramos a los siguientes parámetros:

“a” es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.

“b” es el coeficiente de regresión poblacional (pendiente de la línea recta), b Está expresado en las mismas unidades de Y por cada unidad de X. Indica el número de unidades en que varía Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresión). Un valor negativo de b sería interpretado como la magnitud del decremento en Y por cada unidad de aumento en X.

e es el error

Page 15: Regresión lineal

15

Interpretación del coeficiente de regresión b

El coeficiente b es la pendiente o el coeficiente de la regresión lineal. La constante a es la ordenada en el origen.

Si b >O, entonces, la tendencia lineal es creciente, es decir, a mayores valores de X corresponden mayores valores de Y. También, a menores valores de X corresponden menores valores de Y.

Si b < O, entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X corresponden menores valores de Y. También, a menores valores de X corresponden mayores valores de Y.

Si b = 0, entonces, Y = a. Luego, Y permanece estacionario para cualquier valor de X. En este caso se dice que, no hay regresión.

Page 16: Regresión lineal

16

NOTA. “b” también se interpreta es el cambio

promedio en Y = a + bX cuando X cambia una unidad. Esto es, si x¡ se incrementa 1, entonces y¡ se incrementa en promedio b unidades.

Page 17: Regresión lineal

17

Determinación De Los Parámetros De La Recta De Regresión A Y B

X

Y

Error= 2

2 4 6 8 10 12 14

108642

• •

Error= -6•

Línea de estimación

.

.Y

error = Y - iY

( )∑ 2

i Y - YMin

Page 18: Regresión lineal

18

Lo que lleva a los siguientes resultados:

22

( , )

( )i j i j

i i

n x y x yCov x yb

V x n x x

−= =

∑ ∑ ∑∑ ∑

a Y bX= −

Page 19: Regresión lineal

19

Coeficiente de determinación La medida de bondad de un ajuste de

regresión, también conocido como coeficiente de determinación r2, es el que determinará si la línea de regresión estimada es adecuada.

( ) ( )

2

2

2 22 2*

n xy x yr

n x x n y y

− = − −

∑ ∑ ∑∑ ∑ ∑

Page 20: Regresión lineal

20

Más sobre r2:

La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de determinación r2

r2 es una cantidad que sólo puede tomar valores en [0, 1].

Cuando un ajuste es bueno, r2 será cercano a uno. Cuando un ajuste es malo r2 será cercano a cero. A r2también se le denomina porcentaje de variabilidad

explicado por el modelo de regresión. r2 puede ser pesado de calcular en modelos de

regresión general, pero en el modelo lineal simple, la expresión es de lo más sencilla.

Page 21: Regresión lineal

21

CASO PRÁCTICO:

Generalmente cada peculiaridad en un hombre es compartida por sus descendientes, pero en un grado menor, por lo que tenemos la curiosidad en conocer si la estatura de los padres (X, cm) influye en la estatura de los hijos (Y, cm). Se ha recogido la altura de 60 varones, junto a las de su padre.

Estatura del Padre 180 160 165 181 177 165 176 154 187 174 196 170 170 180 173 182 174 154 165 196

Estatura del hijo 175 168 166 174 173 165 179 164 179 168 181 168 171 176 171 168 167 164 166 181

Page 22: Regresión lineal

22

En primer lugar debemos graficar el diagrama de dispersión

Observando los puntos vemos que ellos tienen una tendencia lineal.

Diagrama de dispersión del la estatura del padre y del hijo

160

170

180

190

145 155 165 175 185 195 205

Edad del Padre

Ed

ad

de

l Hijo

Page 23: Regresión lineal

23

En segundo lugar procederemos a estimar la recta de regresión lineal simple, para lo cual construiremos el siguiente cuadro:

Nº X Y X2 Y2 X*y

1 180 175 32400 30625 31500

2 160 168 25600 28224 26880

3 165 166 27225 27556 27390

4 181 174 32761 30276 31494

5 177 173 31329 29929 30621

6 165 165 27225 27225 27225

7 176 179 30976 32041 31504

8 154 164 23716 26896 25256

9 187 179 34969 32041 33473

10 174 168 30276 28224 29232

11 196 181 38416 32761 35476

12 170 168 28900 28224 28560

13 170 171 28900 29241 29070

14 180 176 32400 30976 31680

15 173 171 29929 29241 29583

16 182 168 33124 28224 30576

17 174 167 30276 27889 29058

18 154 164 23716 26896 25256

19 165 166 27225 27556 27390

20 196 181 38416 32761 35476

TOTAL 3479 3424 607779 586806 596700

x∑ y∑ 2x∑ 2y∑ xy∑

Page 24: Regresión lineal

24

El coeficiente de correlación, y los parámetros de la ecuación:

( ) ( )[ ]

( ) ( )2 2 222 2

20*596700-3479*34240.8634

20*607779- 3479 * 20*586806- 3424*

n xy x yr

n x x n y y

−= = =

− −

∑ ∑ ∑∑ ∑ ∑

Luego procedemos hallar los coeficientes de regresión estimados, utilizando las formulas dadas:

( )2 22

20*596700-3479*34240.420

20*607779- 3479

i j i j

i i

n x y x yb

n x x

−= = =

∑ ∑ ∑∑ ∑

3479173.95

20

xX

n= = =∑ 3424

171.220

yY

n= = =∑

3424 0.420*173.95=98.12a Y bX= − = −

Entonces la ecuación de la regresión lineal simple es:

98.12 + 0.420*Xy =

Page 25: Regresión lineal

25

Interpretando b:

En quinto lugar interpretamos b=0.420; quiere decir que por cada unidad que se incremente en la estatura del padre, la estatura del hijo aumentará aproximadamente en 0.420 cm.

coeficiente de determinación:

( ) ( )[ ]

( ) ( )

2 2

2

2 2 222 2

20*596700-3479*34240.7455

20*607779- 3479 * 20*586806- 3424*

n xy x yr

n x x n y y

− = = = − −

∑ ∑ ∑∑ ∑ ∑

r2=0.7455, este valor nos indica que existe un alto grado de linealidad entre las variables, lo cual quiere decir que el 74.55% de las variaciones en la estatura del hijo esta explicado por la estatura del padre.

Page 26: Regresión lineal

26

Luego procedemos a graficar la línea de regresión estimada sobre el diagrama de dispersión:

Diagrama de dispersión del la estatura del padre y del hijo

y = 0.4201x + 98.122

R2 = 0.7455

160

170

180

190

145 155 165 175 185 195 205

Edad del Padre

Ed

ad

de

l Hijo

Es decir: x=165, entonces:Y=98.12+0.420*165=167.42 cm

Finalmente podemos llevar a cabo la predicción para determinar la estatura de un hijo, cuando el padre tiene 165 cm de talla.

Page 27: Regresión lineal

En una fábrica de cierta marca de refresco ha tomado al azar 10 semanas del año, observando la temperatura media correspondiente en grados centígrados a cada una de ellas y la cantidad de los refrescos pedidos durante cada uno de dichos períodos.

La información obtenida es la siguiente:

27

Temperatura media (°C) 10 28 12 31 30 19 24 5 9

15

Cantidad de refrescos 21 65 19 72 75 39 67 11 12

24

Calcular:- La recta de ajuste, grado de dependencia de la temperatura (x) sobre la cantidad de refrescos.- El coeficiente de determinación y correlación. ¿con este coeficiente podria planificarse la producción?