Regresión lineal
-
Upload
denis-leonor-mendoza-rivas -
Category
Education
-
view
449 -
download
2
Transcript of Regresión lineal
1
Tema: Correlación y Regresión Lineal.
Docente: Lic. Denís Leonor Mendoza Rivas
ESTADÍSTICA I
2
DIAGRAMA DE DISPERSIÓN O NUBE DE PUNTOS
La primera forma de describir una distribución bidimensional es representar los pares de valores (x, y) en el plano cartesiano. El gráfico obtenido recibe el nombre de nube de puntos o diagrama de dispersión.
Altura en cm
. 162 154 180 158 171 169 166 176 163
…
Peso en Kg. 61 60 78 62 66 60 54 84 68
…
3
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Diagramas de dispersión o nube de puntos
Mid
e 18
7 cm
.
Mide 161 cm.
Pesa 76 kg.
Pesa 50 kg.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.
4
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Relación entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.
Parece que el peso aumenta con la altura
5
Incorrelación
30
80
130
180
230
280
330
140 150 160 170 180 190 200
Relación directa e inversa
Fuerte relacióndirecta.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Cierta relacióninversa
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Para valores de X por encima de la media tenemos valores de Y por encima y por debajo en proporciones similares. Incorrelación.
Para los valores de X mayores que la media le corresponden valores de Y menores. Esto es relación inversa o decreciente.
•Para los valores de X mayores que la media le corresponden valores de Y mayores también.
•Para los valores de X menores que la media le corresponden valores de Y menores también.
•Esto se llama relación directa.
6
La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos variables es directa o inversa. Directa: Sxy >0
Inversa: Sxy <0
Incorreladas: Sxy =0
El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables.
Covarianza de dos variables X e Y
))((1
yyxxn
S ii
ixy −−= ∑
7
Coef. de correlación lineal de Pearson
La coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).
tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relación sea directa o inversa.
r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica,...)
yx
xy
SS
Sr =
8
Es adimensional Sólo toma valores en [-1,1] Las variables son incorreladas r=0 Relación lineal perfecta entre dos variables r=+1 o r=-1
Excluimos los casos de puntos alineados horiz. o verticalmente. Cuanto más cerca esté r de +1 o -1 mejor será el grado de
relación lineal. Siempre que no existan observaciones anómalas.
Propiedades de r
-1 +10
Relación inversa perfecta
Relación directa
casi perfecta
Variables incorreladas
9
Entrenando el ojo: correlaciones positivas
r=0,1
30
80
130
180
230
280
330
140 150 160 170 180 190 200
r=0,4
30405060708090
100110120130
140 150 160 170 180 190 200
r=0,8
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=0,99
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
10
Entrenando el ojo: correlaciones negativas
r=-0,5
0
10
20
30
40
50
60
70
80
90
140 150 160 170 180 190 200
r=-0,7
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,95
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,999
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
11
Animación: Evolución de r y diagrama de dispersión
12
coeficiente o índice de correlación de Pearson (r):
Para medir la correlación lineal simple utilizaremos el coeficiente o índice de correlación de Pearson (r):
( ) ( )2 22 2*
xy
x y
S n xy x yrS S n x x n y y
−= =
− −
∑ ∑ ∑∑ ∑ ∑
13
Regresión El análisis de regresión sirve para predecir una
medida en función de otra medida (o varias). Y = Variable dependiente
predicha explicada
X = Variable independiente predictora explicativa
¿Es posible descubrir una relación? Y = a + bX + eDonde: el error es aleatorio, pequeño, y no depende de X
14
Encontramos a los siguientes parámetros:
“a” es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.
“b” es el coeficiente de regresión poblacional (pendiente de la línea recta), b Está expresado en las mismas unidades de Y por cada unidad de X. Indica el número de unidades en que varía Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresión). Un valor negativo de b sería interpretado como la magnitud del decremento en Y por cada unidad de aumento en X.
e es el error
15
Interpretación del coeficiente de regresión b
El coeficiente b es la pendiente o el coeficiente de la regresión lineal. La constante a es la ordenada en el origen.
Si b >O, entonces, la tendencia lineal es creciente, es decir, a mayores valores de X corresponden mayores valores de Y. También, a menores valores de X corresponden menores valores de Y.
Si b < O, entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X corresponden menores valores de Y. También, a menores valores de X corresponden mayores valores de Y.
Si b = 0, entonces, Y = a. Luego, Y permanece estacionario para cualquier valor de X. En este caso se dice que, no hay regresión.
16
NOTA. “b” también se interpreta es el cambio
promedio en Y = a + bX cuando X cambia una unidad. Esto es, si x¡ se incrementa 1, entonces y¡ se incrementa en promedio b unidades.
17
Determinación De Los Parámetros De La Recta De Regresión A Y B
X
Y
Error= 2
2 4 6 8 10 12 14
108642
• •
Error= -6•
Línea de estimación
.
.Y
error = Y - iY
( )∑ 2
i Y - YMin
18
Lo que lleva a los siguientes resultados:
22
( , )
( )i j i j
i i
n x y x yCov x yb
V x n x x
−= =
−
∑ ∑ ∑∑ ∑
a Y bX= −
19
Coeficiente de determinación La medida de bondad de un ajuste de
regresión, también conocido como coeficiente de determinación r2, es el que determinará si la línea de regresión estimada es adecuada.
( ) ( )
2
2
2 22 2*
n xy x yr
n x x n y y
− = − −
∑ ∑ ∑∑ ∑ ∑
20
Más sobre r2:
La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de determinación r2
r2 es una cantidad que sólo puede tomar valores en [0, 1].
Cuando un ajuste es bueno, r2 será cercano a uno. Cuando un ajuste es malo r2 será cercano a cero. A r2también se le denomina porcentaje de variabilidad
explicado por el modelo de regresión. r2 puede ser pesado de calcular en modelos de
regresión general, pero en el modelo lineal simple, la expresión es de lo más sencilla.
21
CASO PRÁCTICO:
Generalmente cada peculiaridad en un hombre es compartida por sus descendientes, pero en un grado menor, por lo que tenemos la curiosidad en conocer si la estatura de los padres (X, cm) influye en la estatura de los hijos (Y, cm). Se ha recogido la altura de 60 varones, junto a las de su padre.
Estatura del Padre 180 160 165 181 177 165 176 154 187 174 196 170 170 180 173 182 174 154 165 196
Estatura del hijo 175 168 166 174 173 165 179 164 179 168 181 168 171 176 171 168 167 164 166 181
22
En primer lugar debemos graficar el diagrama de dispersión
Observando los puntos vemos que ellos tienen una tendencia lineal.
Diagrama de dispersión del la estatura del padre y del hijo
160
170
180
190
145 155 165 175 185 195 205
Edad del Padre
Ed
ad
de
l Hijo
23
En segundo lugar procederemos a estimar la recta de regresión lineal simple, para lo cual construiremos el siguiente cuadro:
Nº X Y X2 Y2 X*y
1 180 175 32400 30625 31500
2 160 168 25600 28224 26880
3 165 166 27225 27556 27390
4 181 174 32761 30276 31494
5 177 173 31329 29929 30621
6 165 165 27225 27225 27225
7 176 179 30976 32041 31504
8 154 164 23716 26896 25256
9 187 179 34969 32041 33473
10 174 168 30276 28224 29232
11 196 181 38416 32761 35476
12 170 168 28900 28224 28560
13 170 171 28900 29241 29070
14 180 176 32400 30976 31680
15 173 171 29929 29241 29583
16 182 168 33124 28224 30576
17 174 167 30276 27889 29058
18 154 164 23716 26896 25256
19 165 166 27225 27556 27390
20 196 181 38416 32761 35476
TOTAL 3479 3424 607779 586806 596700
x∑ y∑ 2x∑ 2y∑ xy∑
24
El coeficiente de correlación, y los parámetros de la ecuación:
( ) ( )[ ]
( ) ( )2 2 222 2
20*596700-3479*34240.8634
20*607779- 3479 * 20*586806- 3424*
n xy x yr
n x x n y y
−= = =
− −
∑ ∑ ∑∑ ∑ ∑
Luego procedemos hallar los coeficientes de regresión estimados, utilizando las formulas dadas:
( )2 22
20*596700-3479*34240.420
20*607779- 3479
i j i j
i i
n x y x yb
n x x
−= = =
−
∑ ∑ ∑∑ ∑
3479173.95
20
xX
n= = =∑ 3424
171.220
yY
n= = =∑
3424 0.420*173.95=98.12a Y bX= − = −
Entonces la ecuación de la regresión lineal simple es:
98.12 + 0.420*Xy =
25
Interpretando b:
En quinto lugar interpretamos b=0.420; quiere decir que por cada unidad que se incremente en la estatura del padre, la estatura del hijo aumentará aproximadamente en 0.420 cm.
coeficiente de determinación:
( ) ( )[ ]
( ) ( )
2 2
2
2 2 222 2
20*596700-3479*34240.7455
20*607779- 3479 * 20*586806- 3424*
n xy x yr
n x x n y y
− = = = − −
∑ ∑ ∑∑ ∑ ∑
r2=0.7455, este valor nos indica que existe un alto grado de linealidad entre las variables, lo cual quiere decir que el 74.55% de las variaciones en la estatura del hijo esta explicado por la estatura del padre.
26
Luego procedemos a graficar la línea de regresión estimada sobre el diagrama de dispersión:
Diagrama de dispersión del la estatura del padre y del hijo
y = 0.4201x + 98.122
R2 = 0.7455
160
170
180
190
145 155 165 175 185 195 205
Edad del Padre
Ed
ad
de
l Hijo
Es decir: x=165, entonces:Y=98.12+0.420*165=167.42 cm
Finalmente podemos llevar a cabo la predicción para determinar la estatura de un hijo, cuando el padre tiene 165 cm de talla.
En una fábrica de cierta marca de refresco ha tomado al azar 10 semanas del año, observando la temperatura media correspondiente en grados centígrados a cada una de ellas y la cantidad de los refrescos pedidos durante cada uno de dichos períodos.
La información obtenida es la siguiente:
27
Temperatura media (°C) 10 28 12 31 30 19 24 5 9
15
Cantidad de refrescos 21 65 19 72 75 39 67 11 12
24
Calcular:- La recta de ajuste, grado de dependencia de la temperatura (x) sobre la cantidad de refrescos.- El coeficiente de determinación y correlación. ¿con este coeficiente podria planificarse la producción?