Post on 29-Sep-2020
2Regresión Lineal
Modelo general de regresión
Objetivo: Analizar la relación entre una o varias variables dependientes y un conjunto de factores independientes.
Tipos de relaciones:
- Relación no lineal
- Relación lineal
Regresión lineal simple
1 2 1 2( , ,..., | , ,..., )k lf Y Y Y X X X
3Regresión Lineal
Regresión simpleconsumo y peso de automóviles
Núm. Obs. Peso Consumo(i) kg litros/100 km
1 981 112 878 123 708 84 1138 115 1064 136 655 67 1273 148 1485 179 1366 1810 1351 1811 1635 2012 900 1013 888 714 766 915 981 1316 729 717 1034 1218 1384 1719 776 1220 835 1021 650 922 956 1223 688 824 716 725 608 726 802 1127 1578 1828 688 729 1461 1730 1556 15
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Con
sum
o (li
tros/
100
Km)
4Regresión Lineal
Modelo
ix
iyx10
osdesconocidparámetros:,, 210
),0(, 210 Nuuxy iiii
5Regresión Lineal
Hipótesis del modelo
Linealidadyi = 0+ 1xi + ui
Normalidadyi|xi N ( 0+ 1xi, 2)
HomocedasticidadVar [yi|xi] = 2
IndependenciaCov [yi, yk] = 0
21
0
Parámetros
6Regresión Lineal
Modelo
),0(, 210 Nuuxy iiii
yi : Variable dependiente
xi : Variable independiente
ui : Parte aleatoria
0
7Regresión Lineal
Recta de regresión
y
ie
iy
x ix
8Regresión Lineal
Recta de regresión
xy 10ˆˆˆ
yPendiente
1ˆ
xy 10ˆˆ
x9Regresión Lineal
Residuos
ResiduoPrevistoValor
ˆˆ
ObservadoValor10 iii exy
iy
ii xy 10ˆˆˆ
ie
ix
10Regresión Lineal
Estimación
ni i
ni ii
i
ii
xxyyxx
xyx
xy
12
11
10
)())((
)var(),cov(ˆ
ˆˆ
2 20 1
1 1
Mín =Mín ( )n n
i i ii i
e y x
Mínimos cuadrados
n
iiinn xyMax
1
21022/ )(
21
21
exp
Máxima verosimilitud
11Regresión Lineal
Ejemplo: estimaciónNúm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km
1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Con
sum
o (li
tros
/100
Km
)
;0117.0071.0ˆ ii xy 38.2ˆ2Rs
12Regresión Lineal
Ejemplo: Datos de Forbes
Relación entre la presión y la temperatura de ebullición del aguaDurante las décadas de los cuarenta y cincuenta del siglo XIX, el físico escocés J.D. Forbes realizó estudios con los que pretendía determinar la altitud sobre el nivel del mar de cumbres montañosas.
Para realizar este estudio, Forbes tomó medidas de la presión y la temperatura de ebullición del agua en diferentes ubicaciones de los Alpes y Escocia. Las medidas de presión fueron registradas en pulgadas de mercurio. Las medidas de temperatura las registró en grados Fahrenheit.
13Regresión Lineal
Ejemplo: Datos de Forbes
El procedimiento habitual para determinar la altitud de un punto en una cordillera consistía en medir la presión atmosférica en dicha posición y utilizar la relación conocida entre la presión y la altitud. El inconveniente de este procedimiento residía en la dificultad que acarreaba el transporte por lugares montañosos de los frágiles barómetros de la época.
Forbes decidió calcular la presión barométrica a partir de la temperatura de ebullición del agua, que es sencilla de medir.
14Regresión Lineal
Ejemplo: Datos de Forbes
Temperatura
Pre
sión
190 194 198 202 206 210 21420
22
24
26
28
30
32Temperatura Presión
194.5 20.79194.3 20.79197.9 22.4198.4 22.67199.4 23.15199.9 23.35200.9 23.89201.1 23.99201.4 24.02201.3 24.01203.6 25.14204.6 26.57209.5 28.49208.6 27.76210.7 29.04211.9 29.88212.2 30.06
15Regresión Lineal
Ejemplo: Datos de Forbes
SALIDA DE STATGRAPHICS Plus 5.0Regression Analysis - Linear model: Y = a + b*X
-----------------------------------------------------------------------------
Dependent variable: P
Independent variable: T
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept -81.0637 2.05182 -39.5082 0.0000
Slope 0.522892 0.010106 51.7408 0.0000
-----------------------------------------------------------------------------
16Regresión Lineal
Ejemplo: Datos de Forbes
SALIDA DE SPSS 12
Coeficientes a
-81.064 2.052 -39.508 .000
.523 .010 .997 51.741 .000
(Constante)
T
Modelo
1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientesestandarizad
os
t Sig.
Variable dependiente: Pa.
17Regresión Lineal
Inferencia estadística en el modelo de regresión
Queremos extender los resultados obtenidos para una muestra concreta a resultados más generales aplicables a nuevas observaciones. Esto se conoce como inferenciaestadística.
Para poder hacer inferencia tenemos que pagar un precio, asumir hipótesis distribucionales en el modelo de regresión.
Si asumimos estas hipótesis, podemos obtener la distribución de los estimadores y obtener intervalos de confianza o realizar contrastes de hipótesis.
20 1, ,
18Regresión Lineal
Propiedades de los estimadores
1 1 1 2 221
ˆn
ii n n
i x
x x y w y w y w yns
2
22
00 1,ˆxs
x
nN
2
2
11 ,ˆxns
N
19Regresión Lineal
Distribución de R2
00
),0(
ˆˆ
222
12
221
2
21010
iii
n
ni i
nni i
i
iiiiii
xeeeu
Nuexyuxy
222
2
21
2ˆ)2(
nR
n
ii sn
e
20Regresión Lineal
Contraste principal de regresión:¿depende y de x?
0:0:
11
10
HH
ix
iy
ix
iy
iii uxy 10 ii uy 0
H0 es falso
x e y están relacionados
H0 es cierto
x e y no están relacionados
21Regresión Lineal
Contraste sobre la pendiente
ii xy 10ˆˆˆ0:
0:
11
10
HH
HorechazaSe;ˆˆ
ˆˆ
)1,0(ˆ
),(ˆ
2/;211
1
21111
2
2
11
n
x
R
n
x
R
x
x
tt
snst
t
snsN
sn
nsN
1ˆ
22Regresión Lineal
Contraste: ordenada en el origen
0:0:
01
00
HH
ii xy 10ˆˆˆ
HorechazaSe
;1ˆ
ˆ
))1(,(ˆ
2/;20
2
20
0
2
22
00
n
x
R
x
ttsx
ns
t
sx
nN
23Regresión Lineal
Ejemplo: Datos de Forbes
SALIDA DE STATGRAPHICS Plus 5.0Regression Analysis - Linear model: Y = a + b*X
-----------------------------------------------------------------------------
Dependent variable: P
Independent variable: T
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept -81.0637 2.05182 -39.5082 0.0000
Slope 0.522892 0.010106 51.7408 0.0000
-----------------------------------------------------------------------------
24Regresión Lineal
Descomposición de la variabilidad en regresión
VNEVEVTiyiyyiyyy
iyiyyiyyy
yiyiyiyyiyiy
e
iyxy
uxy
n
i
n
i
n
ii
i
i
iii
iii
1
2
1
2
1
2
10
10
)ˆ()ˆ()(
sumando)ycuadradoalelevando()ˆ()ˆ()(
)restando()ˆ(ˆ
ˆˆ
ˆˆ
25Regresión Lineal
Coeficiente de determinación R2
n
ii
n
iii
n
ii
yyVT
yyVNE
yyVE
1
2
1
2
1
2
)(
)ˆ(
)ˆ( VNEVEVT
VTVER2
regresorelporexplicadoestáqueVTdeporcentajeelMide
10 2R
221
1
2211 ˆ)(ˆ:)(ˆˆ x
n
iiii nsxxVExxyy
26Regresión Lineal
Coef. determinación
12R 80.02R
02R50.02R
27Regresión Lineal
Contraste F
1ˆ
0:0:
11
10
HH
ii xy 10ˆˆˆ
ntesindependieson,
ˆ)2(
cierto)esH(Si
22
222
2
21
2
2
o212
VNEVE
sneVNE
VE
nR
ni i
212ˆ2 n,R
Fs
VE)VNE/(n-
VEF
0HrechazaSeFF
28Regresión Lineal
Regresión con Statgraphics
Regression Analysis - Linear model: Y = a + b*X
-----------------------------------------------------------------------------
Dependent variable: P
Independent variable: T
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept -81.0637 2.05182 -39.5082 0.0000
Slope 0.522892 0.010106 51.7408 0.0000
-----------------------------------------------------------------------------
29Regresión Lineal
Regresión con Statgraphics
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 145.125 1 145.125 2677.11 0.0000
Residual 0.813143 15 0.0542095
-----------------------------------------------------------------------------
Total (Corr.) 145.938 16
Correlation Coefficient = 0.99721
R-squared = 99.4428 percent
R-squared (adjusted for d.f.) = 99.4057 percent
Standard Error of Est. = 0.232829
30Regresión Lineal
Predicción
hx
hy
Media mh|xh Nueva Observ. yh|xh
hx
hm
hm
hy
hx
31Regresión Lineal
Predicción de la media mh(regresión simple)
hh
hhxm
xNy
10
210 ),(
hx
hm
hx
hy
2
22
21
21
1010
110
)
]var[)])]ˆ
ˆ[)ˆ
(
ˆ(var[
(ˆvar[]var[
]ˆˆ[]
(ˆˆˆ
xh
h
hh
hhhh
hhh
nsxx
n
xxyxxyy
xxyExxyxy
mE
2
2)(1
2,ˆ
xs
xhxnhmNyh
32Regresión Lineal
Predicción de una nueva observación yh (reg. simple)
hh
hh
xmmNy
10
2 ),(hx hx
hy
hh
hhh
hhh
hhh
hhhh
hh
vyye
yEyEeEyye
vmNyxy
22
210
]ˆvar[]var[]~var[0]ˆ[][]~[
ˆ~),(ˆ
ˆˆˆ
))1(,0(~ 2hhh vNe
hm
hy
33Regresión Lineal
Límites de predicción
kk xxy ˆˆˆˆ 110
x
y hhR vsthyhy 1ˆˆ 2/
hhR vsthyhm ˆˆ 2/
34Regresión Lineal
Hipótesis del modelo
Linealidadyi = 0+ 1xi + ui
Normalidadyi|xi N ( 0+ 1xi, 2)
HomocedasticidadVar [yi|xi] = 2
IndependenciaCov [yi, yk] = 0
35Regresión Lineal
Comprobación de la linealidad y homocedasticidad
Ambas hipótesis se comprueban conjuntamente mediante gráficos de los residuos
Frente a valores previstosEn muchas ocasiones se corrige la falta de linealidad y la heterocedasticidadmediante transformación de las variables.
0 1 1
0 1 1
loglog log
i i i
i i i
y x uy x u
36Regresión Lineal
Hipótesis de normalidad
Herramientas de comprobación:Histograma de residuosGráfico de probabilidad normal (Q-Q plot)Contrastes formales (Kolmogorov-Smirnov)
Ejemplo de coches
Residuos-9 -6 -3 0 3 6 9
0
20
40
60
80
100
120
-6 -4 -2 0 2 4 6
Residuos
0,115
2050809599
99,9
prob
abili
dad
37Regresión Lineal
Residuos - Valores previstos
0
iy
ie
0
iy
ie
0
iy
ieLineal y homocedástico No lineal y homocedástico
Lineal y no homocedástico
0
iy
ie
No lineal y no homocedástico
38Regresión Lineal
Ejemplo: Datos de Forbes
Diagnosis de los datos de Forbes
Temperatura
Pre
sión
190 194 198 202 206 210 21420
22
24
26
28
30
32
39Regresión Lineal
Ejemplo: Datos de Forbes
Diagnosis de los datos de Forbes
Residual Plot
predicted Presión
resi
dual
20 22 24 26 28 30-0.7
-0.4
-0.1
0.2
0.5
0.8
40Regresión Lineal
Ejemplo: Datos de Forbes
Diagnosis de los datos de Forbes
Residual Plot
predicted Presión
resi
dual
20 22 24 26 28 30-0.7
-0.4
-0.1
0.2
0.5
0.8
Valor anómalo
Relación no lineal
41Regresión Lineal
Ejemplo: Datos de Forbes
Diagnosis de los datos de ForbesProblemas en la diagnosis:
- Existencia de un valor anómalo
- Existencia de relaciones no lineales
Posibles soluciones:
1. Analizar las razones que justifiquen la presencia de ese valor atípico: Si la observación no es representativa de la población eliminarla
2. Si no existen razones para eliminarla: aplicartransformaciones a los datos
42Regresión Lineal
Tipos de observaciones anómalas
1. Datos atípicos: Son observaciones que no provienen del mismo modelo generador.
2. Datos atípicos influyentes: son observaciones atípicas que afectan a la estimación de los parámetros del modelo.
EJEMPLO
En 1976 los investigadores Allison y Cicchetti realizaron un estudio sobre una serie de especies de mamíferos. Entre los datos que recopilaron se encuentran el peso medio del cuerpo (dado en kilogramos) y el peso medio del cerebro (dado en gramos) de 66 de esas especies. En la siguiente tabla se reproducen los datos recopilados. Se trata de estudiar la posible relación entre estas dos variables.
43Regresión Lineal
Tipos de observaciones anómalas
Plot of Fitted Model
cuerpo
cere
bro
Elefante africano
Elefante asiático
0 2 4 6 8(X 1000)
0
1
2
3
4
5
6(X 1000)
Hombre
44Regresión Lineal
Tipos de observaciones anómalasMultiple Regression Analysis-----------------------------------------------------------------------------Dependent variable: cerebro-----------------------------------------------------------------------------
Standard TParameter Estimate Error Statistic P-Value-----------------------------------------------------------------------------CONSTANT 91.0044 43.5526 2.08953 0.0409cuerpo 0.966496 0.0476629 20.2778 0.0000-----------------------------------------------------------------------------
Analysis of Variance-----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value-----------------------------------------------------------------------------Model 4.60683E7 1 4.60683E7 411.19 0.0000Residual 6.72224E6 60 112037.0-----------------------------------------------------------------------------Total (Corr.) 5.27906E7 61
R-squared = 87.2662 percentR-squared (adjusted for d.f.) = 87.054 percentStandard Error of Est. = 334.72
45Regresión Lineal
Tipos de observaciones anómalas
Plot of Fitted Model
cuerpoce
rebr
o0 2 4 6 8
(X 1000)
0
1
2
3
4
5
6(X 1000)
46Regresión Lineal
Tipos de observaciones anómalas
Plot of Fitted Model
cuerpo
cere
bro
Hombre
0 2 4 6 8(X 1000)
0
1
2
3
4
5
6(X 1000)
47Regresión Lineal
Tipos de observaciones anómalas
Las observaciones atípicas pueden ser identificadas en el gráfico de los residuos frente a los predichos si se encuentran a más de tres veces la desviación típica residual.
Las observaciones influyentes se identifican observando el cambio que se produce en los parámetros del modelo cuando éstas son eliminadas.
Estadístico de Cook:
influyentees),(x1si)ˆ(2)ˆˆ(
i
2)(
iii
iiii yD
yVaryy
D
48Regresión Lineal
Transformaciones de los datos
Transformaciones Box-Cox:
0silog
0si1
yy
yy
Las transformaciones más importantes son:
yyyy /1,,,log 2
49Regresión Lineal
Tipos de observaciones anómalas
Plot of Fitted Model
log(cuerpo)lo
g(ce
rebr
o)
Elefante africanoElefante asiático
Hombre
-6 -3 0 3 6 9-2
0
2
4
6
8
10
50Regresión Lineal
Tipos de observaciones anómalasMultiple Regression Analysis-----------------------------------------------------------------------------Dependent variable: log(cerebro)-----------------------------------------------------------------------------
Standard TParameter Estimate Error Statistic P-Value-----------------------------------------------------------------------------CONSTANT 2.13479 0.0960434 22.2273 0.0000log(cuerpo) 0.751686 0.0284636 26.4087 0.0000-----------------------------------------------------------------------------
Analysis of Variance-----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value-----------------------------------------------------------------------------Model 336.188 1 336.188 697.42 0.0000Residual 28.9227 60 0.482045-----------------------------------------------------------------------------Total (Corr.) 365.111 61
R-squared = 92.0784 percentR-squared (adjusted for d.f.) = 91.9463 percentStandard Error of Est. = 0.694295
51Regresión Lineal
Tipos de observaciones anómalas
Residual Plot
predicted log(cerebro)
resi
dual
-2 0 2 4 6 8 10-2
-1
0
1
2
52Regresión Lineal
Ejemplo regresión múltiple
Consumo = 0 + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error
Y X1 X2 X3 X4Consumo Cilindrada Potencia Peso Aceleraciónl/100Km cc CV kg segundos
15 4982 150 1144 1216 6391 190 1283 924 5031 200 1458 159 1491 70 651 2111 2294 72 802 1917 5752 153 1384 14... ... ... ... ...
Var. Independienteso regresores
Var. dependienteso respuesta