1
Ignacio Cascos Depto. Estadística, Universidad Carlos III 1
Regresión lineal múltipleTema 2
Ignacio Cascos Depto. Estadística, Universidad Carlos III 2
Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,
independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo
Ignacio Cascos Depto. Estadística, Universidad Carlos III 3
Objetivos Formulación del modelo de regresión múltiple Métodos de estimación para dichos modelos Tomar decisiones acerca de los parámetros Aprendizaje de utilización de gráficos para
detectar el tipo de relación entre las variables Cuantificación del grado de relación lineal
Ignacio Cascos Depto. Estadística, Universidad Carlos III 4
Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,
independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo
2
Ignacio Cascos Depto. Estadística, Universidad Carlos III 5
Introducción Estudio conjunto de varias variables (más de
dos). Varias variables independientes xi se utilizan
para explicar otra dependiente y Utilizamos toda la información disponible
uxxy kk 110
Ignacio Cascos Depto. Estadística, Universidad Carlos III 6
El modelo de regresión múltiple n observaciones de la forma (xi1,…, xik,yi) Objetivo: aproximar y a partir de x1,…,xk
x1,…,xk : variables independientes o explicativas y: variable dependiente o respuesta (a explicar)
regresión de escoeficient ,,, 10
110
k
iikkii uxxy
Ignacio Cascos Depto. Estadística, Universidad Carlos III 7
Ejemplo: semiconductores
1
2
: Fuerza para romper la soldadura: Longitud del cable: Altura de la base
YXX
1 2 Y X X
Ignacio Cascos Depto. Estadística, Universidad Carlos III 8
Ejemplo: semiconductores
3
Ignacio Cascos Depto. Estadística, Universidad Carlos III 9
Ejemplo: semiconductores
1 2ˆ 2.264 2.744 0.012y x x
Ignacio Cascos Depto. Estadística, Universidad Carlos III 10
Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,
independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo
Ignacio Cascos Depto. Estadística, Universidad Carlos III 11
Linealidad Los datos se ajustan aproximadamente a la ecuación:
Con dos variables explicativas:
Los datos están aproximadamente contenidos en un plano. En general, en un hiperplano.
ikkii xxy 110
22110 iii xxy
Ignacio Cascos Depto. Estadística, Universidad Carlos III 12
Homogeneidad El valor promedio de la perturbación es cero,
0][ iuE
4
Ignacio Cascos Depto. Estadística, Universidad Carlos III 13
Homocedasticidad:Var[ui]=2 Varianza de perturbaciones constante
Ignacio Cascos Depto. Estadística, Universidad Carlos III 14
Independencia
Perturbaciones ui independientes entre sí.
En particular E[uiuj]= para i j
Ignacio Cascos Depto. Estadística, Universidad Carlos III 15
Normalidad Las perturbaciones siguen distribución normal
ui~N(0, 2)
En consecuencia:
2110 ,N~ ikkii xxy
Ignacio Cascos Depto. Estadística, Universidad Carlos III 16
Otras hipótesis
El número de datos n es mayor que k+1
Ninguna variable explicativa es combinación lineal de las demás (las xi son linealmente independientes)
5
Ignacio Cascos Depto. Estadística, Universidad Carlos III 17
Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,
independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo
Ignacio Cascos Depto. Estadística, Universidad Carlos III 18
Forma matricial del modelo Habitualmente escribimos el modelo como
Y = X + Ucon:
nknkn
k
k
n u
uu
U
xx
xxxx
X
y
yy
Y
2
1
1
0
1
221
111
2
1
; ;
1111
;
nnn IXNYINU 22 ,~ ; ,0~
Ignacio Cascos Depto. Estadística, Universidad Carlos III 19
Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,
independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo
Ignacio Cascos Depto. Estadística, Universidad Carlos III 20
Método de Mínimos Cuadrados
Valor observado Dato (y)
Recta de regresiónestimada
Valor observado Dato (y)
Recta de regresiónestimada
6
Ignacio Cascos Depto. Estadística, Universidad Carlos III 21
Mínimos Cuadrados Objetivo: Buscar los valores de ,,…,k
que mejor ajustan nuestros datos. Ecuación:
Residuo:
Minimizar:
ikkiiiii xxyyye ˆˆˆˆ 110
n
iie
1
2
ikkii xxy ˆˆˆˆ 110
Ignacio Cascos Depto. Estadística, Universidad Carlos III 22
Mínimos Cuadrados Resultado en forma matricial:
YXXX tt 1ˆ
Ignacio Cascos Depto. Estadística, Universidad Carlos III 23
Ejemplo: semiconductores
Ignacio Cascos Depto. Estadística, Universidad Carlos III 24
Interpretación geométrica Hemos calculado:
Tenemos:
Definimos la matriz:
H es idempotente, simétrica y del mismo rangoque X, (k+1). Es una matriz de proyección.
YXXX tt 1ˆ
YXXXXXY tt 1ˆˆ
tt XXXXH 1
7
Ignacio Cascos Depto. Estadística, Universidad Carlos III 25
Interpretación geométrica H simétrica (obvio) H idempotente
Residuos ortogonales a valores ajustados
Residuos ortogonales a matriz de diseño X 0)( 1 XXXXXXYXHIYXe ttttt
0ˆˆ HYHIYHYHYYHYYYYe ttttt
tttttt XXXXXXXXXXXXHH 111
Ignacio Cascos Depto. Estadística, Universidad Carlos III 26
Interpretación geométrica
X
1
YX1
Y
e
0
Subespaciovectorial generado por las columnas de X
Ignacio Cascos Depto. Estadística, Universidad Carlos III 27
Varianza Para estimar 2 utilizamos la varianza residual
Es insesgado como estimador de 2 y además
1ˆ 1
22
kne
Sn
i iR
212
12
~
kn
n
i ie
Ignacio Cascos Depto. Estadística, Universidad Carlos III 28
Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,
independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo
8
Ignacio Cascos Depto. Estadística, Universidad Carlos III 29
Propiedades de los estimadores Normalidad. Sabemos Y=X +U, de donde
Y~N(X,2I). Como también es normal.
Esperanza.
Varianza.
XXXXYXXXEE tttt 11ˆ
12111ˆ XXXXXYVarXXXYXXXVarVar tttttt
YXXX tt 1ˆ
Ignacio Cascos Depto. Estadística, Universidad Carlos III 30
Propiedades de los estimadoresTenemos
La varianza 2 suele ser desconocida y utilizamos el error estándar estimado
iit
i XXVar 121
ˆ
ijt
ji XXCov 1211
ˆ,ˆ
iit
iit XXNXXN 12
1112 ,~ˆ ; ,~ˆ
211
ˆˆRii
ti SXXS
Ignacio Cascos Depto. Estadística, Universidad Carlos III 31
Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,
independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo
Ignacio Cascos Depto. Estadística, Universidad Carlos III 32
Inferencia. Contrastes para Para averiguar si la variable xi afecta a la respuesta, debemos plantear el contraste
Rechazamos la hipótesis nula si:
.0:0:
1
0
i
i
HH
2,1)ˆ(
ˆ
kn
i
i tS
9
Ignacio Cascos Depto. Estadística, Universidad Carlos III 33
Ejemplo: semiconductores
Ignacio Cascos Depto. Estadística, Universidad Carlos III 34
Inferencia. Int. de confianza para Podemos construir un intervalo de confianza para i con nivel de confianza 1 como
Si n > 30 y = 0.05, sabemos que tnk1,/2 2.
)ˆ(ˆ2,1 ikni St
Ignacio Cascos Depto. Estadística, Universidad Carlos III 35
Descomposición de la variabilidadIgual que en la regresión simple VT=VE+VNE
n
ii
n
iii
n
ii
n
ii
eyy
yy
yy
1
2
1
2
1
2
1
2
)ˆ(Explicada No adVariabilidVNE
)ˆ(Explicada adVariabilidVE
)(Total adVariabilidVT
Ignacio Cascos Depto. Estadística, Universidad Carlos III 36
Coeficiente de determinación El coeficiente de determinación se define:
El coeficiente de determinación ajustado es más interesante ya que sólo aumenta si disminuye la varianza residual
VTVNE1
)(
)ˆ(
VTVE
1
2
1
2
2
n
ii
n
ii
yy
yyR
)1(VT
ˆ1
)1(VT)1(VNE1
22
n
Sn
knR R
10
Ignacio Cascos Depto. Estadística, Universidad Carlos III 37
Ejemplo: semiconductores
Ignacio Cascos Depto. Estadística, Universidad Carlos III 38
Contraste de regresión (fuera programa)
Para averiguar si existe relación lineal entre lavariable respuesta y las explicativas, realizamos
Rechazamos la hipótesis nula si:.0algún :
0:
1
210
i
k
HH
,1,)1(VNEVE
knkF
knk
1,21 ~)1(VNE
VE entonces 0, Si knkk F
knk
Ignacio Cascos Depto. Estadística, Universidad Carlos III 39
Ejemplo: semiconductores
Ignacio Cascos Depto. Estadística, Universidad Carlos III 40
Predicción para la media Buscamos estimador puntual e I.C. para el
valor medio de la respuesta cuando xx0
010000ˆˆˆˆ kk xxy
0
10
200
2000
)(
)ˆ)(ˆ()ˆ()ˆ(
xXXxxxExyEyVar
tt
ttt
20
2
)ˆ( yVar
n
11
Ignacio Cascos Depto. Estadística, Universidad Carlos III 41
Predicción para la media El intervalo de confianza para la media que
obtenemos es:
01
02
2/,10 )(ˆˆ xXXxSty ttRkn
Ignacio Cascos Depto. Estadística, Universidad Carlos III 42
Ejemplo: semiconductores ¿Cuál sería el I.C. para para la respuesta
media si la longitud del cable es 8 y la altura de la estructura es 275?
663.27ˆ ; 012.0744.2264.2ˆ 021 yxxy
044.0)( ; 288.2ˆ ; 074.2 01
0025.0,22 xXXxSt ttR
66.28ˆ66.26 y
Ignacio Cascos Depto. Estadística, Universidad Carlos III 43
Ejemplo: semiconductores
Ignacio Cascos Depto. Estadística, Universidad Carlos III 44
Predicción para una nueva observación Intervalo de predicción
Ejemplo: semiconductores (long. 8, altura 275)
01
02
2/,10 )(1ˆˆ xXXxSty ttRkn
51.32ˆ81.22 y
12
Ignacio Cascos Depto. Estadística, Universidad Carlos III 45
Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,
independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo
Ignacio Cascos Depto. Estadística, Universidad Carlos III 46
Multicolinealidad Problema frecuente que se presenta cuando
las variables explicativas son muy dependientes entre sí.
No es un problema del modelo, sino de los datos, surge cuando det(XtX) próximo a cero.
Las variables explicativas son significativas en el modelo simple, pero dejan de serlo en el múltiple.
Ignacio Cascos Depto. Estadística, Universidad Carlos III 47
Índice de condicionamiento Los autovalores de XtX son mayores o iguales que
cero, para que haya multicolinealidad, alguno tiene que ser aproximadamente cero.
Si 10 Ind.Cond. 30, multiolinealidad moderada Si Ind.Cond. > 30, multicolinealidad alta
0 deautovalor mínimo deautovalor máximomientoCondiciona de Índice
XXXX
t
t
Ignacio Cascos Depto. Estadística, Universidad Carlos III 48
Ejemplo: Sabor del queso
1
2
3
: Sabor: Lactico: Acetico: H2S
YXXX
13
Ignacio Cascos Depto. Estadística, Universidad Carlos III 49
Ejemplo: sabor del queso
2.544Indice de Condicionamiento= 11.290.019
Multicolinealidad moderada
Ignacio Cascos Depto. Estadística, Universidad Carlos III 50
Ejemplo: sabor del queso
Ignacio Cascos Depto. Estadística, Universidad Carlos III 51
Ejemplo: sabor del quesoRegresión simple Láctico
Antes 30.73
Ignacio Cascos Depto. Estadística, Universidad Carlos III 52
Ejemplo: sabor del quesoRegresión simple Acético
Antes 3.9
14
Ignacio Cascos Depto. Estadística, Universidad Carlos III 53
Ejemplo: sabor del quesoRegresión simple: H2S
Antes 1.2
Ignacio Cascos Depto. Estadística, Universidad Carlos III 54
Ejemplo: sabor del queso2
2
2
Sabor 29.85 37.71Lactico 49.59 (7.18)Sabor 2.15 4.76Acetato 50.61 (0.88)Sabor 9.78 5.77H2S 57.11
R
R
R
(0.94)
2Sabor 28.97 21.7Lactico 0.24Acetico 3.96H2S 65.17 (30.73) (3.98) (1.21) (0.75)
R
Ignacio Cascos Depto. Estadística, Universidad Carlos III 55
Ejemplo: sabor del quesoRegresión múltiple: Acético y H2S
Sabor
Acético50.61%
Acético + H2S 64.5%
H2S57.11%
Ignacio Cascos Depto. Estadística, Universidad Carlos III 56
Ejemplo: sabor del quesoRegresión múltiple: Láctico y H2S
Sabor
Láctico49.59%
Láctico + H2S 65.1%
H2S57.11%
15
Ignacio Cascos Depto. Estadística, Universidad Carlos III 57
Ejemplo: sabor del quesoRegresión múltiple: Láctico y Acético
Sabor
Acético Láctico + Acético 50.7%
Láctico49.59%
Ignacio Cascos Depto. Estadística, Universidad Carlos III 58
Ejemplo: sabor del queso
Ignacio Cascos Depto. Estadística, Universidad Carlos III 59
Ejemplo: sabor del quesoRegresión múltiple: Láctico y H2S
Sabor
Láctico49.59%
Láctico + H2S 65.1%
H2S57.11%
Ignacio Cascos Depto. Estadística, Universidad Carlos III 60
Diagnosis Más compleja que en la regresión simple. Gráficos de residuos frente a valores previstos
para detectar falta de linealidad y heterocedasticidad.
Gráficos probabilísticos (pp-plots) para los residuos para detectar falta de normalidad.
Análisis de datos influyentes.
16
Ignacio Cascos Depto. Estadística, Universidad Carlos III 61
Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,
independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo
Ignacio Cascos Depto. Estadística, Universidad Carlos III 62
Variables dicotómicasEn un muestra pueden aparecer grupos de observaciones.
Ejemplo: En una muestra de alumnos los grupos puedenvenir dados por el sexo.
Ignacio Cascos Depto. Estadística, Universidad Carlos III 63
Variables dicotómicas Podemos introducir variables ficticias,
dicotómicas o dummies del siguiente modo:
B grupo al pertenece n observació la si 1A grupo al pertenece n observació la si 0
ii
zi
Ignacio Cascos Depto. Estadística, Universidad Carlos III 64
Variables dicotómicas
uzxy 210
uxzzxy 3210
17
Ignacio Cascos Depto. Estadística, Universidad Carlos III 65
Variables politómicas En numerosas ocasiones las variables cualitativas
toman valores en más de dos características. Si tenemos s categorías, introducimos s1 variables
dicotómicas zt
contrario casoen 0
categoría la a pertenece n observació la si 1 tizit
uzzzxy 34231210
Top Related