Regresión lineal múltiple -...

17
1 Ignacio Cascos Depto. Estadística, Universidad Carlos III 1 Regresión lineal múltiple Tema 2 Ignacio Cascos Depto. Estadística, Universidad Carlos III 2 Descripción breve del tema 1. Introducción 2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis 3. Modelo en forma matricial 4. Estimación de los parámetros 5. Propiedades de los estimadores 6. Inferencia, descomp. de la variabilidad y predicción 7. Multicolinealidad y diagnosis 8. Extensiones del modelo Ignacio Cascos Depto. Estadística, Universidad Carlos III 3 Objetivos Formulación del modelo de regresión múltiple Métodos de estimación para dichos modelos Tomar decisiones acerca de los parámetros Aprendizaje de utilización de gráficos para detectar el tipo de relación entre las variables Cuantificación del grado de relación lineal Ignacio Cascos Depto. Estadística, Universidad Carlos III 4 Descripción breve del tema 1. Introducción 2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis 3. Modelo en forma matricial 4. Estimación de los parámetros 5. Propiedades de los estimadores 6. Inferencia, descomp. de la variabilidad y predicción 7. Multicolinealidad y diagnosis 8. Extensiones del modelo

Transcript of Regresión lineal múltiple -...

1

Ignacio Cascos Depto. Estadística, Universidad Carlos III 1

Regresión lineal múltipleTema 2

Ignacio Cascos Depto. Estadística, Universidad Carlos III 2

Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,

independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo

Ignacio Cascos Depto. Estadística, Universidad Carlos III 3

Objetivos Formulación del modelo de regresión múltiple Métodos de estimación para dichos modelos Tomar decisiones acerca de los parámetros Aprendizaje de utilización de gráficos para

detectar el tipo de relación entre las variables Cuantificación del grado de relación lineal

Ignacio Cascos Depto. Estadística, Universidad Carlos III 4

Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,

independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo

2

Ignacio Cascos Depto. Estadística, Universidad Carlos III 5

Introducción Estudio conjunto de varias variables (más de

dos). Varias variables independientes xi se utilizan

para explicar otra dependiente y Utilizamos toda la información disponible

uxxy kk 110

Ignacio Cascos Depto. Estadística, Universidad Carlos III 6

El modelo de regresión múltiple n observaciones de la forma (xi1,…, xik,yi) Objetivo: aproximar y a partir de x1,…,xk

x1,…,xk : variables independientes o explicativas y: variable dependiente o respuesta (a explicar)

regresión de escoeficient ,,, 10

110

k

iikkii uxxy

Ignacio Cascos Depto. Estadística, Universidad Carlos III 7

Ejemplo: semiconductores

1

2

: Fuerza para romper la soldadura: Longitud del cable: Altura de la base

YXX

1 2 Y X X

Ignacio Cascos Depto. Estadística, Universidad Carlos III 8

Ejemplo: semiconductores

3

Ignacio Cascos Depto. Estadística, Universidad Carlos III 9

Ejemplo: semiconductores

1 2ˆ 2.264 2.744 0.012y x x

Ignacio Cascos Depto. Estadística, Universidad Carlos III 10

Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,

independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo

Ignacio Cascos Depto. Estadística, Universidad Carlos III 11

Linealidad Los datos se ajustan aproximadamente a la ecuación:

Con dos variables explicativas:

Los datos están aproximadamente contenidos en un plano. En general, en un hiperplano.

ikkii xxy 110

22110 iii xxy

Ignacio Cascos Depto. Estadística, Universidad Carlos III 12

Homogeneidad El valor promedio de la perturbación es cero,

0][ iuE

4

Ignacio Cascos Depto. Estadística, Universidad Carlos III 13

Homocedasticidad:Var[ui]=2 Varianza de perturbaciones constante

Ignacio Cascos Depto. Estadística, Universidad Carlos III 14

Independencia

Perturbaciones ui independientes entre sí.

En particular E[uiuj]= para i j

Ignacio Cascos Depto. Estadística, Universidad Carlos III 15

Normalidad Las perturbaciones siguen distribución normal

ui~N(0, 2)

En consecuencia:

2110 ,N~ ikkii xxy

Ignacio Cascos Depto. Estadística, Universidad Carlos III 16

Otras hipótesis

El número de datos n es mayor que k+1

Ninguna variable explicativa es combinación lineal de las demás (las xi son linealmente independientes)

5

Ignacio Cascos Depto. Estadística, Universidad Carlos III 17

Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,

independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo

Ignacio Cascos Depto. Estadística, Universidad Carlos III 18

Forma matricial del modelo Habitualmente escribimos el modelo como

Y = X + Ucon:

nknkn

k

k

n u

uu

U

xx

xxxx

X

y

yy

Y

2

1

1

0

1

221

111

2

1

; ;

1111

;

nnn IXNYINU 22 ,~ ; ,0~

Ignacio Cascos Depto. Estadística, Universidad Carlos III 19

Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,

independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo

Ignacio Cascos Depto. Estadística, Universidad Carlos III 20

Método de Mínimos Cuadrados

Valor observado Dato (y)

Recta de regresiónestimada

Valor observado Dato (y)

Recta de regresiónestimada

6

Ignacio Cascos Depto. Estadística, Universidad Carlos III 21

Mínimos Cuadrados Objetivo: Buscar los valores de ,,…,k

que mejor ajustan nuestros datos. Ecuación:

Residuo:

Minimizar:

ikkiiiii xxyyye ˆˆˆˆ 110

n

iie

1

2

ikkii xxy ˆˆˆˆ 110

Ignacio Cascos Depto. Estadística, Universidad Carlos III 22

Mínimos Cuadrados Resultado en forma matricial:

YXXX tt 1ˆ

Ignacio Cascos Depto. Estadística, Universidad Carlos III 23

Ejemplo: semiconductores

Ignacio Cascos Depto. Estadística, Universidad Carlos III 24

Interpretación geométrica Hemos calculado:

Tenemos:

Definimos la matriz:

H es idempotente, simétrica y del mismo rangoque X, (k+1). Es una matriz de proyección.

YXXX tt 1ˆ

YXXXXXY tt 1ˆˆ

tt XXXXH 1

7

Ignacio Cascos Depto. Estadística, Universidad Carlos III 25

Interpretación geométrica H simétrica (obvio) H idempotente

Residuos ortogonales a valores ajustados

Residuos ortogonales a matriz de diseño X 0)( 1 XXXXXXYXHIYXe ttttt

0ˆˆ HYHIYHYHYYHYYYYe ttttt

tttttt XXXXXXXXXXXXHH 111

Ignacio Cascos Depto. Estadística, Universidad Carlos III 26

Interpretación geométrica

X

1

YX1

Y

e

0

Subespaciovectorial generado por las columnas de X

Ignacio Cascos Depto. Estadística, Universidad Carlos III 27

Varianza Para estimar 2 utilizamos la varianza residual

Es insesgado como estimador de 2 y además

1ˆ 1

22

kne

Sn

i iR

212

12

~

kn

n

i ie

Ignacio Cascos Depto. Estadística, Universidad Carlos III 28

Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,

independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo

8

Ignacio Cascos Depto. Estadística, Universidad Carlos III 29

Propiedades de los estimadores Normalidad. Sabemos Y=X +U, de donde

Y~N(X,2I). Como también es normal.

Esperanza.

Varianza.

XXXXYXXXEE tttt 11ˆ

12111ˆ XXXXXYVarXXXYXXXVarVar tttttt

YXXX tt 1ˆ

Ignacio Cascos Depto. Estadística, Universidad Carlos III 30

Propiedades de los estimadoresTenemos

La varianza 2 suele ser desconocida y utilizamos el error estándar estimado

iit

i XXVar 121

ˆ

ijt

ji XXCov 1211

ˆ,ˆ

iit

iit XXNXXN 12

1112 ,~ˆ ; ,~ˆ

211

ˆˆRii

ti SXXS

Ignacio Cascos Depto. Estadística, Universidad Carlos III 31

Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,

independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo

Ignacio Cascos Depto. Estadística, Universidad Carlos III 32

Inferencia. Contrastes para Para averiguar si la variable xi afecta a la respuesta, debemos plantear el contraste

Rechazamos la hipótesis nula si:

.0:0:

1

0

i

i

HH

2,1)ˆ(

ˆ

kn

i

i tS

9

Ignacio Cascos Depto. Estadística, Universidad Carlos III 33

Ejemplo: semiconductores

Ignacio Cascos Depto. Estadística, Universidad Carlos III 34

Inferencia. Int. de confianza para Podemos construir un intervalo de confianza para i con nivel de confianza 1 como

Si n > 30 y = 0.05, sabemos que tnk1,/2 2.

)ˆ(ˆ2,1 ikni St

Ignacio Cascos Depto. Estadística, Universidad Carlos III 35

Descomposición de la variabilidadIgual que en la regresión simple VT=VE+VNE

n

ii

n

iii

n

ii

n

ii

eyy

yy

yy

1

2

1

2

1

2

1

2

)ˆ(Explicada No adVariabilidVNE

)ˆ(Explicada adVariabilidVE

)(Total adVariabilidVT

Ignacio Cascos Depto. Estadística, Universidad Carlos III 36

Coeficiente de determinación El coeficiente de determinación se define:

El coeficiente de determinación ajustado es más interesante ya que sólo aumenta si disminuye la varianza residual

VTVNE1

)(

)ˆ(

VTVE

1

2

1

2

2

n

ii

n

ii

yy

yyR

)1(VT

ˆ1

)1(VT)1(VNE1

22

n

Sn

knR R

10

Ignacio Cascos Depto. Estadística, Universidad Carlos III 37

Ejemplo: semiconductores

Ignacio Cascos Depto. Estadística, Universidad Carlos III 38

Contraste de regresión (fuera programa)

Para averiguar si existe relación lineal entre lavariable respuesta y las explicativas, realizamos

Rechazamos la hipótesis nula si:.0algún :

0:

1

210

i

k

HH

,1,)1(VNEVE

knkF

knk

1,21 ~)1(VNE

VE entonces 0, Si knkk F

knk

Ignacio Cascos Depto. Estadística, Universidad Carlos III 39

Ejemplo: semiconductores

Ignacio Cascos Depto. Estadística, Universidad Carlos III 40

Predicción para la media Buscamos estimador puntual e I.C. para el

valor medio de la respuesta cuando xx0

010000ˆˆˆˆ kk xxy

0

10

200

2000

)(

)ˆ)(ˆ()ˆ()ˆ(

xXXxxxExyEyVar

tt

ttt

20

2

)ˆ( yVar

n

11

Ignacio Cascos Depto. Estadística, Universidad Carlos III 41

Predicción para la media El intervalo de confianza para la media que

obtenemos es:

01

02

2/,10 )(ˆˆ xXXxSty ttRkn

Ignacio Cascos Depto. Estadística, Universidad Carlos III 42

Ejemplo: semiconductores ¿Cuál sería el I.C. para para la respuesta

media si la longitud del cable es 8 y la altura de la estructura es 275?

663.27ˆ ; 012.0744.2264.2ˆ 021 yxxy

044.0)( ; 288.2ˆ ; 074.2 01

0025.0,22 xXXxSt ttR

66.28ˆ66.26 y

Ignacio Cascos Depto. Estadística, Universidad Carlos III 43

Ejemplo: semiconductores

Ignacio Cascos Depto. Estadística, Universidad Carlos III 44

Predicción para una nueva observación Intervalo de predicción

Ejemplo: semiconductores (long. 8, altura 275)

01

02

2/,10 )(1ˆˆ xXXxSty ttRkn

51.32ˆ81.22 y

12

Ignacio Cascos Depto. Estadística, Universidad Carlos III 45

Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,

independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo

Ignacio Cascos Depto. Estadística, Universidad Carlos III 46

Multicolinealidad Problema frecuente que se presenta cuando

las variables explicativas son muy dependientes entre sí.

No es un problema del modelo, sino de los datos, surge cuando det(XtX) próximo a cero.

Las variables explicativas son significativas en el modelo simple, pero dejan de serlo en el múltiple.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 47

Índice de condicionamiento Los autovalores de XtX son mayores o iguales que

cero, para que haya multicolinealidad, alguno tiene que ser aproximadamente cero.

Si 10 Ind.Cond. 30, multiolinealidad moderada Si Ind.Cond. > 30, multicolinealidad alta

0 deautovalor mínimo deautovalor máximomientoCondiciona de Índice

XXXX

t

t

Ignacio Cascos Depto. Estadística, Universidad Carlos III 48

Ejemplo: Sabor del queso

1

2

3

: Sabor: Lactico: Acetico: H2S

YXXX

13

Ignacio Cascos Depto. Estadística, Universidad Carlos III 49

Ejemplo: sabor del queso

2.544Indice de Condicionamiento= 11.290.019

Multicolinealidad moderada

Ignacio Cascos Depto. Estadística, Universidad Carlos III 50

Ejemplo: sabor del queso

Ignacio Cascos Depto. Estadística, Universidad Carlos III 51

Ejemplo: sabor del quesoRegresión simple Láctico

Antes 30.73

Ignacio Cascos Depto. Estadística, Universidad Carlos III 52

Ejemplo: sabor del quesoRegresión simple Acético

Antes 3.9

14

Ignacio Cascos Depto. Estadística, Universidad Carlos III 53

Ejemplo: sabor del quesoRegresión simple: H2S

Antes 1.2

Ignacio Cascos Depto. Estadística, Universidad Carlos III 54

Ejemplo: sabor del queso2

2

2

Sabor 29.85 37.71Lactico 49.59 (7.18)Sabor 2.15 4.76Acetato 50.61 (0.88)Sabor 9.78 5.77H2S 57.11

R

R

R

(0.94)

2Sabor 28.97 21.7Lactico 0.24Acetico 3.96H2S 65.17 (30.73) (3.98) (1.21) (0.75)

R

Ignacio Cascos Depto. Estadística, Universidad Carlos III 55

Ejemplo: sabor del quesoRegresión múltiple: Acético y H2S

Sabor

Acético50.61%

Acético + H2S 64.5%

H2S57.11%

Ignacio Cascos Depto. Estadística, Universidad Carlos III 56

Ejemplo: sabor del quesoRegresión múltiple: Láctico y H2S

Sabor

Láctico49.59%

Láctico + H2S 65.1%

H2S57.11%

15

Ignacio Cascos Depto. Estadística, Universidad Carlos III 57

Ejemplo: sabor del quesoRegresión múltiple: Láctico y Acético

Sabor

Acético Láctico + Acético 50.7%

Láctico49.59%

Ignacio Cascos Depto. Estadística, Universidad Carlos III 58

Ejemplo: sabor del queso

Ignacio Cascos Depto. Estadística, Universidad Carlos III 59

Ejemplo: sabor del quesoRegresión múltiple: Láctico y H2S

Sabor

Láctico49.59%

Láctico + H2S 65.1%

H2S57.11%

Ignacio Cascos Depto. Estadística, Universidad Carlos III 60

Diagnosis Más compleja que en la regresión simple. Gráficos de residuos frente a valores previstos

para detectar falta de linealidad y heterocedasticidad.

Gráficos probabilísticos (pp-plots) para los residuos para detectar falta de normalidad.

Análisis de datos influyentes.

16

Ignacio Cascos Depto. Estadística, Universidad Carlos III 61

Descripción breve del tema1. Introducción2. Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad,

independencia, normalidad, otras hipótesis3. Modelo en forma matricial4. Estimación de los parámetros5. Propiedades de los estimadores6. Inferencia, descomp. de la variabilidad y predicción7. Multicolinealidad y diagnosis8. Extensiones del modelo

Ignacio Cascos Depto. Estadística, Universidad Carlos III 62

Variables dicotómicasEn un muestra pueden aparecer grupos de observaciones.

Ejemplo: En una muestra de alumnos los grupos puedenvenir dados por el sexo.

Ignacio Cascos Depto. Estadística, Universidad Carlos III 63

Variables dicotómicas Podemos introducir variables ficticias,

dicotómicas o dummies del siguiente modo:

B grupo al pertenece n observació la si 1A grupo al pertenece n observació la si 0

ii

zi

Ignacio Cascos Depto. Estadística, Universidad Carlos III 64

Variables dicotómicas

uzxy 210

uxzzxy 3210

17

Ignacio Cascos Depto. Estadística, Universidad Carlos III 65

Variables politómicas En numerosas ocasiones las variables cualitativas

toman valores en más de dos características. Si tenemos s categorías, introducimos s1 variables

dicotómicas zt

contrario casoen 0

categoría la a pertenece n observació la si 1 tizit

uzzzxy 34231210