Regresion Multiple Lineal Prediccion

23
Regresión lineal múltiple. Validación y predicción Juan R González 2002

description

Regresion Multiple Lineal

Transcript of Regresion Multiple Lineal Prediccion

Page 1: Regresion Multiple  Lineal Prediccion

Regresión lineal múltiple.Validación y predicción

Juan R González2002

Page 2: Regresion Multiple  Lineal Prediccion

El problema de la colinealidad

•De nuevo aparece (X’X) en este problema, si haycolinealidad no se puede invertir (matriz singular)

•Problema de colinealidad: X1=a+bX2

•Poco usual en la práctica pero si que aparece lacasi-colinealidad (e.d. b casi 1)

•En este caso (X’X) es casi singular y lasestimaciones son poco estables (puede darsegrandes cambios en las estimaciones

Page 3: Regresion Multiple  Lineal Prediccion

El problema de la colinealidad

•Detección 1: Factor de inflación de la varianza(FIV) y la tolerancia (T)

211

jRFIV

−= 211

jRFIV

T −==

•Regla empírica (Kleinbaum): Existen problemas decolinealidad si algun FIV es >10, e.d Ri

2=0,9 y Ti<0,1

Page 4: Regresion Multiple  Lineal Prediccion

El problema de la colinealidad

•Detección 2: Realizar un análisis de componentesprincipales y establecer el índice de condición (apartir de los valores propios)

•Regla empírica (Belsley): Indices de condición entre5 y 10 colinealidad débil. Entre 30 y 100 colinealidadmoderada o fuerte.

ΨΨ

de VAPMin de Máx VAP

nescorrelacio de matriz Ψ

Page 5: Regresion Multiple  Lineal Prediccion

El problema de la colinealidad

Con SPSS:Opción Regresión lineal, Estadísticos…

Page 6: Regresion Multiple  Lineal Prediccion

El problema de la colinealidad

Diagnósticos de colinealidada

3,985 1,000 ,00 ,00 ,00 ,008,389E-03 21,794 ,00 ,00 ,35 ,715,505E-03 26,903 ,03 ,29 ,51 ,221,540E-03 50,874 ,96 ,71 ,14 ,06

Dimensión1234

Modelo1

AutovalorIndice decondición (Constante) Altura (cm)

Presióndiastólica

inicial

Presiónsistólicainicial

Proporciones de la varianza

Variable dependiente: Peso en Kg.a.

Page 7: Regresion Multiple  Lineal Prediccion

El problema de la colinealidad

•Ejercicio: Con los datos de colesterol realizar unestudio de colinealidad usando los FIV y losíndices de condición

•Nota: Previamente valorar la necesidad detransformar variables

Page 8: Regresion Multiple  Lineal Prediccion

El problema de la autocorrelación

•Aparición cuando las variablesexplicativas son series temporales•P.e. si miro la altura a lo largo deltiempo 1’60 ⇒ siguiente medida >= 1’60

•Problemas (los de siempre):•Mala estimación•Varianza mal calculada•Predicciones no correctas

Page 9: Regresion Multiple  Lineal Prediccion

El problema de la autocorrelación

•Detección: Test de Durbin-Watson

=

=−−

= n

tt

n

ttt

e

eed

1

2

1

21)(

Tiene en cuenta el residuo de una observacióny el anterior (Datos ordenados!!!)Regla:

d~2 independenciad<2 autocorrelación positivad>2 autocorrelación negativa

Problema: d no tiene distribución (simulación)

Page 10: Regresion Multiple  Lineal Prediccion

El problema de la autocorrelación

Con SPSS:Opción Regresión lineal, Estadísticos…

Page 11: Regresion Multiple  Lineal Prediccion

El problema de la autocorrelación

•Ejercicio: Con el modelo sin colinealidad de losdatos de colesterol validar la hipótesis deindependencia (no autocorrelación)

Page 12: Regresion Multiple  Lineal Prediccion

PrediccionesTras elegir el mejor modelo y validarlo podemos hacerpredicciones puntuales

01

0120 XXXXsty pn−

−−± )'('ˆ ,/α

01

0120 1 XXXXsty pn−

−− +± )'('ˆ ,/α

1. IC predicción del valor medio de Y para unacombinación de X0=(1,X1,X2,…,Xp) observados

2. IC para un valor individual de Y dado x=X0 (intervalode predicción)

Page 13: Regresion Multiple  Lineal Prediccion

PrediccionesTras elegir el mejor modelo y validarlo podemos hacerpredicciones globales

3. IC predicción esperado

4. IC predicción dato observado

01

00 XXXXspnppFy −−± )'('),(ˆ α

01

00 1 XXXXspnppFy −+−± )'('),(ˆ α

Page 14: Regresion Multiple  Lineal Prediccion

Predicciones

•Ejercicio: Con los datos de colesterol y el modelosin colinealidad estimar cuál sería el nivel decolesterol medio para un individuo de 85 años.

•¿y para los que no hacen ejercicio?

Page 15: Regresion Multiple  Lineal Prediccion

Interacción y confusión

CONFUSIÓSituación en la que la relación entre una

determinada exposición y un determinadoresultado es debido a la influencia de una

tercera variable

Page 16: Regresion Multiple  Lineal Prediccion

Interacción y confusión

tercera variable

XVariable independiente

Variable dependiente

Page 17: Regresion Multiple  Lineal Prediccion

Interacción y confusión

Variable independiente

Variable dependiente

Factor de confusiónconfounder

confounding variable

Page 18: Regresion Multiple  Lineal Prediccion

Interacción y confusión

Tasa de mortalidad /1000 (1986) CRUDA AJUSTADA

Costa Rica 3.8 3.7Venezuela 4.4 4.6México 4.9 5.0Cuba 6.7 4.0Canadá 7.3 3.2Estados Unidos 8.7 3.6

Ejemplo intuitivo

Page 19: Regresion Multiple  Lineal Prediccion

Interacción y confusión

X es un confusor......

Y M

X

Y M

X

Y M

X

X NO es un confusor......

Y M

X

Y M

X

Y M

X

Page 20: Regresion Multiple  Lineal Prediccion

Interacción y confusión

CONTROL DE LA CONFUSIÓN

en el Diseño→ Apareamiento→ Restricción

en el Análisis→ Estratificación→ Ajuste (estandarización)→ Apareamiento→ Modelización

Page 21: Regresion Multiple  Lineal Prediccion

Interacción y confusión

Hay interacción cuando:“la relación entre 2 o más factores difiere del

resultados de los efectos individuales”

El efecto puede ser:* Mayor del esperado (interacción positiva o

sinergismo)* Menor del esperado (interacción negativa o

antagonismo)

Page 22: Regresion Multiple  Lineal Prediccion

Interacción y confusión

1. ¿Hay asociación?2. En ese caso: ¿es debida a confusión?3. ¿ Se mantiene la asociación (magnitud similar) enlos estratos formados por una tercera variable?

NO(Hay interacción)

SÍ(No hay interacción)

Page 23: Regresion Multiple  Lineal Prediccion

Interacción y confusión

Ejercicio: Con los datos de Presión arterial, tabaco ycafé, contrastar la existencia de interacción yconfusión y obtener la mejor estimación para el efectode ambos factores

Nota: Previamente debemos calcular la variable deinteracción tabaco y café