FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof....

58
FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA MONTERO: TEMA 6: REGRESSIÓ LINEAL. SIMPLE I MÚLTIPLE AUTORA: Lídia Montero Mercadé Departament d’Estadística i Investigació Operativa Versió 1.0 Setembre del 2.004 ESTADÍSTICA

Transcript of FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof....

Page 1: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FACULTAT D’INFORMÀTICA

APUNTS DE CLASSE PROF. LÍDIA MONTERO:

TEMA 6: REGRESSIÓ LINEAL. SIMPLE I MÚLTIPLE

AUTORA:

Lídia Montero Mercadé

Departament d’Estadística i Investigació Operativa

Versió 1.0

Setembre del 2.004

ESTADÍSTICA

Page 2: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-2 Curs 2.004-2.005

TABLA DE CONTENIDOS

6-1. INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NORMAL _____________________________________________________________ 3 6-1.1 BIBLIOGRAFÍA __________________________________________________________________________________________________________ 3

6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS_______________________________________________________________________________ 5 6-2.1 PROPIEDADES GEOMÉTRICAS______________________________________________________________________________________________ 8 6-2.2 PROPIEDADES BÁSICAS DE INFERENCIA_____________________________________________________________________________________ 11 6-2.3 CASO PARTICULAR: LA REGRESIÓN LINEAL SIMPLE __________________________________________________________________________ 14

6-3. CONTRASTES DE HIPÓTESIS EN MODELOS NORMALES ________________________________________________________________ 18 6-3.1 CÁLCULO DE REGIONES E INTERVALOS DE CONFIANZA________________________________________________________________________ 21

6-4. EL COEFICIENTE DE CORRELACIÓN MÚLTIPLE _______________________________________________________________________ 23 6-4.1 PROPIEDADES DEL COEFICIENTE DE CORRELACIÓN MÚLTIPLE _________________________________________________________________ 26 6-4.2 R2-ADJUSTED__________________________________________________________________________________________________________ 26

6-5. TEST GLOBAL DE REGRESIÓN. TABLA ANOVA _________________________________________________________________________ 28

6-6. DISTRIBUCIÓN DE LOS VALORES AJUSTADOS _________________________________________________________________________ 30

6-7. DIAGNOSIS Y VALIDACIÓN DEL MODELO______________________________________________________________________________ 34 6-7.1 TRANSFORMACIÓN DE BOX-COX __________________________________________________________________________________________ 43

6-8. OBSERVACIONES INFLUYENTES A PRIORI Y A POSTERIORI ____________________________________________________________ 46 6-8.1 OBSERVACIONES INFLUYENTES A PRIORI ___________________________________________________________________________________ 47 6-8.2 OBSERVACIONES INFLUYENTES A POSTERIORI _______________________________________________________________________________ 49

6-9. SELECCIÓN DEL MEJOR MODELO _____________________________________________________________________________________ 51 6-9.1 PROCEDIMIENTO DE “BACKWARD ELIMINATION” ____________________________________________________________________________ 55 6-9.2 REGRESIÓN PASO O PASO (STEPWISE REGRESSION) ___________________________________________________________________________ 57

Page 3: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-3 Curs 2.004-2.005

6-1. INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NORMAL

6-1.1 Bibliografía Referències complementàries:

Draper, N.R., Smith, H.: Applied regression analysis. Wiley, 1981. Fox, J.: Applied Regression Analysis, Linear Models, and Related Methods. Sage, 1997. Seber, G.A.F.: Linear Regression Analysis. Wiley, 1977. Cook, R.D., Weisberg, S.: Residuals and Influence in Regression. Chapman and Hall, 1982. Peña, D.: Estadística. Modelos y métodos. Vol. 2, Modelos lineales y series temporales. Alianza Universidad Textos, 1989.

Page 4: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-4 Curs 2.004-2.005

INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NORMAL

Clasificación de los métodos estadísticos de análisis:

Variable de respuesta Variables

Explicativas Binaria Politómicas Continuas

Binaria Tablas de contingencia Regresión logística

Modelos log-lineales

Tablas de contingencia *

Modelos log-lineales

Comparación de medias de subpoblaciones: t-

tests

Politómicas Tablas de contingencia Regresión logística

Modelos log-lineales

Tablas de contingencia Modelos log-lineales ANOVA

Continuas Regresión logística * Regresión Múltiple

Factores y covariables

Regresión logística * ANCOVA

Page 5: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005

6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

Sea el modelo con variable de respuesta contínua,

εβεµ +=+= XY , donde Y , µη = son nx1, X es nxp y β es px1

en primera instancia sin ninguna hipótesis sobre la distribución de la variable Y, ni los errores.

La estimación de los parámetros β puede caracterizarse de manera genérica como,

( ) ( )∑ −=∑k

Tkk

kk YMMMin ββ xε

donde la función real de los errores puede ser:

• M(x)=|x|, da lugar a procedimientos de estimación robusta basados en la norma 1.

• M(x)=x2, que da lugar al método de los mínimos cuadrados.

El método de los mínimos cuadrados de entrada no requiere de ninguna hipótesis sobre la distribución de las observaciones.

La función objetivo a minimizar se suele denominar ( )βS y se define ( ) ∑=⋅==k

kTS 22 εεεεβ

o bien,

Page 6: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-6 Curs 2.004-2.005

ESTIMACIÓN POR MÍNIMOS CUADRADOS

… La función objetivo a minimizar es …

( ) ( ) ( ) ( ) YXXXYYxXYXY TTTTT

k

Tkk

TT YS ββββββεεεβ 222

−+=∑ −=−⋅−=⋅==

Las condiciones de primer orden de mínimo de ( )βS son:

( ) ( ) piSSi

,,0 K10 ==∂∂

↔=∇ββββ

Derivando vectorialmente la expresión se obtienen las bien conocidas ecuaciones normales,

( ) ( ) ( ) YXXXˆb0YXXX0 TTTTSS

122

−==→=−=

∂∂

↔=∇ ββββββ

Si la matriz de diseño es no singular, es decir de rango p, entonces la solución es única. Si X no es de pleno rango, existen infinitas soluciones a las ecuaciones normales,

( ) ( )( ) ℜ∈−+==→=−−

wwTTTTTT XXXXIYXXXˆbYXXX ββ 22

pero todas ellas facilitan un predictor lineal Xbˆy == µ idéntico y un mínimo de la función objetivo por tanto idéntico.

Page 7: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-7 Curs 2.004-2.005

ESTIMACIÓN POR MÍNIMOS CUADRADOS

En modelos específicos ANOVA y ANCOVA, las dependencias lineales entre las columnas de la matriz de diseño pueden eliminarse mediante una reparametrización, que aconsejablemente debe aplicar el estadístico, ya que la interpretabilidad de los parámetros resultantes depende de ella.

( )−− = XXA T es una g-inversa o inversa generalizada y satisface AAAA =−

.

−A siempre existe, pero no es única. Si además satisface:

1. −−− = AAAA 2. ( ) −− = AAAAT

3. ( ) AAAA −− =T

Entonces −A es única y se denomina inversa de Moore-Penrose o p-inversa y nota como

+A .

Las condiciones de segundo orden de suficiencia de mínimo requieren que la hessiana de ( )βS sea definida positiva, es decir ,

( ) ( ) pjiSSji

,,,0 K102

2 =>

∂∂∂

↔>∇βββββ

Page 8: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-8 Curs 2.004-2.005

ESTIMACIÓN POR MÍNIMOS CUADRADOS

( ) ( ) pjiSSji

,,,0XX0 T K122

2 =>=

∂∂∂

↔>∇βββββ si la matriz de diseño X es no

singular entonces la hessiana es definida positiva y el punto que satisfaga las condiciones de primer orden es un mínimo global.

6-2.1 Propiedades geométricas

Sea ( )Xℜ el espacio generado por las columnas de X, ( ) { } np ℜ⊂ℜ∈==ℜ ββηη XX .

Sea η la solución del problema de minimización ηηη ˆY =−2Min ,

Entonces se puede demostrar que η es la proyección ortogonal de Y y es única, siendo el operador de

proyección, la denominada matriz sombrero, ( ) TT XXXXP−

= , puesto que su aplicación a Y facilita

los valores ajustados o predichos de Y, notados Y ,

( ) TT XXXXP−

= pone el sombrero ^ a la Y: ( ) PYYXXXXXbY TT ===−

.

Page 9: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-9 Curs 2.004-2.005

ESTIMACIÓN POR MÍNIMOS CUADRADOS

Gráficamente,

( )Xℜ

η

η−YY

η

ηY− es perpendicular al espacio engendrado por las columnas de la matriz de diseño ( )Xℜ .

Los valores ajustados se notan PYˆXˆY === βη (son únicos).

Los residuos se definen como las diferencias entre los valores observados y los valores ajustados: ( )YPIˆXYˆYYYe −=−=−=−= βη (son únicos).

No confundir los residuos, con los errores: βηε XYY −=−= .

Page 10: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-10 Curs 2.004-2.005

ESTIMACIÓN POR MÍNIMOS CUADRADOS

La matriz P es simétrica e idempotente y representa la proyección ortogonal de Y sobre ( )Xℜ .

Además I-P también es simétrica e idempotente y representa la proyección ortogonal de Y sobre el

complemento ortogonal de ( )Xℜ , notado como ( )⊥ℜ X .

Por tanto cualquier vector Y de nℜ se puede representar de manera única como la suma vectorial de

una componente de ( )Xℜ más una segunda componente de ( )⊥ℜ X :

( ) ( )ηη ˆYˆYPIPYY −+=−+= .

La suma de cuadrados residual (RSS, por las siglas en inglés) es el valor mínimo que toma la función

( )βS , es decir ( )βS donde β es el estimador por mínimos cuadrados de los parámetros del modelo εβεη +=+= XY ,

( ) ( ) ( ) ( ) ( )( ) ( )SCRRSS

eSTTTTTTTTT

TTTTTTTT

==−=−−+=

−+=−⋅−=−⋅−=⋅==

ββββββββββηηβ

ˆXXˆYYYXˆYXˆXXˆYYYXˆˆXXˆYYˆXYˆXYˆYˆYeeˆ 22

Page 11: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-11 Curs 2.004-2.005

ESTIMACIÓN POR MÍNIMOS CUADRADOS

6-2.2 Propiedades básicas de inferencia

Sea el modelo con variable de respuesta contínua,

εβεη +=+= XY , donde Y ,η son nx1, X es nxp de rango p y β es px1

y los errores son no sesgados: [ ] 0E =ε .

En ese caso, si β es el estimador por mínimos cuadrados de β entonces es un estimador no sesgado:

[ ] ( )[ ] ( ) [ ] ( ) βββ ====−−−

XXXXYEXXXYXXXEˆE TTTTTT 111

Sea el modelo con variable de respuesta contínua,

εβεη +=+= XY , donde Y ,η son nx1, X es nxp de rango p y β es px1 y los errores son no sesgados y no correlacionados de varianza constante:

[ ] 0E =ε y [ ] nIV 2σ=ε ( ( ) 2σδεε ijjiCOV =, ) .

Page 12: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-12 Curs 2.004-2.005

ESTIMACIÓN POR MÍNIMOS CUADRADOS

Teorema de Gauss-Markov:

El estimador lineal no sesgado de mínima varianza de β es ( ) YXXXˆ TT 1−=β , estimador por

mínimos cuadrados.

El teorema sigue siendo válido si la matriz de diseño no es de pleno rango (rango inferior a p), en cuyo caso la expresión del estimador por mínimos cuadrados debe contener la inversa generalizada.

En el modelo actual, un estimador no sesgado de 2σ , notado

2s es,

( ) ( )pn

SCRpnpn

sTT

−=

−−⋅−

=−⋅

=ββ ˆXYˆXYee2

Sea el modelo con variable de respuesta continua,

εβεη +=+= XY , donde Y ,η son nx1, X es nxp de rango p y β es px1

y los errores son no sesgados de varianza constante, independientes y distribuidos normalmente:

( )nn I0,N 2σ≈ε o equivalentemente ( )nn I,XNY 2σβ≈ .

Page 13: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-13 Curs 2.004-2.005

ESTIMACIÓN POR MÍNIMOS CUADRADOS

…Entonces, el estimador no sesgado de mínima varianza de β es ( ) YXXXˆ TT 1−=β , estimador

por mínimos cuadrados y coincide con el estimador de β por maximización de verosimilitud MVβ .

En ausencia de normalidad, los estimadores por mínimos cuadrados no son eficientes, es decir tienen una varianza superior a la varianza de los estimadores MV.

En el modelo actual, el estimador no sesgado de 2σ , notado

2s es eficiente (de mínima varianza),

( ) ( )pn

SCRpnpn

sTT

−=

−−⋅−

=−⋅

=ββ ˆXYˆXYee2

Teorema de distribución de los estimadores de los parámetros (Th 3.5 Seber (77) pag. 54) :

1. ( )( )12 −≈ XX,Nˆ Tσββ p .

2. ( ) [ ] ( ) ( ) ( ) 221p

TT χβββββββββ ≈−−=−−− σˆXXˆˆˆVˆ T

.

3. ( ) YXXXˆ TT 1−=β es independiente de s2.

4. ( ) 2222pnspnSCR −≈−= χσσ .

Page 14: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-14 Curs 2.004-2.005

ESTIMACIÓN POR MÍNIMOS CUADRADOS

6-2.3 Caso particular: la regresión lineal simple

Sea el modelo con variable de respuesta contínua,

εβεµ +=+= XY , donde Y , µη = son nx1, [ ]x1X = es nx2 de rango 2 y β es 2x1

y los errores son no sesgados de varianza constante, independientes y distribuidos normalmente:

( )nn I0,N 2σ≈ε o equivalentemente ( )nn I,XNY 2σβ≈ .

El modelo ordinario de regresión lineal simple presupone una recta de relación entre la variable explicativa x asociada al parámetro 2β y la variable de respuesta Y.

La recta no tiene porqué pasar por el origen y por tanto la matriz de diseño contiene una columna

constante con valores 1 a la que se asocia el denominado término independiente, parámetro 1β .

En resumen, y después de haber descrito la particularización de la notación general al modelo de RLS clásico, lo que se persigue es determinar “de la mejor manera posible” los coeficientes de la recta de

regresión que relaciona la variable de respuesta Y con la variable explicativa x: iii xy εββ ++= 21 .

Page 15: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-15 Curs 2.004-2.005

ESTIMACIÓN M. C. REGRESIÓN LINEAL SIMPLE

Los estimadores por mínimos cuadrados ordinarios se obtienen planteando las ecuaciones normales:

( ) ( ) ( ) ( )∑ −−=−⋅−=k

kkT xYS

221 βββββ XYXY

Las condiciones de primer orden de mínimo de ( )βS son:

( )( ) ( )( ) ( ) xYxnYxYS

xxxYxxYS

Sk kk k

kkk

k kk kk kkk

kkk

212121

2121

βββββββ

βββββ

ˆˆˆˆ

ˆˆ

0+=→∑+∑ =→∑ −−−==

∂∂

∑+∑∑ =→∑ −−−==∂∂

↔=∇20

20

1

2

β

ββ

La segunda ecuación indica que la recta de regresión siempre pasa por el punto ( )yx , y dividiendo la primera por el número de observaciones n y restando la segunda se obtiene:

( ) ( )2

222

xx

k kk kk kk

sxYCovsxYCovx

nx

xn

xxY

nxY ,ˆˆ,ˆˆ =→=→

−+

−=−→ ∑∑∑

2221 ββββ

La estimación de la varianza del modelo resulta: 22

22

−=

−= ∑

ne

nSCRs k k

.

Page 16: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-16 Curs 2.004-2.005

ESTIMACIÓN M. C. REGRESIÓN LINEAL SIMPLE

La varianza de los estimadores ( )( )122

−≈ XX,Nˆ Tσββ puede expresarse en este caso particular

como:

[ ]

[ ]

+=

=

2

2

2

2

2

2

1xx

x

sx

nsV

nsV

σβ

σβ

1

2

ˆ

ˆ

Page 17: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-17 Curs 2.004-2.005

ESTIMACIÓN M. C. MÍNIMOS CUADRADOS GENERALIZADOS

Síntesis de la estimación e inferencia por mínimos cuadrados con respuesta normal:

MODELO [ ] IV,XY 2σ=+= εεβ

[ ] DV,XY 2σ=+= εεβ [ ] TKKWV,XY 22 σσ ==+= εεβ

Transformación YY → , XX → YDY 21−→ , XDX 2

1−→ YKY 1−→ , XKX 1−→

( )βS Forma cuadrádica a minimizar

( ) ( )ββ XYXY −− T ( ) ( )ββ XYDXY 1 −− −T

( ) ( )ββ XYWXY 1 −− −T

Ecuaciones normales QS =β

YXQX,XS TT == YDXQX,DXS 1T1T −− ==

YWXQX,WXS 1T1T −− ==

Estimadores β ( ) YXXX TT 1− ( ) YDXXDX 111 −−− TT ( ) YWXXWX 111 −−− TT

Varianza de β ( ) 12 −XXTσ ( ) 12 −− XDX 1Tσ ( ) 12 −− XWX 1Tσ

SCR ( ) βYXYYTTT − ( ) βYDXYDY

T1T1T −− −

( ) βYWXYWYT1T1T −− −

Page 18: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-18 Curs 2.004-2.005

6-3. CONTRASTES DE HIPÓTESIS EN MODELOS NORMALES

Sea el modelo con variable de respuesta continua y normal,

εβεµ +=+= XY , donde Y , µη = son nx1, X es nxp de rango p y β es px1

y los errores son no sesgados y no correlacionados de varianza constante: [ ] 0E =ε y

[ ] nIV 2σ=ε . Los estimadores ordinarios por mínimos cuadrados se vienen notando β .

Sea el modelo con variable de respuesta continua y normal,

εβεµ +=+= XY , donde Y , µη = son nx1, X es nxp de rango p y β es px1

y los errores son no sesgados y no correlacionados de varianza constante: [ ] 0E =ε y

[ ] nIV 2σ=ε sujeto a un conjunto de restricciones lineales cA =β que definen una hipótesis a

contrastar denominada H, donde A es una matriz qxp de rango q < p. Los estimadores ordinarios

por mínimos cuadrados se notarán Hβ .

Page 19: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-19 Curs 2.004-2.005

CONTRASTES DE HIPÓTESIS EN MODELOS NORMALES

En una sección anterior se ha ilustrado la relación entre los estimadores ordinarios por mínimos cuadrados y los estimadores ordinarios por mínimos cuadrados restringidos:

( ) ( )( ) ( )cˆAAXXAAXXˆˆ −−=−−−

βββ111 TTTT

H

Sea SCR la suma de cuadrados residual del modelo completo y SCRH la suma de cuadrados residual del modelo restringido, que tienen por expresión:

( ) ( ) ( ) ( ) ( )YPIYYPYYPYˆXYˆXY −=−−=−−= TTTSCR ββ

y

( ) ( )H

T

HHSCR ββ ˆXYˆXY −−=

El contraste de la hipótesis H puede realizarse a partir de un estadístico distribuido según la ley de Fisher y relacionado con la variación de la suma de cuadrados residual y los grados de libertad del modelo que se justifica en los siguientes puntos y recibe el nombre de contraste de la varianza incremental.

Page 20: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-20 Curs 2.004-2.005

CONTRASTES EN MODELOS NORMALES. VARIANZA INCREMENTAL

1. Si la hipótesis H es cierta, entonces se puede demostrar que

( )( )

( )pnq

HH Fsq

SCRSCRpnSCR

qSCRSCRF −→

−=

−−

= ,2

La justificación del test puede realizarse a partir de la estimación de la varianza del modelo por la suma

de cuadrados residual del modelo restringido 2Hs , que tiene por esperanza matemática usando el

resultado del punto 2:

[ ] ( ) ( )( ) ( )qq

SCRSCRs

TTTH

HcAAAcA −−

+=

−=

−− βXXβσEE11

22

Si H es cierta entonces 0=δ tanto 2Hs como

2s son estimadores no sesgados de 2σ y por tanto

el estadístico 2

2

ssF H=

toma un valor alrededor de 1. H es rechazada si el estadístico F toma

valores significativamente grandes.

Page 21: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-21 Curs 2.004-2.005

CONTRASTES EN MODELOS NORMALES. REGIONES E INTERVALOS

6-3.1 Cálculo de regiones e intervalos de confianza

Consideración: Un problema habitual en estadística reside en el cálculo de intervalos de confianza bilaterales para k combinaciones lineales de los parámetros: una probabilidad α−1 en cada intervalo por separado, implica una probabilidad global simultanea de veracidad que no es α−1 , sinó más pequeña del orden αk−1 .

Por ejemplo con k=10 intervalos a un nivel habitual 050.=α implica 50.α =− k1 .

Los intervalos de confianza de Bonferroni son una salida rudimentaria al problema anterior, que fuerza al cálculo de intervalos de confianza individuales a un nivel k/α , para conseguir una probabilidad simultanea conjunta de certeza del nivel α−1 .

El método de Scheffé es más difícil de justificar, pero facilita intervalos más fiables y tiene en cuenta las relaciones entre los parámetros.

Page 22: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-22 Curs 2.004-2.005

CONTRASTES EN MODELOS NORMALES. REGIONES E INTERVALOS

Los intervalos de confianza para los coeficientes individuales iβ se obtienen mediante la fórmula habitual:

pnii tt

i

−≈−

σββ

ˆˆ

ˆ → i

pni tβ

α σβ ˆˆˆ 2−± donde ( ) 1−

= iiT XXs

iβσ ˆˆ

y pnSCRs−

== σ

2αpnt − es el valor correspondiente al estadístico t de Student para el cálculo de un intervalo de

confianza bilateral a un nivel α con los grados de libertad correspondientes a la estimación de varianza del modelo (n-p).

Los contrastes de significación se realizarán a partir del cálculo del estadístico pnii tt

i

−≈−

σββ

ˆˆ

ˆ y

su comparación con el valor de la ley t de Student de n-p grados de libertad al nivel de confianza, unilateral o bilateral, deseado.

Page 23: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-23 Curs 2.004-2.005

6-4. EL COEFICIENTE DE CORRELACIÓN MÚLTIPLE

Una medida de la bondad del modelo ajustado a los datos, en los modelos lineales normales, es el coeficiente de correlación múltiple R, definido como el coeficiente de

correlación muestral entre los datos ky y los valores

ajustados ky :

El estadístico R2 se denomina coeficiente de determinación.

La descomposición de la suma de cuadrados total (SCT) como suma de cuadrados explicada (SCE) por el modelo más suma de cuadrados residual (SCR) es un resultado conocido y muy útil en modelos lineales

que incluyen término independiente (por simplicidad, supóngase que es el primer parámetro 1β )

1. SCT=( )∑ −

kk yy 2

donde ∑=k

kyn

y 1 es la media muestral de las observaciones.

2. SCE= ( )∑ −k

k yy 2ˆ y SCR= ( )∑ −k

kk yy 2ˆ .

( )( )( ) ( ) 2

122

∑ −∑ −

∑ −−=

kk

kk

kkk

yyyy

yyyyR

ˆˆ

ˆˆ

Page 24: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-24 Curs 2.004-2.005

EL COEFICIENTE DE CORRELACIÓN MÚLTIPLE …

3. SCT=SCE+SCR, es decir, ( )∑ −k

k yy 2= ( )∑ −

kk yy 2ˆ + ( )∑ −

kkk yy 2ˆ , ya que

( ) ( ) ( )( ) ( ) ( ) ( )( )

( ) ( )∑∑∑∑∑∑∑

−+−

=−−+−+−=−+−=−

kkk

kk

kkkk

kkk

kk

kkkk

kk

yyyy

yyyyyyyyyyyyyy22

2222 2

ˆˆ

ˆˆˆˆˆˆ

donde,

( )( ) ( ) ( ) ( ) ( )( ) ( ) 0PYPIYPYPYY

YYYˆˆˆˆˆˆˆ

TT

T

=−=−=

=−=−=−−−=−− ∑∑∑∑k

kkkk

kkk

kkkk

kkk yyyyyyyyyyyyy

El coeficiente de correlación múltiple puede reescribirse a partir del resultado anterior:

( )( )( ) ( )

( )( )

( ) ( )( )( )

( ) ( )( )( ) ( )

( ) ( )( )

( ) ( )( )

( )

21

21

21

21

21

21

2

2

22

2

22

2

222222

∑ −

∑ −=

∑ −∑ −

∑ −=

∑ −∑ −

∑ ∑ −+−−=

=

∑ −∑ −

∑ −−+−=

∑ −∑ −

∑ −−=

∑ −∑ −

∑ −−=

kk

kk

kk

kk

kk

kk

kk

k kkkkk

kk

kk

kkkkk

kk

kk

kkk

kk

kk

kkk

yy

yy

yyyy

yy

yyyy

yyyyyy

yyyy

yyyyyy

yyyy

yyyy

yyyy

yyyyR

ˆ

ˆˆ

ˆ

ˆˆ

ˆˆˆ

ˆˆ

ˆˆˆ

ˆˆ

ˆ

ˆˆ

ˆˆ

Page 25: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-25 Curs 2.004-2.005

EL COEFICIENTE DE CORRELACIÓN MÚLTIPLE …

El coeficiente de determinación puede reescribirse ahora:

O equivalentemente

( )SCTRSCR 21−= .

El test basado en el estadístico de Fisher para cualquier hipótesis lineal 0A =β : H, donde A es una matriz qxp de rango q < p puede reescribirse en función del coeficiente de determinación del modelo

completo R2 y del coeficiente de correlación del modelo bajo la hipótesis nula 2HR (modelo restringido)

si la hipótesis no involucra al forzosamente existente término independiente del modelo (usualmente parámetro 1, ligado a una columna de la matriz de diseño que contiene unos en todas las posiciones):

( )( )

( )( ) ( )( )( )

( )( ) pnq

HHH FRRR

qpn

SCTRSCTRSCTR

qpn

pnSCRqSCRSCRF −→

−−−

=−

−−−−=

−−

= ,2

22

2

22

1111

( )( ) SCT

SCRSCTSCE

yy

yyR

kk

kk

−==∑ −

∑ −= 12

2

2ˆˆ

Page 26: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-26 Curs 2.004-2.005

EL COEFICIENTE DE CORRELACIÓN MÚLTIPLE …

6-4.1 Propiedades del coeficiente de correlación múltiple

1. 1≤R y si |R|=1 existe una relación funcional exacta entre la respuesta y los regresores.

2. R es el coeficiente de correlación lineal simple entre los valores observados y los valores ajustados.

3. )( 21100 R− representa el % de variabilidad no explicada por el modelo.

6-4.2 R2-adjusted

Los modelos de regresión lineal ordinarios suelen tener un parámetro vinculado a un regresor constante, cuya columna en la matriz de diseño contiene 1s y se denomina término independiente. Arbitrariamente, el

primero de los parámetros suele denotar el término independiente: 1β .

La presencia de término independiente facilita la interpretabilidad del modelo de regresión ya que permite reescribir el coeficiente de determinación:

( ) ( ) ( ) 2222 22 YnYnYYYnYYYYSCTk

kk

kk

k −=+−=+−=−= ∑∑∑ YYYYYY TTT

Page 27: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-27 Curs 2.004-2.005

EL COEFICIENTE DE CORRELACIÓN MÚLTIPLE … R2-ADJUSTED

( ) ( ) 2222

2 YnYnYnYYYYSCEk

kk

k −=−=+−=−= ∑∑ βXYPYYˆYYˆˆ TTT

SCTSCR

SCTSCE

YnYnR −==

−−

= 12

22

YY

ˆXYT

T β

Algunos estadísticos prefieren emplear al valorar los modelos de regresión ordinarios, el denominado coeficiente de determinación ajustado, ajuste que se refiere a la introducción de los correspondientes grados de libertad de SCT y SCR, muy relacionado con el estadístico Cp de Mallows:

( )

−−

−−=−−

−=pn

nRnSCT

pnSCRRa111

11 22

El coeficiente de determinación ajustado siempre es inferior al coeficiente de determinación y puede tomar valores negativos. Si R2 siempre crece al incrementar el número de regresores, ya que la suma de

cuadrados residual siempre se reduce, 2aR únicamente sufre un incremento al añadir uno o más nuevos

regresores, si el estadístico de Fisher F correspondiente al test de significación de los nuevos regresores toma un valor superior a 1.

Page 28: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-28 Curs 2.004-2.005

6-5. TEST GLOBAL DE REGRESIÓN. TABLA ANOVA

El test global de regresión es un caso particular del contraste de hipótesis múltiples en modelos con término independiente, donde la hipótesis H a contrastar es que todos los parámetros son cero, excepto

el correspondiente al término independiente: 002 == pββ ,,K .

( )( )

( ) ( )( )

( )( ) ( ) ,, pnp

H Fsp

SCEpnSCR

pSCEpnSCRpSCRSCT

pnSCRqSCRSCRF −−≈

−=

−−

=−

−−=

−−

= 12111

O bien en función de los coeficientes de determinación del modelo completo (2R ) y del modelo bajo la

hipótesis (únicamente con el parámetro 2

1 HR,β ):

( )( ) pnp

H FRRR

ppnF −−≈

−−

−−

= ,12

22

11

Page 29: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-29 Curs 2.004-2.005

TEST GLOBAL DE REGRESIÓN. TABLA ANOVA

El contraste global de regresión se ve clarificado si la descomposición de la varianza se escribe en forma de tabla ANOVA, algo habitual en los paquetes estadísticos:

TABLA ANOVA Descomposición Grados libertad Varianza Contraste

SCE ( )∑ −k

k yy 2ˆ p-1 2

exps =SCE/(p-1)

SCR ( )∑ −k

kk yy 2ˆ n-p 2s =SCR/(n-p) F=2exps / 2s

SCT ( )∑ −k

k yy 2 n-1 2

Ys =SCT/(n-1)

Page 30: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-30 Curs 2.004-2.005

6-6. DISTRIBUCIÓN DE LOS VALORES AJUSTADOS

Sea kY el valor ajustado para la observación k-ésima que tiene por valores de los regresores

( )pxx K21=Tkx : βxˆ T

k=kY .

1. [ ] [ ] ββ Tk

Tk xˆxˆ == ΕΕ kY .

2. [ ] [ ] [ ] ( ) kkk pVVYV 22 σσ ====−

k1TT

kkTk

Tk xXXxxˆxˆxˆ ββ , donde kkp es el término

diagonal k-ésimo de la matriz de proyección, que por ser idempotente tiene valores entre 1/n y 1. La varianza del valor ajustado es mínima si se encuentra en el centro de gravedad de los regresores.

3. Se distribuye normalmente.

Si ( )pxx K21=Tx son los valores de los regresores que permiten hacer una prognosis

sobre un valor medio ajustado Y : βxˆ T=Y .

Page 31: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-31 Curs 2.004-2.005

DISTRIBUCIÓN DE LOS VALORES AJUSTADOS

Las fórmulas anteriores para la determinación de su esperanza y su varianza siguen siendo válidas,

[ ] ( ) xXXxˆ 1TT −= 2σYV , pero al no ser un punto considerado en la matriz de diseño para la estimación

de los parámetros ( ) xXXx1TT −

puede ser superior a la unidad e incluso arbitrariamente grande.

La precisión de las estimaciones en la extrapolación de un modelo de regresión a un rango de valores x fuera del rango empleado para la estimación puede ser muy deficiente.

En la literatura sobre modelos de regresión, la distribución de los valores ajustados se suele denominar distribución de los valores medios (no se considera el término de residuo) y los intervalos de confianza se calculan en base a la ley t de Student de n-p grados de libertad:

( )→≈−

10,xˆ

ˆ

T

NY

Yσβ

pnY

tY

t −≈−

T

ˆxˆ

σβ

donde ( ) ( ) xXXxxXXxˆˆ 1TT1TTˆ

−−== sY σσ

Con lo que un intervalo de confianza bilateral a un nivel α para el verdadero valor medio viene

determinado por: YpntY ˆˆˆ σ2α−± .

Page 32: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-32 Curs 2.004-2.005

DISTRIBUCIÓN DE LOS VALORES AJUSTADOS

La predicción de un valor particular no observado ∗∗ += εβx T*Y para quien los regresores toman por

valor ( )pxx K21=T*x requiere de la estimación de las perturbaciones aleatorias, es decir, de

la estimación de la varianza de las perturbaciones aleatorias para predicciones con valores de los

regresores ( )pxx K21=T*x : ∗∗ += εβx T

*Y y ∗ε independiente de las perturbaciones

aleatorias de las observaciones empleadas para la estimación ( )nT εε K1=ε :

1. [ ] [ ] [ ] 0=−=−=−= ∗∗∗ ββββ T*

T*

T*

T* xxˆxxˆ ΕΕΕ YYε es centrada.

2. [ ] [ ] [ ] [ ] [ ] ( )( )*1TT

*T*

T* xXXxxˆxˆxˆ −

∗∗∗∗∗ +=+=+=−= 122 σσε ββ VVYVYYVV .

3. Las perturbaciones aleatorias ajustadas estan distribuidas normalmente y son correlacionadas:

( )( )( )TT2 XXXXI0,NYY +≈−= σε .

Los intervalos de confianza se calculan en base a la ley t de Student de n-p grados de libertad:

( )→≈ 10,Nεσε

pntt −≈=εσεˆ donde ( ) ( ) xXXxxXXxˆˆ 1TT1TT −−

+=+= 11 sσσε

Page 33: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-33 Curs 2.004-2.005

DISTRIBUCIÓN DE LOS VALORES AJUSTADOS

…Con lo que un intervalo de confianza bilateral a un nivel α para el verdadero valor de la perturbación

aleatoria viene determinado por: ε2α σpnt −± .

Lo que lleva al cálculo de un intervalo de confianza bilateral a un nivel α para el verdadero valor de una

observación particular venga determinado por: ε2α σˆpntY −± , donde βxˆ T=Y .

Los residuos tienen una distribución:

1. [ ] [ ] [ ] [ ] 0XXˆXYYYe =−=−=−= βββΕΕΕΕ .

2. [ ] ( )[ ] ( ) [ ]( ) ( ) ( )PIPIPIYPIYPIe −=−=−−=−= 222 σσVVV T.

Page 34: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-34 Curs 2.004-2.005

6-7. DIAGNOSIS Y VALIDACIÓN DEL MODELO

El análisis de los residuos constituye una herramienta práctica y que entra por los ojos para la validación de las hipótesis aparentemente muy teóricas de la regresión lineal y por tanto, para garantizar las propiedades estadísticas de los estimadores del modelo asumido:

Sea el modelo con variable de respuesta contínua,

εβεµ +=+= XY , donde Y , µη = son nx1, X es nxp de rango p y β es px1

y los errores son no sesgados de varianza constante, no correlacionados y distribuidos normalmente:

( )nn I0,N 2σ≈ε o equivalentemente ( )nn I,XNY 2σβ≈ .

Los residuos son las diferencias entre los valores observados y los valores ajustados por el modelo:

( ) ( )( ) ( ) ( )εεββεβ PIPIPXXXPIYPIYYe −=−+−=+−=−=−= y de ahí que a veces se les denomine errores observados, término que únicamente debiera emplearse si el modelo es correcto.

Page 35: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-35 Curs 2.004-2.005

DIAGNOSIS Y VALIDACIÓN DEL MODELO

Los residuos tienen una distribución:

3. [ ] [ ] [ ] [ ] 0XXˆXYYYe =−=−=−= βββΕΕΕΕ .

4. [ ] ( )[ ] ( ) [ ]( ) ( ) ( )PIPIPIYPIYPIe −=−=−−=−= 222 σσVVV T.

Aunque los errores ε sean independientes y de varianza constante, los residuos e no son

independientes, ni tienen la misma varianza: [ ] ( ) ( )( )T1T XXXXIPIeV−

−=−= 22 σσ o bien

individualmente, la varianza del residuo i-ésimo es [ ] ( )iii peV −= 12σ , donde iip es el elemento

diagonal i-ésimo de la matriz de proyección P.

Para comparar los residuos entre sí, suele ser más ilustrativo transformarlos, encontrándose en la literatura y los paquetes estadísticos diversas posibilidades:

1. El residuo escalado ic se define como el residuo dividido por el estimador de la desviación estandard

del modelo s, sec i

i = , lo cual no es demasiado incorrecto si no existen grandes variaciones en

[ ] ( )iii peV −= 12σ .

Page 36: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-36 Curs 2.004-2.005

DIAGNOSIS Y VALIDACIÓN DEL MODELO

Sin embargo, en los residuo estandarizados numerador y denominador son dependientes, ya que ie se ha

empleado para estimar la varianza del modelo 22 s=σ , lo que puede solucionarse eliminando la

observación i-ésima de los cálculos y estimando una regresión con los restantes n-1 datos, lo que daría

lugar a los estimadores ( )iβ y ( )2is que podrían relacionarse formalmente con los estimadores β y

permiten definir los denominados residuos estudentizados.

2. El residuo estandarizado id se define como el residuo dividido por su desviación tipo: ii

ii ps

ed−

=1 .

3. El residuo estudentizado ir se define como ( ) iii

ii ps

er−

=1 donde ( )

( ) ( )1122

2

−−−−−

=pn

pespns iiii .

Los residuos estudentizados siguen una distribución t de Student con n-p-1 grados de libertad bajo modelos de respuesta continua sujetos a las hipótesis ordinarias.

Page 37: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-37 Curs 2.004-2.005

DIAGNOSIS Y VALIDACIÓN DEL MODELO

El análisis de los residuos permite concluir si las hipótesis asumidas son correctas o no son correctas (y por qué no lo son) y se realiza en base a herramientas gráficas de la estadística descriptiva:

1. Histograma de los residuos: se persigue ver que esten centrados en el cero y que su distribución sea aproximadamente normal. Un boxplot puede ayudar a identificar los outliers de los residuos.

2. Tambien se puede emplear un Normal Probability Plot de los residuos estandarizados o estudentizados (recta de Henry).

-3 -2 -1 0 1 2 3

1

5

10

20304050607080

90

95

99

Data

Perc

ent AD* 1,271

Goodness of Fit

Normal Probability Plot for SRES1ML Estimates - 95% CI

Mean

StDev

-0,0130478

0,998890

ML Estimates

Page 38: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-38 Curs 2.004-2.005

DIAGNOSIS Y VALIDACIÓN DEL MODELO

Ante desviaciones de la normalidad los contrastes basados en las leyes t de Student y F de Fisher, se convierten en aproximados, además de perder la eficiencia de los estimadores, se debe proceder mediante la aplicación de una transformación adecuada a la variable de respuesta Y.

La potencia de los tests de normalidad es baja, ya que aunque los errores no sean normales, los residuos son combinación lineal de los errores y en virtud del Teorema Central del Límite tienden a la normalidad, a pesar de ser dependientes (para n>30, no suele ser crucial este último aspecto).

Los residuos suelen estar correlacionados con las observaciones iY , pero no con los valores ajustados

iY , de ahí la selección de estos últimos para la realización de los gráficos indicados. (Ejemplo de Ascombe, Peña pp. 263-264 vol.2).

3. Diagrama bivariante de los residuos (en ordenadas) frente a los valores ajustados: ii Yvse ˆ , o mejor

ii Yvsd ˆ o ii Yvsr ˆ . Estos gráficos suelen indicar la falta de linealidad (requiere transformación de

las observaciones iY y/o introducción de nuevos regresores), heterocedasticidad (requiere transformación de las observaciones iY ) e identifican valores atípicos.

Page 39: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-39 Curs 2.004-2.005

DIAGNOSIS Y VALIDACIÓN DEL MODELO

5 6 7 8 9 10

-2

-1

0

1

2

Fitted Value

Stan

dard

ized

Res

idua

l

Residuals Versus the Fitted Values(response is YA)

Page 40: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-40 Curs 2.004-2.005

DIAGNOSIS Y VALIDACIÓN DEL MODELO

1098765

1

0

-1

-2

Fitted Value

Sta

ndar

dize

d R

esid

ual

Residuals Versus the Fitted Values(response is YB)

Page 41: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-41 Curs 2.004-2.005

DIAGNOSIS Y VALIDACIÓN DEL MODELO

La visualización de una banda horizontal de residuos centrada en Y=0 indica satisfacción de las hipótesis. Los residuos estudentizados tienen una distribución de referencia y por tanto, la presencia de puntos con valores negativos o positivos más allá de un cierto nivel de confianza seleccionado para la distribución de referencia (t de Student de n-p-1 grados de libertad) indica un valor atípico del residuo o outlier en los residuos.

4. Diagramas bivariantes de los residuos (en ordenadas) frente a cada uno de los regresores (excepto el término independiente).

Ayudan a identificar si la falta de linealidad (paliable mediante la transformación de las observaciones Y o mediante la introducción de un término cuadrático del regresor correspondiente) o la heterocedasticidad (paliable mediante transformación de Y) son debidas a algún regresor en particular. La visualización de una banda horizontal de residuos indica satisfacción de las

hipótesis.

0 10 20 30 40 50 60 70 80 90 100

-2

-1

0

1

2

3

EDUCATION

SRES

1

Page 42: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-42 Curs 2.004-2.005

DIAGNOSIS Y VALIDACIÓN DEL MODELO

5. Representación de los residuos (en ordenadas) frente a variables explicativas omitidas en el modelo.

Se emplean para detectar la posible influencia en los residuos de una variable no incluída en el modelo.

Un caso particular consiste en la representación de los residuos en función del tiempo u orden de los datos; en este caso se pueden calcular los coeficientes de autocorrelación observados de los residuos

de orden k, ( )

∑∑ +=

i k

i kii

eee

kr 2 y aplicar el siguiente test para muestras grandes: bajo la hipótesis de

independencia (todos los coeficientes de autocorrelación teórica de orden k igual a cero), entonces el

estadístico ( ) ( ) 22

1

2

12 −

=

≈+−

+= ∑ m

m

k knkrnnQ χ .

Un test alternativo es el test de Durbin-Watson, basado en el estadístico del mismo nombre para el contraste de la hipótesis nula que el coeficiente de autocorrelación de primer orden (r(1)) es cero, cuya justificación y examen de las tablas correspondientes no es nada trivial.

Page 43: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-43 Curs 2.004-2.005

DIAGNOSIS Y VALIDACIÓN DEL MODELO

6-7.1 Transformación de Box-Cox

La familia Box-Cox es una familia de transformaciones de variables aleatorias que se emplean para conseguir normalidad o homocedasticidad:

La justificación de la definición viene de una propiedad básica que relaciona las varianzas de transformaciones de la variables aleatorias y que trasladada a la notación empleada en la presente sección es:

( )[ ] [ ] ( ) 2YhYVYhV '=

Por tanto, si la varianza de la variable transformada se desea que sea constante, entonces la derivada de la transformación debe ser inversamente proporcional a la desviación típica de la variable original.

La constante λ de la transformación puede estimarse gráficamente o por máxima verosimilitud.

( )

=

≠−

=0λ

0λλ

λ

Y log

YYh

1

Page 44: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-44 Curs 2.004-2.005

DIAGNOSIS Y VALIDACIÓN DEL MODELO. FAMILIA BOX-COX

Algunos casos particulares son:

Si la desviación típica de Y es proporcional al cuadrado de su media, 2Ys∝ , la constante 1λ −=

facilita la transformación recíproca adecuada para esta situación.

Si la desviación típica de Y es 23Ys ∝ , la constante 1/2λ −= facilita la transformación inversa de

la raiz adecuada para esta situación.

Si la desviación típica de Y es proporcional a su media, Ys ∝ , la constante 0λ = facilita la transformación logarítmica adecuada para esta situación.

Si la desviación típica de Y es proporcional a la raiz cuadrada de su media, 21/Ys∝ , la constante

1/2λ = facilita la transformación raiz cuadrada adecuada para esta situación.

Page 45: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-45 Curs 2.004-2.005

DIAGNOSIS Y VALIDACIÓN DEL MODELO. FAMILIA BOX-COX

Dado que la variable transformada resultante ha de estar normalmente distribuida y tener varianza constante, se puede

demostrar el cálculo del parámetro λ adecuado puede realizarse por máxima verosimilitud a partir de la función

( )( )λλ ZL , que considera como datos los valores de una variable auxiliar Z .

donde Y& indica la media geométrica de los n valores observados en la variable de respuesta Y.

La función de verosimilitud a maximizar en λ y cuyo valor λ óptimo determina el parámetro de la transformación de Box-Cox más adecuado para la consecución de los objetivos con las observaciones de

la variable de respuesta Y, tiene por expresión, ( )( ) ( ) ( )( )( )∑ −−=k k ZZnZL 2

2λλλλ ln, .

El término ( ) ( )λλ ZZk − puede interpretarse como el residuo del modelo de regresión ordinario

que toma como variable de respuesta la variable auxiliar ( )λZ .

( )

=

≠−

= −

0λλ

0λλλ 1λ

λ

Y logY

YZ &

1

Page 46: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-46 Curs 2.004-2.005

6-8. OBSERVACIONES INFLUYENTES A PRIORI Y A POSTERIORI

Resulta fácil desarrollar ejemplos que ponen de manifiesto que existen observaciones que tienen mucha mayor influencia en las propiedades del modelo que otras, hasta el extremo que en presencia de 100 valores observados, las propiedades de los estimadores dependan únicamente de unos pocos de esos valores.

Este aspecto está relacionado con la fiabilidad del modelo en la realización de predicciones, y parece más conveniente un modelo que venga avalado por la totalidad de la muestra empleada para su estimación, que no aquel otro que sólo dependa de unas pocas observaciones.

El estudio de los valores influyentes a priori determinará la robustez del diseño de recogida de los datos y el estudio de los valores influyentes a posteriori determinará la robustez de los parámetros estimados.

No hay que confundir observaciones influyentes con residuos atípicos: una observación influyente puede tener o no un residuo estadísticamente grande, y viceversa, un residuo atípico no fuerza no implica que la observación correspondiente sea influyente.

Por ejemplo, en regresión lineal simple se puede introducir una observación muy atípica (residuo muy alto) en el valor medio de la variable explicativa, la observación no resultará influyente, sin embargo el coeficiente de determinación se resentirá y disminuirá debido al incremento de la suma de cuadrados residuales.

OBSERVACIONES INFLUYENTES A PRIORI Y A POSTERIORI

Page 47: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-47 Curs 2.004-2.005

6-8.1 Observaciones influyentes a priori

Los puntos x (pℜ∈x ) heterogéneos respecto el centro de gravedad de los valores de los regresores

identifican las observaciones influyentes a priori y corresponden a valores grandes en la diagonal de la

matriz de proyección ( ) T1T XXXXP−

= notados ( ) i1TT

i xXXx−

=iip (al ser simétrica e idempotente tiene p vaps 1 y n-p vaps 0) y se puede demostrar que:

1. 11≤≤ iip

n

2. Al tratarse de una matriz idempotente y simétrica: ( ) pptrazai ii === ∑)P(Pdim .

Lo que permite determinar su media np

np

p i ii == ∑ y a partir de otros estadísticos descriptivos

calculables, los resultados de Belsley et al., indican que si las variables explicativas proceden de una distribución normal indican que pueden considerarse valores influyentes a priori aquellos puntos con

ppii 2> .

Page 48: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-48 Curs 2.004-2.005

OBSERVACIONES INFLUYENTES A PRIORI Y A POSTERIORI

Los valores iip suelen denominarse en los paquetes estadísticos factores de anclaje o leverage y miden

la distancia entre una observación ix y el centro de gravedad de las observaciones,

1. Si la observación está muy alejada 1→iip y [ ] ( ) 012 =−= iii peV σ , indicando que sea cual sea el

valor observado iY , su residuo es siempre igual a su valor esperado, cero, por lo que la ecuación de regresión estimada por mínimos cuadrados ordinarios pasará siempre por dicho punto.

2. Si la observación está en el centro de gravedad entonces npii 1→ y [ ]ieV es máxima, indicando

que sea cual sea el valor observado iY , puede tener por efecto una reducción drástica del coeficiente de determinación; sin embargo, nunca será un valor detectado como influyente a priori según los criterios descritos.

Page 49: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-49 Curs 2.004-2.005

OBSERVACIONES INFLUYENTES A PRIORI Y A POSTERIORI

6-8.2 Observaciones influyentes a posteriori

Una observación influyente a posteriori implica que su inclusión:

1. Modifica el vector de parámetros estimados β .

2. Modifica los valores ajustados Y .

3. Su valor ajustado es muy bueno cuando se incluye la observación en el proceso de estimación por mínimos cuadrados ordinarios, pero su valor ajustado es muy malo si se ha omitido la observación en el proceso de estimación.

La influencia de una observación en la determinación de los estimadores por mínimos cuadrados ordinarios se determina mediante la distancia de Cook. Una observación muy influyente a priori, puede que no sea influyente a posteriori (se pueden construir ejemplos fácilmente). Cook propuso una medida

de la influencia a posteriori de una observación muy efectiva, a través de la distancia de Cook iD :

( )( ) ( )( )pnp

ii

ii

ii

iiii F

ppp

pse

spD −≈

−=

−−= ,

TT ˆˆXXˆˆ 111

2

2

ββββ

donde ( )iβ son los estimadores obtenidos después de la supresión de la observación i-ésima.

Page 50: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-50 Curs 2.004-2.005

OBSERVACIONES INFLUYENTES A PRIORI Y A POSTERIORI

De manera que un criterio para la determinación de las observaciones influyentes a posteriori consiste

en comparar su distancia de Cook iD con el valor de la ley de Fisher correspondiente al nivel de

confianza seleccionado α

pnpF −, : un valor con distancia de Cook elevada, iD >α

pnpF −, , denota una observación influyente a posteriori.

Recordar que la esperanza matemática de una ley de Fisher de p y q grados de libertat es ( ) 22 >− qqq .

Un criterio práctico propuesto por Chatterjee y Hadi (88) justifica un umbral máximo para la distancia de Cook de 4/(n-p).

Page 51: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-51 Curs 2.004-2.005

6-9. SELECCIÓN DEL MEJOR MODELO

El establecer una ecuación de regresión para una respuesta Y en términos de unos predictores o

regresores ( p1 x,,x K ) que pueden ser transformaciones de las variables explicativas originales

( q1 z,,z K ) sintetiza dos criterios opuestos, lo que se denomina criterio de parsimonia:

1. La ecuación tiene que ser útil para finalidades predictivas, de manera que se incluíran tantos regresores como sea necesario para que los valores ajustados sean fiables.

2. Los modelos con muchos regresores tienen un alto coste de obtención y mantenimiento de la información, de manera que el modelo debe incluir el mínimo de regresores necesario.

En la práctica, es inviable la generación y análisis de todos las posibles ecuaciones de regresión, para la selección de la más conveniente. Falta indicar que un buen modelo, debe mostrar un análisis de los residuos satisfactorio y un estudio de los valores influyentes, sería deseable la consecución de modelos sin residuos atípicos, ni valores influyentes a posteriori.

Page 52: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-52 Curs 2.004-2.005

SELECCIÓN DEL MEJOR MODELO

Los elementos que se han expuesto hasta el momento y que permiten valorar la calidad de una ecuación de regresión son:

1. El coeficiente de determinación, 2R . Se estabiliza cuando el número de regresores incluídos es satisfactorio, aunque puede haber más de la cuenta, ya que se incrementa (no linealmente) al incrementarse el número de regresores.

Considerar para facilitar la tarea el coeficiente de determinación ajustado, 2aR .

2. La estabilización del estimador clásico de la varianza del modelo, que ante modelos insatisfactorios recuérdese que se ha visto que es sesgado y por tanto, debe denominarse residuo cuadrático medio.

3. El análisis de los residuos.

4. El estudio de los valores influyentes a priori y a posteriori.

5. Se va a añadir un último elemento, el denominado pC de Mallows.

La combinación de los 5 puntos anteriores permitirá seleccionar dentro de un conjunto de ecuaciones de regresión (quizás incluso en el caso hipotético de todas) la mejor.

Page 53: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-53 Curs 2.004-2.005

SELECCIÓN DEL MEJOR MODELO. CP MALLOWS

El pC de Mallows se define como ( )pns

SCRC p

p 22 −−= , donde pSCR es la suma de cuadrados

residual de un modelo con p regresores y el estimador de la varianza del modelo procede del modelo maximal (se intenta garantizar así la ausencia de sesgo).

La esperanza matemática del estadístico pC es el número de parámetros del modelo: [ ] pCp =Ε .

El procedimiento a seguir consiste en representar en un diagrama bivariante pC frente p: los modelos satisfactorios quedarán cerca de la bisectriz, el modelo con p más bajo, pero sobre la bisectriz resulta el más satisfactorio bajo el criterio de Mallows. La justificación del procedimiento procede de las siguientes consideraciones:

1. Un modelo no adecuado facilitará una pSCR elevada, con pC > p. De alguna manera, el estadístico de Mallows se desvía de la bisectriz indicando que existe sesgo en la estimación de la varianza del modelo: un error cuadrático medio (varianza + sesgo2) distinto de la varianza real del modelo.

2. Un modelo con exceso de regresores ajusta bien los datos y pCp ≈ , pero p es mayor que en otro modelo satisfactorio con valor del estadístico de Mallows sobre la bisectriz de la gráfica y menor número de parámetros.

Page 54: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-54 Curs 2.004-2.005

SELECCIÓN DEL MEJOR MODELO

Exemplo: Datos DUNCAN1 resultados del análisis mediante el Cp de Mallows de todos los modelos posibles para explicar el ‘PRESTIGE’ a partir de los ingresos (INCOME) y la EDUCATION. MTB > BReg 'PRESTIGE' 'INCOME' 'EDUCATION' ; SUBC> NVars 1 2; SUBC> Best 2; SUBC> Constant. Best Subsets Regression: PRESTIGE versus INCOME; EDUCATION Response is PRESTIGE E D I U N C C A O T M I Vars R-Sq R-Sq(adj) C-p S E O 1 72,6 71,9 26,0 16,692 X 1 70,2 69,5 31,9 17,403 X 2 82,8 82,0 3,0 13,369 X X MTB >

Page 55: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-55 Curs 2.004-2.005

SELECCIÓN DEL MEJOR MODELO

6-9.1 Procedimiento de “backward elimination”

Procedimiento económico que no requiere del cálculo de un número elevado de ecuaciones de regresión. Los pasos básicos son:

1. Calcular la ecuación de regresión maximal, es decir, que contenga todos los regresores disponibles.

2. Para cada regresor se efectúa un test de Fisher de la hipótesis 0=iiH β: , sea el valor del

estadístico de Fisher correspondiente al test de la hipótesis nula del i-ésimo regresor Fi. 3. Se selecciona el regresor tal que el estadístico de Fisher correspondiente es mínimo, sea el regresor l-

ésimo: { }K,, 21 FFminFl = y se compara con el valor del correspondiente a un cierto nivel de

significación de la ley de Fisher correspondiente denominado en muchos paquetes estadísticos “F to remove”:

αF .

Si αFFl < entonces se elimina el regresor l-ésimo del modelo. Se repite a partir del punto 2.

Sinó el modelo ya es satisfactorio.

Page 56: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-56 Curs 2.004-2.005

SELECCIÓN DEL MEJOR MODELO. BACKWARD & FORWARD PROCEDURES

Backward Elimination es adecuado para la regresión polinómica y robusto, una vez eliminada una variable nunca vuelve a aparecer en la ecuación, ni tampoco ningún modelo alternativo que la contenga, puede dar como resultado modelos que no son significativamente los mejores.

La construcción de la regresión maximal podía ser un inconveniente hace unos años, por el mal condicionamiento posible de la matriz de diseño maximal, actualmente los procedimientos de optimización empleados son muy robustos.

De manera análoga, algunos paquetes estadísticos disponen del procedimiento forward inclusion, que parte del modelo minimal (únicamente con el término independiente) y va añadiendo regresores siempre que el test de inclusión basado en el estadístico de Fisher resulte significativo para alguno de los regresores no incluidos hasta el momento.

Forward inclusion es un procedimiento menos robusto que la backward elimination, ya que a veces un regresor incluído en una etapa anterior, podría ser eliminado por falta de significación. Este inconveniente lleva directamente al diseño de un procedimiento híbrido denominada regresión paso o paso o stepwise regression, que aparece en todos los paquetes (al menos, los conocidos por la autora) y cuyo empleo se incentiva en las clases de laboratorio.

Page 57: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-57 Curs 2.004-2.005

SELECCIÓN DEL MEJOR MODELO. STEPWISE REGRESSION

6-9.2 Regresión paso o paso (stepwise regression)

Procedimiento de selección de la mejor ecuación de regresión (mejor modelo), parte de un conjunto reducido de regresores y lo va engrandeciendo hasta hallar el modelo satisfactorio. Las etapas pueden resumirse en los siguientes puntos:

1. Seleccionar el regresor más correlacionado con la variable de respuesta Y, sea xm. Calcular la ecuación de regresión.

2. Para cada regresor i no incluido hasta el momento se calcula el coeficiente de correlación parcial con la variable de respuesta Y (técnicamente supone calcular la correlación entre los residuos del modelo actual y los residuos de una ecuación de regresión auxiliar que especifica como variable de repuesta el regresor i no presente en el modelo y variables explicativas todos los regresores presentes en el modelo actual).

3. Se selecciona el regresor con coeficiente de correlación parcial más elevado, sea xm y se recalcula la

ecuación de regresión con el modelo incrementado, aceptando el nuevo regresor xm si el estadístico de

Fisher para el contraste de la hipótesis nula 0=mmH β: , sea mF es superior a un cierto valor de

referencia mínima de la ley de Fisher correspondiente denominado “F to enter”: βF .

Si βFFm > entonces se incluye el regresor m-ésimo en el modelo.

Page 58: FACULTAT D’INFORMÀTICA APUNTS DE CLASSE PROF. LÍDIA ...lmontero/lmm_tm/teo_es22_1.pdf · Prof. Lídia Montero Pàg. 6-5 Curs 2.004-2.005 6-2. ESTIMACIÓN POR MÍNIMOS CUADRADOS

FIB ESTADÍSTICA - EIO

Prof. Lídia Montero Pàg. 6-58 Curs 2.004-2.005

SELECCIÓN DEL MEJOR MODELO. STEPWISE REGRESSION (Cont)

4. Para cada regresor incluido hasta el momento se efectua un test de Fisher de la hipótesis 0=iiH β: , sea el valor del estadístico de Fisher correspondiente al test de la hipótesis nula del i-ésimo regresor Fi.

5. Se selecciona el regresor tal que el estadístico de Fisher correspondiente es mínimo, sea el regresor l-ésimo: { }K,, 21 FFminFl = y se compara con el valor del correspondiente a un cierto nivel de

significación de la ley de Fisher correspondiente denominado en muchos paquetes estadísticos “F to remove”: αF .

Si αFFl < entonces se elimina el regresor l-ésimo del modelo. Volver al punto 2.

6. El procedimiento finaliza cuando ningún regresor satisfaga el criterio de entrada y ningún regresor satisfaga el criterio de salida. Si los niveles de significación para la entrada y la salida de regresores

estan bien seleccionados da buenos resultados: 050.=β=α es una selección habitual.