TEMA 15.- REGRESIÓN LINEAL MÚLTIPLEvalentin/ging/materiales_web/Tema0015_resaltado.pdf · Tema...

22
ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Tema 15. Regresión lineal múltiple 308 TEMA 15.- REGRESIÓN LINEAL MÚLTIPLE - Hipótesis del modelo. - Estimación y contrastes sobre los parámetros. - Significación del modelo. - Análisis residual. - Métodos de selección de variables.

Transcript of TEMA 15.- REGRESIÓN LINEAL MÚLTIPLEvalentin/ging/materiales_web/Tema0015_resaltado.pdf · Tema...

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 308

TEMA 15.- REGRESIÓN LINEAL MÚLTIPLE

- Hipótesis del modelo. - Estimación y contrastes sobre los parámetros. - Significación del modelo. - Análisis residual. - Métodos de selección de variables.

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 309

Regresión lineal múltiple

El modelo es Y X k Xk 0 1 1 Y Variable respuesta o dependiente X1, X2, ..., Xk Variables independientes o regresores Perturbación aleatoria

Dispondremos de una muestra de n observaciones para este modelo: 0 1 1 ... 1...i i k ik iky x x i n

Reunimos estas n condiciones con ayuda de vectores y matrices en la forma:

1 ( 1) ( 1) 1 1

y = X β + εnx nx k k x nx

1 11 11 0 1y X β

1 1

x xy k

y x xn k nn nk

X se denomina matriz de diseño. En su fila i aparecen las condiciones x del caso i. Conocida. y es el vector que contiene las n respuestas. Conocido. La fila i-ésima de ambos corresponde a la i-ésima observación hecha del modelo. vector de parámetros. Desconocido. Cada coeficiente j representa lo que aumenta la respuesta Y cuando la variable Xj aumenta una unidad y los restantes regresores se mantienen constantes. vector de perturbaciones aleatorias (otras fuentes de variabilidad). No observable. Desconocido.

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 310

Hipótesis del modelo

1) LINEALIDAD 0, , 0 1 1yiE i E x x ii i k ik

2) HOMOGENEIDAD DE LA VARIANZA 2 2, , Var i Var y ii i

3) INDEPENDENCIA DE LAS PERTURBACIONES 1, … n independientes

4) NORMALIDAD

1, … n normales y1, … yn normales

El número de observaciones n debe superar al de parámetros k para poder estimarlos, pues debemos resolver en b el sistema de ecuaciones XtX b = Xty que de otro modo tendría más incógnitas que ecuaciones.

Los REGRESORES deben ser LINEALMENTE INDEPENDIENTES para que ese sistema no sea indeterminado (solución no única). Siempre puede eliminarse del modelo un regresor que sea linealmente dependiente de otros que ya aparecen en el modelo.

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 311

Ejemplo: Resistencia al desprendimiento de alambre de semiconductores En una fábrica de semiconductores el semiconductor terminado es alambre adherido en una placa. Se quiere estudiar la resistencia al desprendimiento del alambre. Se recogen datos de resistencia, longitud del alambre y altura del molde de fabricación.

Observación Resistencia Longitud Altura Observación Resistencia Longitud Altura

1 9,95 2 50 14  11,66 2 3602 24,45 8 110 15  21,65 4 2053 31,75 11 120 16  17,89 4 4004 35,00 10 550 17  69,00 20 6005 25,02 8 295 18  10,30 1 5856 16,86 4 200 19  34,93 10 5407 14,38 2 375 20  46,59 15 2508 9,60 2 52 21  44,88 15 2909 24,35 9 100 22  54,12 16 51010 27,50 8 300 23  56,63 17 59011 17,08 4 412 24  22,13 6 10012 37,00 11 400 25  21,15 5 40013 41,95 12 500  

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 312

Estimación de los parámetros del modelo

Como en regresión simple, buscamos el que minimiza la suma de cuadrados de los residuos ei :

2 n 2(β) e = e'e= y-Xβ ' y-Xβ = y'y-2β'X'y+β'X'Xβ0 1 1 i1 i=1

nL y x xi i k iki

Derivando e igualando a 0 obtenemos un mínimo en -1β= X'X X'Y :

ˆ0 2X'Y+2X'Xββ βL

ˆX'Xβ=X'y (ecuaciones normales) -1β= X'X X'y

A partir de esta solución β se obtienen los vectores de:

Valores ajustados (valores de y predichos por el modelo) -1ˆy= Xβ = X X'X X'y = Hy

Residuos (que estiman las perturbaciones) -1 -1ˆe = y - y = y - X X' X X' y = (I - X X' X X') y = (I - H) y

ˆ ˆ ˆ0 1 1e y x xi i i k ik

Propiedades de los estimadores β Medias y varianzas: E( β )= (estimadores insesgados) Var ( β ) = 2 (X’X)-1

Llamando cij al elemento (i,j) de la matriz X X' 1 tenemos β β , N ci iii

Nótese que los estimadores no son independientes.

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 313

Estimación de la varianza

Nos falta aún estimar un último parámetro desconocido: la varianza de las perturbaciones i. Si conseguimos esta estimación podremos pasar a construir intervalos de confianza y test de hipótesis sobre los parámetros i. El estimador de (varianza de las perturbaciones i, que no son observables) se basa, lógicamente, en la variabilidad de sus estimadores, los residuos ei:

Suma de Cuadrados Residual SSE = eiin 2

1 es independiente de β

Su distribución: 22

1n kSSE

Dividiendo SSE por los g. de l. de la 2 obtenemos MSE, el estimador buscado:

2 = MSEeii

n

n kSSE

n k

21

1 1

Es un estimador insesgado para : E MSE 2

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 314

Inferencias sobre los parámetros

De los resultados anteriores β β , N ci iii

y 22

1n kSSE

indep. de β obtenemos:

ˆ ˆ - -

0,1 ; 0,1,...,12 i i i iN t t para i ki n kMSE cc iiii

lo cual permite construir I. de C y contrastes sobre los i: INTERVALOS DE CONFIANZA

ˆ ˆ, 1 , 12 2

t MSE c t MSE ci ii i i iin k n k

CONTRASTES DE HIPÓTESIS

1,2

*ˆ*1

*0:

:kntC

H

H

iiMSEcii

ii

ii

Nótese que ˆˆ ii iMSE c Var es la varianza estimada del estimador del parámetro i.

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 315

Tabla de coeficientes estimados

Puede haber varias variables cuyo p-valor supere el nivel habitual 0.05 (con lo que no serían significativas a ese nivel). No podemos eliminar todas esas variables a la vez.

Puede que una variable que no es significativa en este modelo sí lo sea cuando eliminemos otra de las variables del modelo porque ambas explicaban la misma parte de la variabilidad de Y (recordar que los estimadores de los parámetros no son independientes); pueden ser dos variables con alta correlación.

No debe entonces eliminarse más de una variable cada vez si se utilizan estos contrastes. Tras eliminar una variable conviene reajustar el modelo y analizar la tabla nueva.

Parameter Estimate Standard Error

t-Value contraste i=0

p-value

Intercept

0

MSE c 00

00

0ˆ0 cMSEt

00

0ˆ0 cMSE

tP

1

MSE c 11 11

11 cMSEt

11

11 cMSEtP

k

k

MSE ckk

kkcMSE

kkt

kkcMSEk

ktP

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 316

Multiple Regression - Resistencia Dependent variable: Resistencia Independent variables: Longitud Alambre, Altura Matriz Standard T Parameter Estimate Error Statistic P-Value CONSTANT 2,26379 1,06007 2,13552 0,0441 Longitud Alambre 2,74427 0,0935238 29,343 0,0000 Altura Matriz 0,0125278 0,00279842 4,47675 0,0002 Intervalo de confianza del 95% para 1

0935238,0074,274427,21 es decir 2,5503 ≤ 1 ≤ 2,9382 Contraste de Hipótesis para 2

22,025,001

20

012,0:012,0:

ttCHH

i

1886,000279842,0

012,00125278,00

t

t0,025 , 22 = 2,074 p-valor = 0,8521

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 317

Test de significación de la regresión. H0 : H1 : Algún i 0

Este contraste plantea si conjuntamente las variables regresoras aportan algo o no a la explicación de la respuesta.

SSR SSE independt.

El test entonces compara la variabilidad explicada con la no explicada o residual mediante el estadístico

1,0

10

knkF

HMSEMSR

knSSE

kSSR

F

Se recopilan los cálculos en la denominada

TABLA ANOVA

V.Total corregida (SSTm) V. Explicada (SSR) V. Residual (SSE) 2

1yyS

ny yii

= 2

ˆ1

ny yii

+

n

iiyiy

12ˆ

2 21SSTm n SSR

Hk 2 0 2

SSE n k 21

2

SOURCE D.F. SS MSS F0 Prob. (p-valor) Regression k SSR MSR MSR

MSEP(Fk,n-k-1>MSR/MSE)

Residual n-k-1 SSE MSE Total corregida n-1 SSTm

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 318

Multiple Regression - Resistencia Dependent variable: Resistencia Independent variables: Longitud Alambre, Altura Matriz Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 5990,77 2 2995,39 572,17 0,0000 Residual 115,173 22 5,23516 Total (Corr.) 6105,94 24 R-squared = 98,1137 percent R-squared (adjusted for d.f.) = 97,9423 percent Standard Error of Est. = 2,28805

valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 319

Intervalo para la respuesta media bajo condiciones x0: E y0

Parámetro 0'0 xyE donde kxxx 0,,01,10' Estimador ' y x0 0

Intervalo de confienza del 1-

0

1'0'1,20ˆ0 xXXxMSEkntyyE

Predicción de nuevas observaciones Queremos predecir mediante un I. de C. y0 , el valor de una nueva observación en x’0. El intervalo de confianza de nivel 1- es

01'0'11,20ˆ0 xXXxMSEkntyy

Nota: Al calcular intervalos hay que tener en cuenta que no se debe extrapolar ya que la validez del modelo puede estar restringida a la región donde están las observaciones originales. Además en una situación de regresión múltiple es fácil extrapolar sin notarlo como ilustramos en este gráfico.

Rango de X1

Rango de X2

Rango Conjunto

Extrapolación

x01

x02

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 320

Ejemplo: Construir intervalos de confianza del 95% para la respuesta media y de predicción cuando la longitud es 8 y la altura de la matriz es 200. Valores de los regresores: x’0 = [1, 8, 200]

Estimación de la respuesta: 7235,2601253,074427,226379,2

200,8,1ˆ0'0ˆ

xy

Varianza estimada del estimador de la respuesta media: 5827,001'0'

xXXxMSE

Varianza estimada de la predicción:

01'0'1 xXXxMSE = 2,3609

t0,025 , 22 = 2,074 Intervalo para la respuesta media 25,515 ≤ 0'0 xyE ≤ 27,9321 Intervalo de predicción para la respuesta a x0 21,8269≤ y0 ≤ 31,6201

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 321

Análisis Residual del ejemplo: Residual Plot

0 20 40 60 80predicted Resistencia

-4

-2

0

2

4

Stud

entiz

ed r

esid

ual

Residual Plot

0 4 8 12 16 20Longitud Alambre

-4

-2

0

2

4

Stud

entiz

ed r

esid

ual

Residual Plot

0 100 200 300 400 500 600Altura Matriz

-4

-2

0

2

4

Stud

entiz

ed res

idua

l

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 322

Multiple Regression - Resistencia Dependent variable: Resistencia Independent variables: Longitud Alambre^2, Longitud Alambre, Altura Matriz

Parameter Estimate St. Error T Statistic P-ValueCONSTANT 5,36842 1,42317 3,77215 0,0011 Longitud Alambre^2 0,0428265 0,0149732 2,86021 0,0094 Longitud Alambre 1,95606 0,287295 6,80854 0,0000 Altura Matriz 0,0103749 0,00254374 4,07861 0,0005

Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 6023,06 3 2007,69 508,68 0,0000 Residual 82,8847 21 3,94689 Total (Corr.) 6105,94 24

R-squared = 98,6426 percent R-squared (adjusted for d.f.) = 98,4486 percent Standard Error of Est. = 1,98668

0 20 40 60 80

predicted Resistencia

-4

-2

0

2

4

Stud

entiz

ed res

idua

l

r = 3,77

valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 323

Multiple Regression – Resistencia (Eliminando la observación atípica) Dependent variable: Resistencia Independent variables: Longitud Alambre^2, Longitud Alambre, Altura Matriz

Parameter Estimate St. Error T Statistic P-ValueCONSTANT 4,55238 1,13559 4,00882 0,0007 Longitud Alambre^2 0,0412429 0,0117362 3,51416 0,0022 Longitud Alambre 2,0138 0,225561 8,92794 0,0000 Altura Matriz 0,0111222 0,00200237 5,55452 0,0000

Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 6000,73 3 2000,24 825,96 0,0000 Residual 48,4345 20 2,42173 Total (Corr.) 6049,17 23 R-squared = 99,1993 percent R-squared (adjusted for d.f.) = 99,0792 percentStandard Error of Est. = 1,55619

0 20 40 60 80predicted Resistencia

-2,5

-1,5

-0,5

0,5

1,5

2,5

Stud

entiz

ed res

idua

l

valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 324

Métodos por etapas de selección de variables: 1. SELECCIÓN HACIA ADELANTE (FORWARD) Se parte de un modelo sólo con término independiente y en cada paso se incorpora la variable que

tiene menor p-valor en el modelo resultante de añadir dicha variable al modelo del paso anterior, siempre que se cumpla p-valor<p-to-enter.

El proceso concluye cuando no entran más variables.

2. ELIMINACIÓN HACIA ATRÁS (BACKWARD) Se parte de un modelo con todas las variables y en cada paso se elimina la variable que tiene mayor p-

valor en dicho modelo, siempre que se cumpla p-valor>p-to-remove. El proceso concluye cuando no salen más variables.

3. REGRESIÓN PASO A PASO (STEPWISE) Es un modelo que incorpora las ideas FORWARD Y BACKWARD: Se parte de un modelo sólo con término independiente y en cada paso se incorpora la variable que

tiene menor p-valor en el modelo resultante de añadir dicha variable al modelo del paso anterior, siempre que el estadístico cumpla p-valor<p-to-enter y a continuación se eliminan (de una en una) aquellas variables presentes en el modelo que cumplan p-valor>p-to-remove.

El proceso concluye cuando no entran ni salen más variables. Para que el proceso no entre en bucles, se deben usar valores p-to-remove p-to-enter.

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 325

Ejemplo: En un artículo publicado por Kwan, Kowalski y Skogenboe en Journal of Agricultural and Food Chemistry, Vol. 27, 1979 se ofrecen datos de 38 marcas de vino de variedad Pinot Noir. A través del juicio de varios expertos se ha medido la “Calidad” de cada vino y se dispone de valores de 4 variables (Aroma, Cuerpo, Sabor, Oakiness, Claridad) que pueden explicar dichos valores de calidad.

  X1 X2  X3  X4 X5 y X1  X2 X3 X4 X5 y  Aroma  Body  Flavor  Oakiness  Clarity   Quality  Aroma  Body  Flavor  Oakiness  Clarity   Quality  1 3,3 2,8  3,1 4,1 1 9,8 20 3,4 5 3,4 3,4 0,9 7,92 4,4 4,9  3,5 3,9 1 12,6 21 6,4 5,4 6,6 4,8 0,9 15,13 3,9 5,3  4,8 4,7 1 11,9 22 5,5 5,3 5,3 3,8 1 13,54 3,9 2,6  3,1 3,6 1 11,1 23 4,7 4,1 5 3,7 0,7 10,85 5,6 5,1  5,5 5,1 1 13,3 24 4,1 4 4,1 4 0,7 9,56 4,6 4,7  5 4,1 1 12,8 25 6 5,4 5,7 4,7 1 12,77 4,8 4,8  4,8 3,3 1 12,8 26 4,3 4,6 4,7 4,9 1 11,68 5,3 4,5  4,3 5,2 1 12 27 3,9 4 5,1 5,1 1 11,79 4,3 4,3  3,9 2,9 1 13,6 28 5,1 4,9 5 5,1 1 11,9

10 4,3 3,9  4,7 3,9 1 13,9 29 3,9 4,4 5 4,4 1 10,811 5,1 4,3  4,5 3,6 1 14,4 30 4,5 3,7 2,9 3,9 1 8,512 3,3 5,4  4,3 3,6 0,5 12,3 31 5,2 4,3 5 6 1 10,713 5,9 5,7  7 4,1 0,8 16,1 32 4,2 3,8 3 4,7 0,8 9,114 7,7 6,6  6,7 3,7 0,7 16,1 33 3,3 3,5 4,3 4,5 1 12,115 7,1 4,4  5,8 4,1 1 15,5 34 6,8 5 6 5,2 1 14,916 5,5 5,6  5,6 4,4 0,9 15,5 35 5 5,7 5,5 4,8 0,8 13,517 6,3 5,4  4,8 4,6 1 13,8 36 3,5 4,7 4,2 3,3 0,8 12,218 5 5,5  5,5 4,1 1 13,8 37 4,3 5,5 3,5 5,8 0,8 10,319 4,6 4,1  4,3 3,1 1 11,3 38 5,2 4,8 5,7 3,5 0,8 13,2

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 326

Multiple Regression - Quality Dependent variable: Quality Independent variables: Aroma, Body, Flavor, Oakiness, Clarity Parameter Estimate St. Error T Statistic P-Value CONSTANT 3,99686 2,23177 1,79089 0,0828 Aroma 0,482551 0,272447 1,77117 0,0861 Body 0,273161 0,332561 0,821388 0,4175 Flavor 1,16832 0,304481 3,8371 0,0006 Oakiness -0,68401 0,271193 -2,52223 0,0168 Clarity 2,33945 1,73483 1,34852 0,1870 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 111,54 5 22,3081 16,51 0,0000 Residual 43,248 32 1,3515 Total (Corr.) 154,788 37 R-squared = 72,0599 percent R-squared (adjusted for d.f.) = 67,6943 percent Standard Error of Est. = 1,16254

valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 327

Backward elimination: Paso 1: Eliminar Body Parameter Estimate St. Error T Statistic P-Value CONSTANT 4,98555 1,87007 2,66597 0,0118 Aroma 0,529977 0,264943 2,00034 0,0537 Flavor 1,26431 0,279773 4,51905 0,0001 Oakiness -0,658894 0,268132 -2,45735 0,0194 Clarity 1,79423 1,5949 1,12498 0,2687 Paso 2: Eliminar Clarity Parameter Estimate St. Error T Statistic P-Value CONSTANT 6,46719 1,33279 4,85238 0,0000 Aroma 0,58012 0,262185 2,21264 0,0337 Flavor 1,19969 0,274881 4,36441 0,0001 Oakiness -0,602325 0,264401 -2,27807 0,0291 Este sería el modelo final. Notar que la variable Aroma que no era significativa en el modelo inicial sí lo es ahora.

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 328

Forward selection: Paso 1: Modelos con una sola variable.

Parameter Estimate St. Error T Statistic P-Value CONSTANT 5,95833 1,10498 5,39227 0,0000 Aroma 1,3365 0,222613 6,00369 0,0000

Parameter Estimate St. Error T Statistic P-Value CONSTANT 6,058 1,64406 3,68479 0,0007 Body 1,36177 0,345806 3,93797 0,0004

Parameter Estimate St. Error T Statistic P-Value CONSTANT 4,94141 0,991053 4,98602 0,0000 Flavor 1,57189 0,203288 7,73234 0,0000

Parameter Estimate St. Error T Statistic P-Value CONSTANT 12,9916 1,99183 6,52243 0,0000 Oakiness -0,130365 0,461378 -0,282556 0,7791

Parameter Estimate St. Error T Statistic P-Value CONSTANT 12,0034 2,56098 4,68705 0,0000 Clarity 0,469227 2,74857 0,170717 0,8654

Son candidatas a entrar todas las variables con p-valor < 0.05. Entra “Flavor” por ser la de menor p-valor (mayor valor absoluto del estadístico t).

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado

ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Tema 15. Regresión lineal múltiple 329

Paso 2: Modelos con dos variables, siendo una de ellas “Flavor”.

Parameter Estimate St. Error T Statistic P-Value CONSTANT 4,34623 1,00914 4,30686 0,0001 Aroma 0,517965 0,275927 1,87718 0,0688 Flavor 1,17017 0,290545 4,02749 0,0003

Parameter Estimate St. Error T Statistic P-Value CONSTANT 4,58462 1,24752 3,67499 0,0008 Body 0,161283 0,33605 0,479937 0,6343 Flavor 1,48828 0,269405 5,52432 0,0000

Parameter Estimate St. Error T Statistic P-Value CONSTANT 6,9122 1,38892 4,97668 0,0000 Oakiness -0,541444 0,277215 -1,95316 0,0588 Flavor 1,64177 0,19902 8,24926 0,0000

Parameter Estimate St. Error T Statistic P-Value CONSTANT 3,39415 1,92413 1,76399 0,0865 Clarity 1,59076 1,69463 0,938709 0,3543 Flavor 1,58823 0,204366 7,77147 0,0000 Ninguna variable más es significativa al nivel 0.05 en presencia de “Flavor” con lo que el método forward se detiene y la única variable que está en el modelo es “Flavor”.

valentin
Resaltado
valentin
Resaltado
valentin
Resaltado