Ej Regresion Lineal Multiple

15
Ejemplo de Regresión Lineal Múltiple Un distribuidor de cervezas está analizando el sistema de entregas de su producto; en particular, está interesado en predecir el tiempo sugerido para servir a los detallistas. El ingeniero industrial a cargo del estudio ha sugerido que los factores que influyen sobre el tiempo de entrega son el número de cajas de cervezas y la máxima distancia que debe viajar el despachador. Se tomaron muestras y se obtienen los resultados que se muestran en la tabla 1. Número de Cajas (X 1 ) Distancia (X 2 ) Tiempo (Y) 10 30 24 15 25 27 10 40 29 20 18 31 25 22 25 18 31 33 12 26 26 14 34 28 16 29 31 22 37 39 24 20 33 17 25 30 13 27 25 30 23 42 24 33 40 Tabla 1: Número de cajas transportadas, distancia recorrida y tiempo de servicio al cliente para 15 muestras de un sistema de reparto de cerveza Primero se explorará las relaciones entre todas las parejas de variables, en particular la relación de Y con cada una de las variables independientes. Esto lo detectaremos a través de las correlaciones y la función pairs de R, la cual produce un gráfico matricial para las variables dadas. Comandos en R: cervezas=read.table('cervezas.txt',header=T) – Cargando los datos pairs(cervezas)

Transcript of Ej Regresion Lineal Multiple

Page 1: Ej Regresion Lineal Multiple

Ejemplo de Regresión Lineal Múltiple

Un distribuidor de cervezas está analizando el sistema de entregas de su producto; en

particular, está interesado en predecir el tiempo sugerido para servir a los detallistas. El

ingeniero industrial a cargo del estudio ha sugerido que los factores que influyen sobre el

tiempo de entrega son el número de cajas de cervezas y la máxima distancia que debe

viajar el despachador. Se tomaron muestras y se obtienen los resultados que se

muestran en la tabla 1.

Número de Cajas (X1)

Distancia (X2)

Tiempo (Y)

10 30 24

15 25 27

10 40 29

20 18 31

25 22 25

18 31 33

12 26 26

14 34 28

16 29 31

22 37 39

24 20 33

17 25 30

13 27 25

30 23 42

24 33 40

Tabla 1: Número de cajas transportadas, distancia recorrida y tiempo de servicio al cliente para 15 muestras de un sistema de reparto de cerveza

Primero se explorará las relaciones entre todas las parejas de variables, en particular la relación de Y

con cada una de las variables independientes. Esto lo detectaremos a través de las correlaciones y la

función pairs de R, la cual produce un gráfico matricial para las variables dadas.

Comandos en R:

cervezas=read.table('cervezas.txt',header=T) – Cargando los datos

pairs(cervezas)

Page 2: Ej Regresion Lineal Multiple

Figura 1: Plot matricial de las variables del conjunto de datos “cervezas”

cor(cervezas) - Correlaciones

No.cajas Distancia Tiempo

No.cajas 1.0000000 -0.4052976 0.7246466

Distancia -0.4052976 1.0000000 0.1269032

Tiempo 0.7246466 0.1269032 1.0000000

Si deseamos observar los gráficos bidimensionales hacemos: plot(No.cajas,Tiempo) y

plot(Distancia,Tiempo)

No.cajas

20 25 30 35 40

1015

2025

30

2025

3035

40

Distancia

10 15 20 25 30 25 30 35 40

2530

3540

Tiempo

Page 3: Ej Regresion Lineal Multiple

Figura 2: Gráficos 2D de la variable respuesta en función de las variables independientes por separado

Se puede observar que la variable independiente “No. de cajas” (X1) es la que tiene mejor relación

lineal con el tiempo de entrega, es decir, a medida que aumenta una de ellas aumenta la otra. En

tanto la máxima distancia (X2) que debe recorrer el despachador no parece tener una relación lineal

muy marcada para predecir el tiempo.

AJUSTE DE UN MODELO

Supongamos que se decide usar un modelo de la forma:

yi = β0 + β1x1i + β2 x2i +εi

De manera matricial tenemos, � � �� � �, donde

Y: vector n x 1 de respuestas (variable dependiente)

X: matriz n x p que contiene ceros, unos y/o valores de variables independientes (matriz de diseño)

�: vector p x 1 de parámetros

�: vector n x 1 de errores aleatorios

10 15 20 25 30

2530

3540

No.cajas

Tie

mpo

20 25 30 35 40

2530

3540

Distancia

Tie

mpo

Page 4: Ej Regresion Lineal Multiple

� �

������������242729312533262831393330254240�

������������

,� �

�����������1 10 301 15 251 10 401 20 181 25 221 18 311 12 261 14 341 16 291 22 371 24 201 17 251 13 271 30 231 24 33�

�����������

,� � �β�β�β��

Datos: , ,

Con lo cual las ecuaciones normales (sistema de mínimos cuadrados) toman la forma

���� �! � ����

" 15 270 420270 5364 7347420 7347 12308#�$%�$%�$%�� � " 463867913027#

y al resolver se obtiene:

�! � "2.3130.8770.456#

De aquí que:

'() � 2.313 � 0.877*�) � 0.456*�)

En R usamos la instrucción: lm(Tiempo~No.cajas+Distancia)

Por las propiedades de los estimadores de mínimos cuadrados, se puede considerar que

$%� ~ -�$�, .�/��

$%� ~ -�$�, .�/��

15

11

270ii

x=

=∑15

21

420ii

x=

=∑15

1

463ii

y=

=∑

10

1

2

ˆ 15 270 420 463ˆ 270 5.364 7.347 * 8.679

ˆ 420 7.347 12.308 13.027

β

ββ

− =

0

1

2

ˆ 3,478 0,069 0,078 463ˆ 0,069 0,0024 0,001 * 8.679

ˆ 0,078 0,001 0,002 13.027

β

ββ

− − = − −

2,31 0,88 . 0,46Tiempo No cajas Distancia= + +

Page 5: Ej Regresion Lineal Multiple

$%� ~ -�$�, .�/��

donde /)) es el elemento de la diagonal de la matriz ���� 0� que corresponde a $). En este caso

tenemos que

$%� ~ -�$�, 3.478.�

$%� ~ -�$�, 0.0024.�

$%� ~ -�$�, 0.002.�

Ahora bien, no conocemos .�, de manera que si queremos obtener algún tipo de inferencia sobre el

modelo necesitaremos estimarlo.

El vector de errores se puede calcular a través de la siguiente expresión: 1 � � 2 ���3� 0��3�.

La suma de errores al cuadrado la obtenemos así:

445 � 1�1 � �3� 2 �!3�3� � 14741 2 �2.313 0.877 0.456 " 463867913027#

� 14741 2 14621.802 � 119.198

Luego podemos calcular 4� (estimador insesgado de .�)

4� � 4456 2 7 � 119.19815 2 3 � 9.93

3 corresponde al número de parámetros del modelo

PRUEBA DE HIPÓTESIS SOBRE LOS PARÁMETROS

Se desea probar: Ho: ββββi = 0 vs. H1: ββββi ≠≠≠≠ 0. El estadístico de interés en este caso es

8 � $%) 2 $)49/))

Puede probarse que este estadístico tiene una distribución t con n-p grados de libertad.

Se rechaza H0 cuando | T | > t n-p, αααα / 2

Si no es usada con cuidado, la prueba t puede llevar a resultados erróneos, porque las estimaciones

de los coeficientes no son independientes. En general, no es recomendable eliminar más de una

1

3.478 0.069 0.078

0.069 0.0024 0.001

0.078 0.001 0.002

( )tX X −

− − = − −

Page 6: Ej Regresion Lineal Multiple

variable a la vez cuando aplicamos este procedimiento, pues sólo nos permite comparar modelos

que difieren en una variable.

Veamos cómo puede usarse esta prueba para el ejemplo de las cervezas. Comencemos probando la

hipótesis de que la distancia recorrida no influye en el tiempo de entrega. Esto equivale a plantear:

:�: $� � 0

:�: $� < 0

Así, tenemos

8 � $%) 2 $)49/)) � $%� 2 094�/�� � 0.4569�9.93 �0.002 � 0.4560.140 � 3.23

Si decidimos usar α=0.05, cuando buscamos el valor tabulado de t para un área de cola de α/2 =

0.025 correspondiente a una t con 12 grados de libertad, obtenemos =��,�.��> � 2.18. Como el valor

calculado de T es mayor que el tabulado, rechazamos :�. Es decir, se puede afirmar (a este nivel) que

la distancia recorrida es importante para predecir el tiempo de entrega de la cerveza.

Realizando la misma prueba para $�, formulamos las hipótesis

:�: $� � 0

:�: $� < 0

y obtenemos

8 � $%) 2 $)49/)) � $%� 2 094�/�� � 0.8779�9.93 �0.0024 � 0.8770.154 � 5.68

Comparando nuevamente contra =��,�.��> � 2.18, se rechaza :�. Es decir, podemos afirmar (a este

nivel) que el número de cajas distribuidas es importante para predecir el tiempo de entrega de la

cerveza.

Si se realiza la misma prueba t para el parámetro $�, se tiene que

:�: $� � 0

:�: $� < 0

8 � $%) 2 $)49/)) � $%� 2 094�/�� � 2.3139�9.93 �3.478 � 2.3135.876 � 0.393

En este caso no podemos rechazar la hipótesis nula. Es decir, podemos decir a este nivel de

significación que la constante en el modelo lineal planteado no parece ser relevante para predecir el

tiempo de entrega en esta muestra.

Page 7: Ej Regresion Lineal Multiple

Utilizando el comando summary en R, observamos las características del modelo antes mencionada.

Para los parámetros del modelo se reporta los valores estimados de los coeficientes (vector �!), los

errores estándares (49/))) de cada coeficiente, el valor calculado de T y su p-valor correspondiente.

Además si disponemos de valores fijos de α (0.001, 0.01, 0.05, 0.1) podemos establecer conclusiones

preliminares de esta prueba individual, solamente al observar el p-valor.

summary(mod1)

El valor del error estándar residual observado en la salida de R,

corresponde a la √4� � √9.93 � 3.1.

El valor del estadístico F: 16.8, pertenece a la comparación de modelos

�1 ') � $� � @) �2 ') � $� � $�*�) � $�*�) � @)

En términos de hipótesis, comparar ambos modelos equivale a plantear las hipótesis:

:�: $� � $� � 0 AB. :�: CDEú6 $) < 0 Recordemos que el estadístico en este caso viene dado por la expresión siguiente

G � �!���� 2 HIJKL��� 2 �!����6 2 �L � 1 � 44ML4456 2 �L � 1 � N4MN45

Reemplazando

44M � �!���� 2 HIJK � �2.313 0.877 0.456 " 463867913027# – �15 �30.86 �

� 14621.802 2 14285.094 � 331.36

Residuals: Min 1Q Median 3Q Max -9.2716 -0.5405 0.5212 1.4051 2.9381 Coefficients: Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.3112 5.8573 0.395 0.70007 No.cajas 0.8772 0.1530 5.732 9.43e-05 *** Distancia 0.4559 0.1468 3.107 0.00908** ---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.141 on 12 degrees of freedom Multiple R-Squared: 0.7368, Adjusted R-squared: 0.6929 F-statistic: 16.8 on 2 and 12 DF, p-value: 0.0003325

Page 8: Ej Regresion Lineal Multiple

445 = ��� 2 �!���� � 14741 2 �2.313 0.877 0.456 " 463867913027# � 119.198

44ML4456 2 �L � 1 � 331.362119.19815 2 �2 � 1 � 165.689.932 P 16.8

K es el número de parámetros a estimar.

Si fijamos un nivel α=0.05 y comparamos el valor de F que acabamos de calcular con G�,���.�>=3.89,

observamos que el valor calculado es mayor que el valor tabulado. Según el procedimiento de

prueba desarrollado anteriormente, rechazamos :�; por tanto, decidimos que el modelo (2) es mejor

que el modelo (1).

COMPARACIÓN DE MODELOS

Si deseamos comparar modelos anidados, la información necesaria se encuentra en las tablas

ANOVA de cada modelo. En este caso se considera el problema de comparar dos modelos de la

forma:

(I) yi= β0 + β1x1i +...+ βl xli + εi

(II) yi= β0 + β1x1i +... + βl xli + βl+1 xl+1,I + ...+ βk xki + εi

En este caso contrastamos la hipótesis

H0: βl+1= βl+2 = … = βk = 0 vs H1: βj ≠ 0, algún j =l+1,...,k

Rechazamos H0 si F > Fαααα k-l, n-(k+1).

Para generar la tabla ANOVA para un modelo o para comparar dos modelos anidados, se utiliza el

comando anova en R.

Como la variable Distancia nos había reflejado una relación lineal más débil, se estimo un modelo

lineal sin incluir esta misma. En R, escribimos

mod2=lm(Tiempo~No.cajas)

summary(mod2)

Page 9: Ej Regresion Lineal Multiple

Al realizar esta instrucción notamos

que las pruebas t, nos sugieren

rechazar :�. Es decir, podemos afirmar

(a este nivel) que el número de cajas

distribuidas es importante para

predecir el tiempo de entrega de la

cerveza, de igual manera nos dice que

consideremos la constante en el

modelo.

Sin embargo, el valor del R2 ajustado

disminuye considerablemente.

Realicemos una comparación de ambos modelos (1 y 2) a través del ANOVA. Para hacer la

comparación entre los modelos se utiliza la instrucción anova (modelo más sencillo, modelo más

complejo)

anova(mod2,mod1)

Esta instrucción permite comparar dos modelos anidados a través de una prueba F.

En este caso la hipótesis es

H0: β2 = 0 vs H1: β2 ≠ 0

El estadístico en este caso sería

G � �445Q 2 445R /�L 2 D 445R/�6 2 �L � 1 � 213.573 2 118.3752 2 1118.37515 2 �2 � 1 � 95.1989.864 P 9.650

Fijando un nivel α=0.05 para la prueba, cuando comparamos el valor anterior con G�,�T�.�> � 4.67,

observamos el valor calculado es mayor que el tabulado, por lo que podemos rechazar la hipótesis

nula en este caso. Concluimos de manera similar que la distancia recorrida es importante para

predecir el tiempo de entrega de la cerveza.

Por lo que nos quedamos con el modelo

Residuals: Min 1Q Median 3Q Max -10.6583 -1.6018 -0.1821 2.5262 5.3952 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 18.5452 3.4142 5.432 0.000115 *** No.cajas 0.6845 0.1805 3.791 0.002244 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.053 on 13 degrees of freedom Multiple R-Squared: 0.5251, Adjusted R-squared: 0.4886 F-statistic: 14.37 on 1 and 13 DF, p-value: 0.002244

Res.Df RSS Df Sum of Sq F Pr(>F)

1 13 213.573

2 12 118.375 1 95.198 9.6505 0.00908 **

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

2,31 0,88 . 0,46Tiempo No cajas Distancia= + +

Page 10: Ej Regresion Lineal Multiple

El ajuste y el análisis de un modelo lineal se sustentan en cuatro suposiciones básicas:

• La relación entre las variables es lineal, lo cual puede ser chequeado con el gráfico de los datos.

• Los errores siguen una distribución normal. • Las varianzas de los errores son iguales (es decir los errores son HOMOCEDÁSTICOS). • Los errores son independientes.

Es necesario entonces preguntarse si estas suposiciones se cumplen.

ANÁLISIS DE RESIDUOS

• Gráfico de residuos en papel normal. Debe obtenerse un gráfico similar a una recta. • Gráfico de residuos vs. valores estimados. • Gráfico de residuos vs. variables explicativas.

Figura 3: Forma de un gráfico satisfactorio de residuos

Figura 4. Formas típicas de gráficos de residuos insatisfactorios.

(1) Falta un término lineal. (2) Falta un término de orden superior.

(3) No hay homocedasticidad.

Si se desea un gráfico de residuos estandarizados vs. valores ajustados en R, existen funciones que

extraen ambos objetos de un modelo lineal. Estas funciones son fitted.values y rstandard.

Page 11: Ej Regresion Lineal Multiple

Para chequear la suposición de normalidad podemos observar los siguientes gráficos:

rstint<-rstandard(mod1) – residuos estándares del modelo ajustado (completo)

win.graph() – abre una ventana para los gráficos

par(mfrow=c(1,3)) – divide la ventana en una fila y tres columnas

hist(rstint) – histograma de los residuos estandarizados

boxplot(rstint) – diagrama de cajas de los residuos estandarizados

qqnorm(rstint) – gráfico de cuantiles de los residuos estandarizados

qqline(rstint)

Para chequear si la varianza de los errores es constante o no, se puede graficar:

plot(fitted.values(mod1),rstandard(mod1), xlab="Valores ajustados", ylab="Residuos

estandarizados") - gráfico 2D de los valores ajustados vs. los residuos estandarizados

abline(h=0) – dibuja la recta en cero

Para verificar la independencia de los errores

plot(No.cajas,rstandard(mod1),xlab="No.cajas",ylab="Residuos estandarizados")

plot(Distancia,rstandard(mod1),xlab="Distancia",ylab="Residuos estandarizados")

Histogram of rstint

rstint

Fre

quen

cy

-4 -3 -2 -1 0 1 2

02

46

8

-3-2

-10

1

-1 0 1

-3-2

-10

1

Normal Q-Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Page 12: Ej Regresion Lineal Multiple

Figura 5. Gráficos analizar los residuos del modelo ajustado

25 30 35

-3-2

-10

1

Valores ajustados

Res

iduo

s es

tand

ariz

ados

10 15 20 25 30

-3-2

-10

1

No.cajas

Res

iduo

s es

tand

ariz

ados

20 25 30 35 40

-3-2

-10

1

Distancia

Res

iduo

s es

tand

ariz

ados

Page 13: Ej Regresion Lineal Multiple

En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)

cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,

asumiendo que las otras variables

�1 : 0.88β

0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida

se mantiene fija.

�2 : 0.46β

aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la

distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso

se mantiene constante.

�0 : 2.31β

cervezas y la distancia recorrida es cero.

En esta parte vamos a construir un intervalo de confianza de 95%

los clientes de la muestra, cuando el número de cajas (

Usando el modelo ajustado tenemos que, el tiempo estimado de servicio cuando

INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN ESTIMADOS

En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)

cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,

asumiendo que las otras variables

: 0.88- Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente

0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida

se mantiene fija.

: 0.46- Significa que el tiempo promedi

aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la

distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso

se mantiene constante.

: 2.31- Representa el valor

cervezas y la distancia recorrida es cero.

INTER

En esta parte vamos a construir un intervalo de confianza de 95%

los clientes de la muestra, cuando el número de cajas (

Usando el modelo ajustado tenemos que, el tiempo estimado de servicio cuando

INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN ESTIMADOS

En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)

cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,

asumiendo que las otras variables independientes

Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente

0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida

Significa que el tiempo promedi

aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la

distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso

se mantiene constante.

Representa el valor del tiempo de servicio a los clientes cuando el número de cajas de

cervezas y la distancia recorrida es cero.

INTERVALOS DE CONFIANZA PARA LA RESPUESTA MEDIA

En esta parte vamos a construir un intervalo de confianza de 95%

los clientes de la muestra, cuando el número de cajas (

Usando el modelo ajustado tenemos que, el tiempo estimado de servicio cuando

Figura 6. Gráfico del plano ajustado

INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN ESTIMADOS

En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)

cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,

independientes

Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente

0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida

Significa que el tiempo promedi

aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la

distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso

del tiempo de servicio a los clientes cuando el número de cajas de

cervezas y la distancia recorrida es cero.

VALOS DE CONFIANZA PARA LA RESPUESTA MEDIA

En esta parte vamos a construir un intervalo de confianza de 95%

los clientes de la muestra, cuando el número de cajas (

Usando el modelo ajustado tenemos que, el tiempo estimado de servicio cuando

Figura 6. Gráfico del plano ajustado

INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN ESTIMADOS

En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)

cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,

independientes permanecen fijas.

Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente

0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida

Significa que el tiempo promedio de servicio a los clientes se incrementa en

aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la

distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso

del tiempo de servicio a los clientes cuando el número de cajas de

VALOS DE CONFIANZA PARA LA RESPUESTA MEDIA

En esta parte vamos a construir un intervalo de confianza de 95%

los clientes de la muestra, cuando el número de cajas (X1) es

Usando el modelo ajustado tenemos que, el tiempo estimado de servicio cuando

Figura 6. Gráfico del plano ajustado

INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN ESTIMADOS

En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)

cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,

permanecen fijas.

Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente

0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida

o de servicio a los clientes se incrementa en

aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la

distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso

del tiempo de servicio a los clientes cuando el número de cajas de

VALOS DE CONFIANZA PARA LA RESPUESTA MEDIA

En esta parte vamos a construir un intervalo de confianza de 95% para el tiempo medio

es 9 y la distancia recorrida (

Usando el modelo ajustado tenemos que, el tiempo estimado de servicio cuando

INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN ESTIMADOS

En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)

cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,

Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente

0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida

o de servicio a los clientes se incrementa en

aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la

distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso

del tiempo de servicio a los clientes cuando el número de cajas de

VALOS DE CONFIANZA PARA LA RESPUESTA MEDIA

para el tiempo medio

y la distancia recorrida (

Usando el modelo ajustado tenemos que, el tiempo estimado de servicio cuando X1=9

En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)

cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,

Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente

0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida

o de servicio a los clientes se incrementa en

aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la

distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso

del tiempo de servicio a los clientes cuando el número de cajas de

para el tiempo medio de servicio a

y la distancia recorrida (X2 ) es de 16

y X2=16 es:

En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)

cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,

Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente

0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida

o de servicio a los clientes se incrementa en

aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la

distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso

del tiempo de servicio a los clientes cuando el número de cajas de

de servicio a

16.

Page 14: Ej Regresion Lineal Multiple

Luego determinamos que

U� ��3� 0�U � V1 9 16W X 1916Y � 0.7344

Buscamos en la tabla el valor =Z �⁄ � =�.��> con n -(k +1) grados de libertad, es decir, =�.��>,�� �2.179

Además usando 4� � 4456 2 7 � 9.93

Tenemos nuestro intervalo buscado:

17.502 2 �2.179 9�9.93 �U� ��3� 0�U \ ]^ \ 17.502 � �2.179 9�9.93 �U� ��3� 0�U 17.502 2 �2.179 9�9.93 �0.7344 \ ]^ \ 17.502 � �2.179 9�9.93 �0.7344

11.617 \ ]^ \ 23.385

Tenemos un 95% de seguridad de que cuando las variables independientes (número de cajas y

distancia recorrida) adoptan los valores 9 y 16, el valor medio (E(Y)) de la variable tiempo de servicio

está entre 11.6 y 23.3.

INTERVALO DE PREDICCIÓN PARA UN VALOR PARTICULAR DE LA RESPUESTA

Veamos el intervalo de predicción de 95% para un valor particular de la variable dependiente

(tiempo), cuando el número de cajas (X1) es 9 y la distancia recorrida (X2 ) es de 16. Usando los valores

previos tenemos que:

17.502 2 �2.179 9�9.93 �1 � U� ��3� 0�U \ '� \ 17.502 � �2.179 9�9.93 �1 � U� ��3� 0�U 17.502 2 �2.179 9�9.93 �1 � 0.7344 \ '� \ 17.502 � �2.179 9�9.93 �1 � 0.7344

17.502 2 9.042 \ '� \ 17.502 � 9.042

8.459 \ '� \ 26.544

Observe que, el intervalo de predicción es considerablemente más ancho que el intervalo de

confianza.

En R, se pueden observar estos mismos resultados ejecutando los comandos siguientes

Valores=data.frame(No.cajas=9,Distancia=16) predict(mod1, newdata=valores, interval="confidence",level=0.95) predict(mod1, newdata=valores, interval="prediction",level=0.95)

3.478 0.069 0.078

0.069 0.0024 0.001

0.078 0.001 0.002

− − − −

Page 15: Ej Regresion Lineal Multiple

Funciones genéricas de extracción de información del modelo

anova(objeto 1, objeto 2)

Compara un submodelo con un modelo externo y produce una tabla de análisis de la varianza. coefficients(objeto)

Extrae la matriz de coeficientes de regresión. Forma reducida: coef(objeto). formula(objeto)

Extrae la fórmula del modelo. plot(objeto)

Crea cuatro gráficos que muestran los residuos, los valores ajustados y algunos diagnósticos. predict(objeto, newdata=hoja.de.datos)

La nueva hoja de datos que se indica debe tener variables cuyas etiquetas coincidan con las de la original. El resultado es un vector o matriz de valores predichos correspondiente a los valores de las variables de hoja.de.datos. residuals(objeto)

Extrae la matriz de residuos, ponderada si es necesario. La forma reducida es resid(objeto). step(objeto)

Selecciona un modelo apropiado añadiendo o eliminando términos y preservando las jerarquías. Se devuelve el modelo que en este proceso tiene el máximo valor de AIC Otras funciones que permiten explorar sucesiones crecientes de modelos son add1(), drop1()