Pronósticos, Series de Tiempo y Regresión · En el caso del modelo de regresión lineal...

42
Pronósticos, Series de Tiempo y Regresión Capítulo 4: Regresión Lineal Múltiple

Transcript of Pronósticos, Series de Tiempo y Regresión · En el caso del modelo de regresión lineal...

Pronósticos, Series de Tiempo

y Regresión

Capítulo 4: Regresión Lineal Múltiple

Temas

Modelo de regresión lineal múltiple

Estimaciones de Mínimos Cuadrados Ordinarios (MCO);

estimación puntual y predicción

Error Cuadrático Medio y Error Estándar

Utilidad del modelo: R2, R2 ajustada y la prueba F global

Prueba de significancia de una variable independiente

Intervalos de Confianza para valores esperados y de

predicción

Temas avanzados

Modelo de Regresión Lineal Múltiple

Se emplean más de una variable

independiente.

Relaciona y con x1, x2, ..., xk

Modelo:

kkxxxy xxxyk

22110,...,,| 21

Valor medio de y cuando los valores de las variables

independientes son x1, x2, ..., xk :

Parámetros: β0, β1, β2, ..., βk

Término de error:

kkxxxy xxxyk

22110,...,,| 21

Suposiciones del modelo de regresión lineal:

1. En cualquier combinación dada de valores de x1, x2, ..., xk ,

la media de la población de los valores potenciales de = 0.

2. Varianza constante del error.

3. Normalidad de errores.

4. Independencia de los errores.

5. Ninguna relación entre las variables independientes mismas.

Ejemplo 4.2 (p. 146).

El gerente de una compañía desea evaluar el desempeño

de su fuerza de ventas en el territorio de actuación.

Recopila información sobre cinco variables, que según su

criterio, podrían ejercer alguna influencia sobre las ventas.

Tomando una muestra aleatoria de 25 vendedores, se

plantea el siguiente modelo de regresión lineal:

0 1 1́ 2 ´2 3 3 4 ´4 5 ´5i i i i i i iy x x x x x

y= ventas anuales en miles de dólares (sales). x1= número de meses de empleado en la compañía (time). x2= ventas del producto de la compañía y productos de la

competencia en el territorio (mktpoten). x3= gasto en publicidad (adver).

x4 = promedio ponderado de la participación en el mercado de la compañía en el territorio en los últimos cuatro años (mktshare).

x5=cambio en la participación en el mercado de la compañía

en el territorio en los últimos cuatro años (change). = termino de error aleatorio.

Interpretación geométrica del modelo de regresión

Región experimental: combinaciones de los valores

observados de x1, x2, ..., xk

Plano de medias

Los parámetros relacionan la media de la variable dependiente

con las variables independientes en un sentido global.

β0 : ordenada al origen (valor de y cuando x1=x2=…xk=0.

βi : cambio en la variable dependiente asociado con el

incremento de una unidad de la variable xi manteniendo las k-1

variables restantes sin cambio alguno ( i=1,2,...,k-1).

Interpretación de los parámetros de regresión β0, β 1,..., βk

Estimaciones de mínimos cuadrados:

estimación puntual y predicción

Estimación puntual del valor medio y de un valor

individual de la variable dependiente y cuando los

valores de las variables independientes son x01, x02,

..., x0k .

Se predice = 0

Esta ecuación se llama la ecuación de regresión o de

predicción de mínimos cuadrados

kk xbxbxbby 00220110ˆ

Estimadores MCO utilizando algebra matricial

1ˆ ( ' ) 'X X X Y

11 1

12 2

1

1 ...

1 ...

... ... ... ...

1 ...

k

k

n kn

x x

x xX

x x

1

2

...

n

y

yY

y

0

1ˆ...

k

donde donde

Ejemplo 4.2 utilizando STATA

Matriz de diagramas de dispersión

Estimadores MCO

Source | SS df MS Number of obs = 25

-------------+------------------------------ F( 5, 19) = 40.91

Model | 37862661 5 7572532.21 Prob > F = 0.0000

Residual | 3516890.29 19 185099.489 R-squared = 0.9150

-------------+------------------------------ Adj R-squared = 0.8926

Total | 41379551.3 24 1724147.97 Root MSE = 430.23

------------------------------------------------------------------------------

sales | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

time | 3.612101 1.1817 3.06 0.006 1.138775 6.085428

mktpoten | .0420881 .0067312 6.25 0.000 .0279995 .0561767

adver | .1288568 .0370361 3.48 0.003 .0513393 .2063742

mktshare | 256.9556 39.13607 6.57 0.000 175.0428 338.8683

change | 324.5335 157.2831 2.06 0.053 -4.663819 653.7308

_cons | -1113.788 419.8869 -2.65 0.016 -1992.621 -234.9546

------------------------------------------------------------------------------

Error Cuadrático Medio y Error Estándar

Una estimación puntual de σ2 es el error cuadrático

medio:

Una estimación puntual de σ es el error estándar:

2ˆSCE

n k

ˆSCE

n k

Utilidad del Modelo: R2, R2 Ajustada y la

Prueba F Global

En el caso del modelo de regresión lineal múltiple,

1. Variación total =

2. Variación explicada =

3. Variación inexplicada =

4. Variación total = Variación explicada + Variación inexplicada

5. El coeficiente de determinación múltiple es

R2 = (variación explicada)/(variación total)

6. El R2 es la proporción de la variación total de los valores observados de la variable dependiente que es explicada por las variables independientes incluidas en el modelo de regresión.

7. Coeficiente de correlación múltiple: R = √R2

2

iY Y

2ˆiY Y

i iY Y

R2 Ajustada

donde

R2 es el coeficiente de determinación múltiple

n es la cantidad de observaciones y

k es la cantidad de coeficientes estimados en el modelo

2 2 1 1

1

k nR R

n n k

Prueba F de significancia global

H0: β0 = β1 = β2 =... = βk = 0

Ha: por lo menos uno de los β0, β1, β2, ..., βk ≠ 0

Estadística F global:

_ exp /( 1)(mod )

_ exp /

Variación licada kF elo

Variación in licada n k

Se puede rechazar H0 y aceptar Ha en el nivel de

significancia α si se mantiene alguna de las condiciones

siguientes:

Estadística F (modelo) > F[α]

donde el punto F[α] se basa en k-1 grados de libertad

para el numerador y n-k para el denominador.

valor p (de F) < α

Prueba de significancia individual

Defina la estadística de una prueba

y asuma que las suposiciones de regresión se

mantienen.

ˆ( )j

j

b

bt

ee

Hipótesis

alternativa

Condición de

punto de

rechazo Valor p

Ha : βj ≠ 0 2 (área bajo la curva t a

la derecha de |t|)

Ha : βj > 0 área bajo la curva t a la

derecha de t

Ha : βj < 0 área bajo la curva t a la

izquierda de t

)1(

2/|| kntt

1 kntt

1 kntt

Intervalo de Confianza para j

Si se cumplen las suposiciones de la regresión,

un intervalo de confianza de 100(1-α)% para el

parámetro de regresión βj es

/ 2ˆ ˆ( )

n k

j jt ee

Intervalos de Confianza para valores esperados y de predicción

Para calcular el valor de distancia en un modelo

de regresión múltiple, se requiere de álgebra de

matrices.

Véase el Apéndice B (p. 621).

' 1

0 0( ' )x X X xValor de distancia

01 02 01 ... kx x xx0= donde

Si se cumplen las suposiciones de la regresión,

un intervalo de confianza de 100(1-α)% para el

valor medio de y cuando los valores de las

variables independientes son x01, x02, ..., x0k es

/ 2ˆ ˆ . .

n ky t v d

Si se cumplen las suposiciones de la regresión,

un intervalo de predicción 100(1-α)% para un

valor individual de y cuando los valores de las

variables independientes son x01, x02, ..., x0k es

/ 2ˆ 1 . .

n ky t s v d

Temas Avanzados

Modelo de regresión cuadrática.

Interacción.

Uso de variables ficticias para modelar variables

independientes cualitativas.

Prueba F parcial: Prueba de la significancia de

una parte de un modelo de regresión

Modelo de regresión cuadrática

El modelo de regresión cuadrática que relaciona y con

x es: 2

210 xxy

μy|x μy|x μy|x

μy|x μy|x μy|x

x x x

x x x

Interacción

Se introduce un término de interacción cuando

se cree que una variable (xi) influye en la

relación entre otra variable (xj) independiente y

la variable dependiente, y.

21322110 xxxxy

Uso de variables ficticias para modelar variables independientes cualitativas

Cuando se quiere incluir una variable cualitativa,

se pueden utilizar variables ficticias (variables

indicadoras, dummies).

Toman el valor de 1 o 0.

Esta variable influye en el intercepto.

Ejemplo 4.15 (p. 183).

La cadena de tiendas Sonny -que comercializa

equipos de audio y video- desea conocer el

impacto que tiene sobre sus ventas, y, (en

miles de dólares), tanto el número de hogares

alrededor del área de las tiendas, x, (en miles),

así como la ubicación de las tiendas, D, ya sea

que estás se encuentren: i) en el centro de la

ciudad; ii) dentro de un centro comercial o, iii)

fuera de un centro comercial (nótese que D es

una variable cualitativa).

Para comparar el efecto de las tres ubicaciones sobre las ventas, se plantea el siguiente modelo:

0 1 2 3M Dy x D D

donde se define

1 si la tienda está en un centro comercial. DM= 0 en cualquier otra parte.

1 si la tienda se ubica en el centro de la ciudad. DD= 0 en cualquier otra parte.

0 1 2 3 0 1 2 3(1) (0)M Dy x D D x

0 1 2 3 0 1 2 3(0) (0)M Dy x D D x

Se deduce entonces que: 1. Para las tiendas en la calle, el volumen medio de las ventas esta dado por:

0 2 1x

0 1 2 3 0 1 2 3(0) (1)M Dy x D D x

0 3 1x

2. En el caso de las tiendas ubicadas en el centro comercial, el volumen medio de las ventas esta dado por:

3. Las tiendas ubicadas en el centro de la ciudad, el volumen medio de las ventas esta dado por:

0 1x

Interpretación geométrica del modelo:

Source | SS df MS Number of obs = 15

-------------+------------------------------ F( 3, 11) = 275.07

Model | 33268.6975 3 11089.5658 Prob > F = 0.0000

Residual | 443.465035 11 40.3150032 R-squared = 0.9868

-------------+------------------------------ Adj R-squared = 0.9833

Total | 33712.1625 14 2408.01161 Root MSE = 6.3494

------------------------------------------------------------------------------

y | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

x | .8685884 .0404899 21.45 0.000 .7794707 .9577062

dm | 28.37376 4.461307 6.36 0.000 18.55449 38.19303

dd | 6.863778 4.770477 1.44 0.178 -3.635971 17.36353

_cons | 14.97769 6.188446 2.42 0.034 1.357012 28.59837

------------------------------------------------------------------------------

DM DDxy 864.6374.2886859.0978.14ˆ

Prueba F parcial: Prueba de la significancia de una parte de un modelo de regresión Permite probar la significancia de un subconjunto

seleccionado de las variables independientes.

Sea, por ejemplo, el modelo

Podría ser de interés saber si las variables x2 y x3 son

relevantes en el modelo.

H0: 2=3=0

Ha: por lo menos una de 2 y 3 0

0 1 1 2 2 3 3y x x x

Se puede pensar en términos de dos modelos

competidores:

Se busca establecer si:

H0: 2=3=0 vs. Ha: por lo menos una de 2 y 3 0

0 1 1 2 2 3 3 cy x x x

0 1 1 Ry x

Modelo

completo

Modelo

reducido

El estadístico de prueba esta dado por

donde k= número de variables independientes del modelo

completo.

g= número de coeficientes del modelo reducido

Rechazar Ho ssi F > F(), o bien,

Valor p(F) <

( ) /

/ ( 1)

R C

C

SCE SCE k gF

SCE n k

Para comparar el efecto de las tres ubicaciones sobre las ventas, se plantea el siguiente modelo:

DM DDxy 32110

DM DDxy 864.6374.2886859.0978.14ˆ

Para comparar el efecto de las tres ubicaciones sobre las ventas, se plantea el siguiente modelo:

μy|x μy|x μy|x

μy|x μy|x μy|x

x x x

x x x

EJERCICIO 4.1 (p. 197)

Paso 1. Obtener los datos del ejercicio en la pagina https://sites.google.com/a/crlstatistics.net/crlstatwiki/main_page/

references-and-data-sets/forecasting-and-time-series---an-applied-approach-bowerman

Paso 2. Dado que están en formato EXCEL, se debe pasar a Stata

abrir Stata

Escribir edit en la ventana de Comandos

En el editor de datos usar “copiar y pegar”

Cerrar el editor de datos

Listo

Paso 3. Realizar el ejercicio

EJERCICIO 4.1 (p. 197)

'Y' 'X1' 'X2'

180 23 5

98.1 11 2

173.1 20 9

136.5 17 3

141 15 8

165.9 21 4

193.5 24 7

127.8 13 6

163.5 19 7

172.5 25 2

Datos del ejercicio

Y= precio de venta de una casa

(en miles de dólares).

X1= dimensiones de la casa (en miles

de pies cuadrados).

X2= calificación (una calificación global del

refinamiento de la casa expresada en una

escala de 1 [peor] a 10 [mejor], que

proporciona la compañía de bienes raíces

100

120

140

160

180

200

10 15 20 25DIMENSIONES

PRECIOS Fitted values

twoway (sc precios dimensiones) (lfit precios dimensiones)

100

120

140

160

180

200

2 4 6 8 10CALIFICACION

PRECIOS Fitted values

twoway (sc precios calificacion) (lfit precios calificacion)

EJERCICIO 4.1 (p. 197)

EJERCICIO 4.1 (p. 197)

reg precios dimensiones calificacion

Source | SS df MS Number of obs = 10

-------------+------------------------------ F( 2, 7) = 350.87

Model | 7373.95174 2 3686.97587 Prob > F = 0.0000

Residual | 73.5573511 7 10.508193 R-squared = 0.9901

-------------+------------------------------ Adj R-squared = 0.9873

Total | 7447.50909 9 827.501011 Root MSE = 3.2416

------------------------------------------------------------------------------

precios | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

dimensiones | 5.612806 .2285206 24.56 0.000 5.07244 6.153171

calificacion | 3.834423 .4332008 8.85 0.000 2.810066 4.85878

_cons | 29.34681 4.89144 6.00 0.001 17.78039 40.91323

------------------------------------------------------------------------------

precio\dimensiones=20, calificacion=9= 0 + 1 (20)+ 2 (9)

representa el valor que en promedio asume el precio de ventas cuando las

dimensiones de la cas son de 2000 pies cuadrados y la calificación global

de refinamiento señala que es de 9 (“buena casa”) = 176,112.74 dólares