Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos...

26

Transcript of Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos...

Page 1: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en Regresión

Regresión Lineal Múltiple

Ms Carlos López de Castilla Vásquez

Universidad Nacional Agraria La Molina

2011-2

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 2: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Transformaciones para linealizar modelos

Consideremos por ahora solo modelos con una variablepredictora.

La idea es tratar de aumentar la medida de ajuste R2 delmodelo, sin incluir variables predictoras adicionales.

Lo primero que hay que hacer es un plot para obervar el tipode tendencia, como los que aparecen el la Figura 1.

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 3: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Figura 1: Modelos no lineales

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 4: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

En la primera grá�ca de la Figura 1 se ha ajustado un modelocuadrático, que es de la forma general y = a + bx + cx2 .Estopuede ser modelado como una regresión múltiple con dosvariables predictoras.

La segunda grá�ca corresponde a un modelo exponencial de laforma y = αeβx con α y β positivos. Este modelo es muyadecuado para modelar crecimientos poblacionales.

La tercera grá�ca corresponde a un modelo potencial odoblemente logarítmico de la forma y = αxβ , con β positivo.

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 5: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Figura 2: Modelos no lineales

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 6: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

La primera grá�ca de la Figura 2 corresponde a un modelohiperbólico o inverso de la forma y = α+ β/x , con x > 0.

La segunda grá�ca corresponde a un modelo logarítmico de laforma y = α+ βlog(x) con x > 0.

La tercera grá�ca corresponde a un modelo potencia pero conβ > 0.

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 7: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

La siguiente tabla muestra las transformaciones de la variablepredictora y/o respuesta que se requieren para linealizar variosmodelos.

Nombre del modelo Ecuación del Modelo Transformación Modelo Linealizado

Exponencial Y = αeβX Z = LogY X = X Z = Logα + βX

Logaritmico Y = α + βLogX Y = Y W = LogX Y = α + βW

Doblemente Logarítmico Y = αXβ Z = LogY W = LogX Z = Logα + βW

Hiperbólico Y = α + β/X Y = Y W = 1/X Y = α + βW

Doblemente Inverso Y = 1/(α + βX ) Z = 1/Y X = X Z = α + βX

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 8: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Transformaciones de las variables predictoras en regresión

múltiple

Se tiene una variable de respuesta Y y varias variablespredictoras, y desea hacer transformaciones en las variablesrespuesta para mejorar la medida de ajuste del modelo.

Estas transformaciones se pueden ver afectadas por lacolinealidad (dependencia lineal) existente entre las variablespredictoras.

Box y Tidwell, propusieron un método para transformar lasvariables predictoras pero solo usando potencia de ellas.

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 9: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Mas especi�camente, ellos consideraron el modelo:

y = β0 + β1w1 + ...+ βkwk + e...(1.2.1)

Donde:w = xαjj si αj 6= 0 y wj = ln(xj) si αj = 0.

El método está basado en el desarrollo en series de Taylor delmodelo anterior.

Con respecto a a = (α1, ...αk) y alrededor del punto aa0 = (α1,0, ...αk,0) = (1, ..., 1).

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 10: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Haciendo las derivaciones respectivas, el modelo 1.2.1 sereduce a:

y ∼= β0+β1x1+...+βkxk+(α1−1)β1x1lnx1+(α2−1)β2x2lnx2+...+(αk−1)βkxk lnxk

El cual es equivalente a:

y ∼= β0 + β1x1 + ...+ βkxk + γ1z1 + γ2z2 + ...+ γkzk ...(1.2.2)

Donde:γj = (αj − 1)βj y zj = xj lnxjpara j = 1, 2...k

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 11: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

El procedimiento para la estimación de los αj se puede resumircomo sigue:

a) Hacer la regresión lineal múltiple considerando las variablespredictoras originales xj y denotar los estimados de loscoe�cientes por bj .

b) Hacer una regresión lineal múltiple de Y versus las variablespredictoras originales, más las variables zj = xj ln(xj) y denotarlos estimados de los coe�cientes de zj por γ̂j

c) Estimar α̂jporγ̂jbj

+ 1

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 12: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

El procedimiento se puede repetir varias veces usando en cadaetapa las nuevas variables transformadas y la siguiente relaciónde recurrencia:

α̂(m+1)j = (

γ̂(m)j

b(m)j

+ 1)α̂(m)j ...(1.2.3)

Terminando el proceso cuando | α̂(m+1)j − α̂j |< TOL es una

cantidad de tolerancia muy cercana a cero.

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 13: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

EJEMPLO 1: Aplicar la técnica sugerida por Box and Tidwellal conjunto de datos millaje.

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 14: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 15: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 16: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 17: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 18: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Transformaciones para mejorar la normalidad de la variable

de respuesta

Box y Cox introdujeron una transformación de la variable derespuesta con el objetivo de satisfacer la suposición denormalidad del modelo de regresión.

La transformación es de la forma yλ (transformaciónpotencia), donde λ es estimada con los datos tomados.

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 19: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

EJEMPLO 2: Aplicar la transformación de Box y Cox alcomjunto de datos millaje

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 20: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 21: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 22: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 23: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 24: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 25: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Figura 3:

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple

Page 26: Regresión Lineal Múltipleclopez/Regresion/semana_10.pdf · Regresión Lineal Múltiple Ms Carlos López de Castilla Vásquez ... EJEMPLO 1: Aplicar la técnica sugerida por Box

Transformaciones en RegresiónTransformaciones para linealizar modelosTransformaciones de las variables predictoras en regresión múltipleTransformaciones para mejorar la normalidad de la variable de respuesta

Figura 3. Plot de normalidad de los residuales de la regresiónpara el conjunto de datos millaje después de la transformaciónBox-Cox.

Se observan claramente dos �outliers� inferiores y uno superior.

Notar que el R2 ha subido de 87.33% a 92.52%, mejorando elefecto de transformar las variables predictoras que se llevó acabo en el EJEMPLO 1.

Ms Carlos López de Castilla Vásquez Regresión Lineal Múltiple