Post on 31-Mar-2021
Variables indicadoras
Variables indicadoras
Ms Carlos López de Castilla Vásquez
Universidad Nacional Agraria La Molina
2011-2
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Introducción
Algunas veces se hace necesario el uso de variables cualitativas
en el análisis de regresión.
Por ejemplo: Turno, Situación laboral, Género, etc.
Se debe asignar un conjunto de niveles a la variable cualitativa
para explicar su efecto sobre la variable respuesta.
Lo anterior se realiza a través del uso de las variables
indicadoras.
Suponga que un ingeniero mecánico desea estudiar la relación
entre la vida efectiva de una herramienta cortante (Y ) con la
velocidad del torno en RPM (X1) y el tipo de herramienta
cortante usada (X2) .
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Introducción
La variable independiente X2 = tipo de herramienta es
cualitativa y supongamos que tiene dos niveles: A y B.
Se utiliza una variable indicadora que toma los valores 0 y 1
para identi�car sus niveles.
Sea:
X2 =
{0, si la observacion es obtenida de la herramienta A
1, si la observacion es obtenida de la herramienta B
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Introducción
Si se asume que un modelo de regresión lineal se tiene:
Y = β0 + β1X1 + β2X2 + ε (1)
Para interpretar los parámetros de este modelo considere
primero la herramienta tipo A para la que X2 = 0:
Y = β0 + β1X1 + β2(0) + ε = β0 + β1X1 + ε
Se obtiene para la herramienta tipo A es una recta con
intercepto β0 y pendiente β1 .
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Introducción
Para la herramienta tipo B se tiene que X2 = 1 , entonces:
Y = β0 + β1X1 + β2(1) + ε = (β0 + β2) + β1X1 + ε
Se obtiene para la herramienta tipo B una recta con pendiente
β1 y intercepto β0 + β2 .
Ambos modelos describen dos líneas de regresión paralelas y se
asume que la variancia de los errores ε es la misma para ambos
tipos de herramientas.
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Introducción
El parámetro β2 es una medida de la diferencia de la vida
media de la herramienta como resultado de cambiar de la
herramienta tipo A a la de tipo B.
El procedimiento anterior se puede generalizar para factores
cualitativos con cualquier número de niveles.
Suponga que se tiene tres tipos de herramientas: A, B y C.
Para incorporar los tres niveles en el modelo se requiere dos
variables indicadoras, por ejemplo X2 y X3 .
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Introducción
Los niveles de estas variables son:
X2 X3
0 0 Si la observación es de la herramienta tipo A
1 0 Si la observación es de la herramienta tipo B
0 1 Si la observación es de la herramienta tipo C
El modelo de regresión es:
Y = β0 + β1X1 + β2X2 + ε
En general, una variable cualitativa con a niveles se representa
con a − 1 variables indicadoras.
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Modelo con diferente intercepto y pendiente
Suponga que las líneas de regresión para la vida efectiva de la
herramienta sobre la velocidad del torno tienen diferente
intercepto y pendiente.
Lo anterior se puede modelar con una sola ecuación de
regresión usando variables indicadoras.
El modelo es:
Y = β0 + β1X1 + β2X2 + β3X1X2 + ε (2)
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Modelo con diferente intercepto y pendiente
El modelo anterior incorpora un producto cruzado entre la
velocidad del torno y la variable indicadora del tipo de
herramienta.
Para la herramienta tipo A el modelo (2) se convierte en:
Y = β0 + β1X1 + β2(0) + β3X1(0) + ε = β0 + β1X1 + ε (3)
que corresponde a una recta con intercepto β0 y pendiente β1.
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Modelo con diferente intercepto y pendiente
Para la herramienta tipo B el modelo (2) se convierte en::
Y = β0+β1X1+β2(1)+β3X1(1)+ε = (β0+β2)+(β1+β3)X1+ε(4)
que corresponde a una recta con intercepto β0 + β2 y
pendiente β1 + β3.
β2 indica el cambio en el intercepto asociado con el cambio del
tipo de herramienta de A a B.
β3 indica el cambio en la pendiente asociado con el cambio del
tipo de herramienta de A a B.
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Modelo con diferente intercepto y pendiente
Para probar sí dos modelos de regresión son idénticos se
plantean las siguientes hipótesis:
H0 : β2 = β3 = 0
H1 : almenos uno es diferente de cero
Si no se rechaza H0 se puede asumir que existe un sólo modelo
de regresión.
Para probar que la pendiente es común pero el intercepto
posiblemente diferente se plantean las siguientes hipótesis:
H0 : β3 = 0 versus H1 : β3 6= 0
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Una variable indicadora con más de dos niveles (cuando lavariable cualitativa tiene mas de dos categorías)
Ejemplo
Se desea investigar la relación que existe entre el consumo de
electricidad (Y ) en viviendas unifamiliares en los meses de mayor
calor, sobre el tamaño de la casa de familia (X1) y sobre el sistema
de aire acondicionado que usa. Suponga que existe cuatro tipo de
sistema de aire acondicionado: (1) Sin aire acondicionado, (2) por
ventiladores, (3) Sistema de extracción de aire caliente, y (4) con
una central de aire acondicionado.
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Los cuatros niveles de este factor puede ser modelado por tres
variables indicadoras: X2, X3 y X4 , se tiene:
Tipo de aire acondicionado X2 X3 X4
Sin aire acondicionado 0 0 0
Por ventiladores 1 0 0
Sistema de extracción 0 1 0
Central de aire acondicionado 0 0 1
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
El modelo de regresión es:
Y = β0 + β1X1 + β2X2 + β3X3 + β4X4 + ε...(5)
De esta manera, la casa sin aire acondicionado (
X2 = 0,X3 = 0 , X4 = 0), la ecuación (5) se convierte en :
Y = β0 + β1X1 + ε
La casa que usa ventiladores ( X2 = 1,X3 = 0 , X4 = 0), la
ecuación (5) se convierte en:
Y = (β0 + β2) + β1X1 + ε
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
La casa con sistema de extracción ( X2 = 0,X3 = 1 , X4 = 0),
la ecuación (5) se convierte en:
Y = (β0 + β3) + β1X1 + ε
La casa que tiene central de aire acondicionado (
X2 = 0,X3 = 0 , X4 = 1), la ecuación (5) se convierte en:
Y = (β0 + β4) + β1X1 + ε
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Se puede observar:
Los parámetros β2, β3 y β4 , y modi�ca la altura (el
intercepto) del modelo de regresión para los diferentes tipos de
sistema de aire acondicionado.
Esto es que β2, β3 y β4, y mide el efecto de sistema de aire
acondicionado por ventiladores, extracción y de central de aire
acondicionado.
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Modelo con Interacción
Si se asume que la pendiente de la función de regresión que
relaciona con la media del consumo de electricidad y el tamaño
de la casa, depende del tipo de sistema de aire acondicionado.
Por ejemplo, uno puede esperar que el consumo de electricidad
puede incrementarse con el tamaño de la casa, pero la tasa de
incremento puede ser diferente para un sistema central de aire
acondicionado que para con ventiladores, debido a que un
sistema con aire acondicionado podría ser mas e�ciente que
con ventiladores para casa grande.
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Esto es, que existe una interacción entre el tamaño de la casa
y el sistema de aire acondicionado.
Esto puede ser incorporado en el modelo dado en (5) el
término de interacción.
El modelo resultante es:
Y = β0+β1X1+β2X2+β3X3+β4X4+β5X1X2+β6X1X3+β7X1X4+ε
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Las cuatro modelo de regresión correspondiente a los cuatros
tipos de sistemas de aire acondicionado son:
Tipo de aire acondicionado
Y = β0 + β1X1 + ε Sin aire acondicionado
Y = (β0 + β2) + (β1 + β5)X1 + ε Con ventiladores
Y = (β0 + β3) + (β1 + β6)X1 + ε Con sistema de extracción
Y = (β0 + β4) + (β1 + β7)X1 + ε Con sistema central de aire acondicionado
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Con más de una variable cualitativas
Frecuentemente presenta que varias variables cualitativas
deben ser incorporadas al modelo.
Para ilustrar esto, suponga que en el ejemplo de las
herramientas cortante, se incorpora un nuevo factor, tipo de
aceite para corte.
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Si se asume que este factor tiene dos niveles, se puede de�nir
una segunda variable indicadora X3 como sigue:
X3 =
{0, si se usa es aceite de baja viscocidad
1, si se usa es aceite de viscocidad media
Un modelo de regresión que relaciona la vida de la herramienta
(Y ) con la velocidad del torno X1, tipo de herramienta (X2), y
tipo de aceite (X3) es como sigue:
Y = β0 + β1X1 + β2X2 + β3X3 + ε...(6)
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Los interceptos en este modelo dependen de estos factores en
una forma aditiva.
Por ejemplo, si se usa la herramienta de tipo B y un aceite de
mediana viscosidad (X2 = 1, X3 = 1), se tiene:
Y = (β0 + β1 + β2) + β1X1 + ε
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Suponga que se considera interacciones y los dos factores
cualitativos, así el modelo dado en (6), se convierte:
Y = β0 + β1X1 + β2X2 + β3X3 + β4X1X2 + β5X1X3 + ε...(7)
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Esto implica las siguientes situaciones:
Tipo de Herramienta Aceite para el corte Modelo de Regresión
A Baja viscosidad Y = β0 + β1X1 + ε
B Baja viscosidad Y = (β0 + β2) + (β1 + β4)X1 + ε
A Viscosidad media Y = (β0 + β3) + (β1 + β5)X1 + ε
B Viscosidad media Y = (β0 + β2 + β3) + (β1 + β4 + β5)X1 + ε
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Observe que para cada combinación de tipo de herramienta y
aceite para el corte resulta una línea de regresión con diferente
intercepto y pendiente.
Sin embargo el modelo es aditivo con respecto a los niveles de
la variable indicadora.
Esto es cambio de una viscosidad baja a una viscosidad media
en el aceite de corte, cambia en el intercepto en β3 y en la
pendiente en β5, sin tener en cuenta del tipo de herramienta
que se está usando.
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Ahora, si adicionamos al modelo dado en (7) el término de
producto cruzado que involucra a las variables indicadora X2 y
X3, se tiene:
Y = β0+β1X1+β2X2+β3X3+β4X1X2+β5X1X3+β6X2X3+ε...(8)
Entonces se tiente las siguientes situaciones:
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Tipo de Herramienta Aceite para el corte Modelo de Regresión
A Baja viscosidad Y = β0 + β1X1 + ε
B Baja viscosidad Y = (β0 + β2) + (β1 + β4)X1 + ε
A Viscosidad media Y = (β0 + β3) + (β1 + β5)X1 + ε
B Viscosidad media Y = (β0 + β2 + β3 + β6) + (β1 + β4 + β5)X1 + ε
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
La adicción del término producto cruzado en (8) resulta como
un efecto de una variable indicadora en el intercepto
dependiendo del nivel de las otras variables indicadoras.
Si no se dispone de informaciones a priori de los efectos del
tipo de herramienta, viscosidad del aceite de corte sobre la
vida de la herramienta, se dejará que los datos nos guíen a
seleccionar el modelo correcto.
Ms Carlos López de Castilla Vásquez Variables indicadoras
Variables indicadoras
IntroducciónModelo con diferente intercepto y pendienteUna variable indicadora con más de dos nivelesModelo con InteracciónCon más de una variable cualitativas
Esto puede ser generalmente hecho mediante pruebas de
hipótesis a cerca de los coe�cientes individuales de regresión
usando la prueba de F parcial.
Por ejemplo, probar la hipótesis:
H0 : β6 = 0
Podría permitir discriminar entre que modelo usar, el (7) o el
(8).
Ms Carlos López de Castilla Vásquez Variables indicadoras