Econometría Grado en Finanzas y...

39
Esquema 2.1 La informaci´ on cualitativa 2.2 Una ´ unica variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal Econometr´ ıa Grado en Finanzas y Contabilidad Helena Veiga Apuntes de clase basados en el libro ”Introduction to Econometrics: A modern Approach” de Wooldridge Helena Veiga Cap´ ıtulo 2: Regresi´ on con Variables Cualitativas

Transcript of Econometría Grado en Finanzas y...

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

Econometrıa

Grado en Finanzas y Contabilidad

Helena Veiga

Apuntes de clase basados en el libro ”Introduction to Econometrics: A modern

Approach” de Wooldridge

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

2.1 La informacion cualitativa2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo lineal de probabilidad

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

A menudo la informacion cualitativa se presenta en forma devariables binarias:

• una persona es o mujer o varon;

• una persona o tiene o no ordenador personal;

• una empresa o ofrece un tipo de plan de pensiones a susempleados o no lo ofrece;

• un paıs o admite la condena a cadena perpetua o no lo hace.

En todos estos ejemplos, la informacion importante se puedealmacenar en una variable binaria (o ficticia) o variable cero-uno.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

Al definir una variable ficticia, debemos decidir a cual suceso leasignamos el valor uno y a cual le asignamos el valor cero.

Por ejemplo, en un estudio sobre los salarios de los individuos,podrıamos definir mujer como una variable binaria que tomara elvalor uno para las mujeres y cero para los varones.

O al contrario, tambien podrıamos definir varon como una variablebinaria que tomara el valor uno para los varones y el valor ceropara las mujeres.

La ventaja de almacenar la informacion cualitativa en variablescero-uno es que nos lleva a modelos de regresion en los cuales losparametros tienen interpretaciones muy naturales.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

Por ejemplo, podrıamos tener:

Figure :

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

¿Como incluimos la informacion binaria en los modelos deregresion?En el caso mas sencillo de que solo haya una variable ficticiaexplicativa, simplemente la anadimos a las demas variablesindependientes de la ecuacion. Sea el siguiente modelo en que seintenta explicar el salario por hora:

wagei = β0 + δ0femalei + β1educi + ui ,

δ0 se utiliza como parametro para female, la variable ficticia.

En el modelo, femalei = 1 cuando la persona es una mujer, yfemale = 0 cuando la persona es un varon, el parametro δ0 tiene lasiguiente interpretacion:

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

δ0 es la diferencia de salario por hora entre mujeres y varones,suponiendo que el nivel de educacion es el mismo.

El coeficiente δ0 nos dice si hay discriminacion en contra de lasmujeres: si δ0 < 0, entonces, a igual nivel en los demas factores,las mujeres ganan menos que los varones en promedio.

Si suponemos que la media condicional es cero, es decir, queE (ui |femalei , educi ) = 0, entonces

δ0 = E (wagei |femalei = 1, educi )− E (wagei |femalei = 0, educi ).

Como femalei = 1 corresponde a las mujeres y femalei = 0 a losvarones, podemos escribir la ecuacion anterior:

δ0 = E (wagei |femalei , educi )− E (wagei |malei , educi ).

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

Figure :

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

• Los varones son el grupo base o grupo de referencia, es decir,el grupo con el que se hacen las comparaciones;

• β0 es la constante para varones;

• δ0 es la diferencia de constantes entre mujeres y varones.

Si mujeres fuera el grupo base, entonces el modelo serıa:

wagei = α0 + γ0malei + β1educi + ui ,

donde la constante para mujeres es α0 y la constante para varoneses α0 + γ0. Esto implica que α0 = β0 + δ0 y β0 = α0 + γ0.

En la practica, no importa cual sea el grupo que tomemos comobase, pero sı es importante que recordemos cual es el que hemosescogido como base.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

Cuando hay mas variables explicativas:

wagei = β0 + δ0femalei + β1educi + β2experi + β3tenurei + ui .

Si educ , exper y tenure son todas variables importantes en laproductividad, la hipotesis nula de que no hay diferencia entrevarones y mujeres es H0 : δ0 = 0. La alternativa de que haydiscriminacion en contra de las mujeres es Ha : δ < 0.EjemploLa estimacion del modelo anterior es:

ˆwagei = −1.570.72

+−1.810.26

femalei + 0.5720.049

educi

+0.250.012

experi + 0.1410.021

tenurei

n = 526 R2 = 0.364

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

• La constante negativa (la constante para varones), en estecaso no tiene mucho sentido, porque nadie tiene en la muestravalores proximos a cero en anos de educ , exper , y tenure.

• El coeficiente de female mide la diferencia esperada en salariopor hora entre una mujer y un varon, para los mismos nivelesde educ , exper , y tenure.

Es informativo el comparar el coeficiende de female en la ecuacionanterior con la estimacion cuando se quitan las demas variables dela ecuacion:

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

ˆwagei = 7.100.21

− 2.510.3

femalei

n = 526 R2 = 0.116

• La constante es el salario medio para varones en la muestra(con female = 0), por tanto, los varones ganan $7.10 por horaen media;

• El coeficiente de female es la diferencia de salario medio porhora entre varones y mujeres. Por tanto, el salario medio delas mujeres de la muestra es de $4.59 por hora;

• Podemos hacer un contraste de comparacion de las mediasentre los dos grupos. La diferencia estimada, −2.51, tiene unestadıstico t de −8.37, el cual es estadısticamente muysignificativo;

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

• Para que el contraste de la t sea valido, debemos suponer quela hipotesis de homoscedasticidad se cumple, lo cual implicaque la varianza poblacional de wages es la misma paravarones que para mujeres.

El ejemplo anterior podrıa tener importancia en planificacion de lapolıtica de igualdad. Otros ejemplos podrıan ser la evaluacion demedidas, donde medirıamos el efecto de las medidas economicas osociales sobre los individuos, empresas, barrios, ciudades, etc.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

En el caso mas sencillo hay dos grupos de individuos.

• El grupo de control no participa en el experimento;

• El grupo experimental o grupo de tratamiento sı participa.

Con pocas excepciones, la eleccion de los grupos de control y detratamiento no es aleatoria.EjemploUtilizando los datos JTRAIN.RAW de las empresas manufacturerasde Michigan en 1988, se obtuvo la siguiente ecuacion estimada:

ˆhrsempi = 46.6743.41

+ 26.255.59

granti − 0.983.54

ln sales i

−6.073.88

ln employ i ,

n = 105 R2 = 0.237

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

La variable dependiente son las horas de formacion por empleadoen cada empresa. La variable grant es una variable ficticia quevale uno si la empresa recibio una subvencion para formacionlaboral en 1988 y 0 en otro caso. Las variables sales y employ sonlas ventas anuales y el numero de empleados respectivamente.

• La variable grant es estadısticamente muy significativa, contgrant = 4.70. Controlando las ventas y el empleo, lasempresas que recibieron una subvencion formaron a cadatrabajador, en media, 26.25 horas mas;

• Puesto que el numero medio de horas de formacion portrabajador en la muestra es, aproximadamente, 17, con unmaximo de 164, grant tiene un efecto grande sobre laformacion, como cabrıa esperar.

• El coeficiente de ln sales es pequeno y no significativo.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

• El coeficiente de ln employ se interpreta como que, si unaempresa es un 10% mayor, forma a sus trabajadores unas .61horas menos. Su estadıstico t es 1.56, que esta cerca dellımite de ser estadısticamente significativo.

Interpretacion de los Coeficientes de las Variables FicticiasExplicativas Cuando la Variable Dependiente es ln(y)En la practica, a menudo, la variable dependiente aparece en formade logaritmo, con una o mas variables ficticias como variablesindependientes. ¿Como interpretamos los coeficientes de lasvariables ficticias en este caso?

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

ˆln price i = 5.560.65

+ 0.1680.038

ln lotsize i + 0.7070.093

ln sqrft i

0.0270.029

bdrmsi + 0.0540.045

coloniali ,

n = 88 R2 = 0.649

donde colonial , que es una variable binaria, vale 1 si la casa es deestilo colonial.Fijados los valores de lotsize, sqrft, y bdrms, la diferencia en

ˆln price entre una casa de estilo colonial y otra de otro estilo es de.054. Es decir, una casa de estilo colonial se espera que se vendaaproximadamente por un 5.4% mas, si los demas factores soniguales.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

Podemos usar varias variables ficticias independientes en la mismaecuacion. Veamos el siguiente ejemplo:

ˆlnwage i = 0.3210.100

+ 0.2130.055

marrmalei +−0.1980.058

marrfemi

−0.1100.056

singfemi + 0.0790.007

educi + 0.0270.005

experi

−0.000540.00011

exper2i + 0.0290.007

tenurei − 0.000530.00023

tenure2i

n = 526 R2 = 0.461

El modelo estimado permite diferencias en salario entre cuatrogrupos, hombres casados, mujeres casadas, hombres solteros ymujeres solteras.

• El grupo base es hombres solteros;

• Las variables ficticias son: marrmale, marrfem y singfem;

• No ponemos female, porque ahora es redundante.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

• Todas las variables, excepto singfem, son estadısticamentesignificativas.

• Las estimaciones entre las tres variables ficticias miden ladiferencia en proporcion en salario en relacion a los hombressolteros. Por ejemplo, se estima que los hombres casadosganan un 21.3% mas que los solteros, a iguales niveles deeducacion, experiencia y antiguedad.

• Aunque los hombres solteros son el grupo base, podemos usarlas estimaciones para calcular la diferencia estimada entre dosgrupos cualesquiera.

• Por ejemplo, la diferencia en proporcion entre mujeres solterasy casadas es −.110 − (−.198) = .088, es decir, las mujeressolteras ganan aproximadamente un 8.8% mas que las mujerescasadas.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

• Sin embargo, no podemos usar las estimaciones anteriorespara contrastar si la diferencia estimada entre mujeres solterasy casadas es estadısticamente significativa. Las desviacionestıpicas de marrfem y singfem no bastan para hacer esecontraste.

• Lo mas sencillo es escoger uno de esos grupos como base yreestimar la ecuacion:

lnwage i = β0 + δ0marrmalei + δ3singmalei + δ2singfemi

+β1educi + β2experi + β3exper2i

+β4tenurei + β5tenure2i + ui

ahora la hipotesis nula es, simplemente, H0 : δ2 = 0

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

• La regla general para incluir variables ficticias que nos definanlos distintos grupos es: si necesitamos en el modelo deregresion constantes para g grupos o categorıas, debemosincluir g − 1 variables ficticias en el modelo, ademas de laconstante.

Utilizacion de las Variables Ficticias para Informacion OrdinalSupongamos que queremos estimar el efecto de las calificacionesde solvencia de las distintas ciudades sobre el tipo de interes de ladeuda municipal (MBR). Las agencias financieras, como Moody‘s yStandard and Poor‘s, califican la calidad de la deuda de losgobiernos municipales de tal forma que las calificaciones dependende factores tales como la probabiilidad de impago.

Por ejemplo, las calificaciones podrıan varıar desde cero hastacuatro, donde cero fuera la peor calificacion y cuatro la mejor.Este es un ejemplo de una variable ordinal (CR).

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

¿Como incluimos la variable CR en un modelo para explicarMBR?Una manera es:

MBRi = β0 + β1CRi + otros factores,

• Entonces β1 es el cambio en MBR cuando CR se incrementaen una unidad, dejando fijos los demas factores.

• Por desgracia, no es tan sencillo interpretar un incremento deuna unidad en CR .

• Sabemos que un CR de cuatro es mejor que un CR de tres,pero ¿es la diferencia entre cuatro y tres la misma que ladiferencia entre uno y cero?

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

Un enfoque mejor es definir variables ficticias para cada valor deCR , por ejemplo:

• CR1 = 1 si CR = 1 y CR1 = 0 en otro caso;

• CR2 = 1 si CR = 2 y CR2 = 0 en otro caso.

• etc.

De esta forma transformamos las calificaciones en cinco categorias.Entonces, podemos estimar el modelo

MBRi = β0 + δ1CR1i + δ2CR2i + δ3CR3i + δ4CR4i + otros factores.

Incluimos cuatro variables ficticias porque tenemos cincocategorıas.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

La categorıa que hemos omitido es la calificacion crediticia de cero,por tanto, este es el grupo base.Interpretacion de los coeficientes:

• δ1 es la diferencia en MBR (fijos los otros factores) entre unmunicipio con calificacion de 1 y otro con calificacion de cero;

• δ2 es la diferencia en MBR entre un municipio con calificacionde 2 y otro con calificacion de cero;

• etc.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

En el ejemplo del salario, podemos anadir un termino deinteraccion entre female y married al modelo en que female ymarried aparecıan por separado:

ˆlnwage i = 0.3210.10

− 0.1100.056

femalei + 0.2130.055

marriedi

−0.3010.072

femalei ∗marriedi + .....,

Estas estimaciones nos dicen que hay una interaccionestadısticamente significativa entre sexo y estado civil. Estemodelo tambien nos permite obtener la diferencia estimada ensalario entre los cuatro grupos, pero debemos tener cuidado deasignar correctamente la combinacion de ceros y unos.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

Los valores female = 0 y married = 0 corresponden al grupo dehombres solteros, que es el grupo base, porque ası se eliminanfemale, married , y female ·married . Podemos calcular la constantepara hombres casados poniendo female = 0 y married = 1, lo cualnos da una constante de .321 + .213 = .534.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

Pendientes distintasPodemos introducir interacciones entre las variables ficticias yotras variables explicativas para que haya diferencias en laspendientes. En el ejemplo:

lnwage i = (β0 + δ0femalei ) + (β1 + δ1femalei)educi + ui

• Si hacemos female = 0, entonces la constante para losvarones es β0, y la pendiente de educacion para varones es β1.

• Para las mujeres, ponemos female = 1; por tanto, la constantepara las mujeres es β0 + δ0, y la pendiente es β1 + δ1.

• δ0 mide la diferencia en constantes entre mujeres y varones, yδ1 mide la diferencia en la pendiente de education entremujeres y varones.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

Figure :

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

¿Como estimamos este modelo?Para poder aplicar OLS, tenemos que meter en el modelo unainteraccion entre female y educ :

lnwage i = β0 + δ0femalei + β1educi + δ1femalei · educi + ui

Una hipotesis de interes es que la pendiente de educacion es lamisma para mujeres y varones. Por tanto, la hipotesis a contrastares:

H0 : δ1 = 0,

lo cual significa que la pendiente de lnwage con respecto a educ esla misma para varones y mujeres.

Esta hipotesis no restringe la diferencia de constantes, δ0. Estahipotesis nula permite que haya una diferencia en salario entrevarones y mujeres, pero debe ser la misma para todos los niveles deeducacion.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

• Tambien nos interesa la hipotesis de que los salarios mediosson identicos para varones y mujeres con un mismo nivel deeducacion. Bajo esta hipotesis ambos δ0 y δ1 deben ser nulos.

• Para contrastar H0 : δ0 = 0, δ1 = 0 se usa un test de la F.

• En el modelo en que hay solo una diferencia de constantesesta hipotesis se rechaza, es decir, H0 : δ0 = 0 se rechazafrente a H1 : δ0 < 0.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

Contraste de la igualdad de regresiones para distintos gruposQueremos ahora contrastar la hipotesis de que dos grupos tienen lamisma funcion de regresion, frente a la alternativa de que al menosun parametro es distinto en los dos grupos.

Veamos el siguiente ejemplo:Queremos contrastar que el modelo de

regresion que explica la nota media en la universidad es la misma

para deportistas universitarios varones y mujeres. La ecuacion es:

cumgpai = β0 + β1sati + β2hsperci + β3tothrsi + ui i = 1, ..., n,

donde sat es la puntuacion en un examen de ingreso, hsperc es elranking en la nota del instituto y tothrs es el numero total dehoras de ensenanaza en la universidad.Si queremos que cualquiera de las pendientes dependa de sexo,simplemente incluimos las interacciones entre la variable (porejemplo) female y las otras variables de la ecuacion.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

Si queremos contrastar que hay alguna diferencia entre varones ymujeres, entonces debemos especificar un modelo en el cual laconstante y todas las pendientes sean distintas en uno y otrogrupo:

cumgpai = β0 + δ0femalei + β1sati + δ1femalei ∗ sati+β2hsperci + δ2femalei ∗ hsperci + β3tothrsi+δ3femalei ∗ tothrsi + ui

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

El parametro δ0 mide la diferencia entre las constantes de varonesy mujeres, δ1 mide la diferencia de pendientes con respecto a sat

entre varones y mujeres, etc. La hipotesis nula de que cumgpa

sigue el mismo modelo para varones y mujeres se expresa ası:

H0 : δ0 = 0 , δ1 = 0 , δ2 = 0 , δ3 = 0

Si una de las δj es no nula, entonces el modelo es distinto paravarones y mujeres. Podemos contrastar esta hipotesis nula con eltest de la F basado en los modelos restringido y no restringido.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

En todos los modelos que hemos visto hasta ahora, la variabledependiente y era cuantitativa (por ejemplo, y se media en Euros,o era una puntuacion de un examen, o un porcentaje, o loslogaritmos de ellas). ¿ Que sucede si queremos utilizar regresionmultiple para explicar un hecho cualitativo?

Por ejemplo, y puede indicarnos si una persona tiene bachillerato ono, o puede decirnos si un estudiante ha tomado drogas duranteun curso academico, o si una empresa paso a ser controlada porotra durante un ano. En todos estos ejemplos, podemos hacer quey = 1 denote una de las situaciones y y = 0 la otra.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

¿ Que sentido tiene un modelo de regresion multiple si y esbinaria?

yi = β0 + β1x1i + ...+ βkxki + ui i = 1, ..., n.

Como y solo puede tomar dos valores, βj no se puede interpretarcomo el cambio en y dado un incremento unitario en xj , ceterisparibus, puesto que y solo puede cambiar de uno a cero o de ceroa uno.

Si suponemos que E (ui |x1i , x2i , ..., xki ) = 0, tenemos

E (yi |xi) = β0 + β1x1i + ...+ βkxki,

donde xi = x1i , x2i , ..., xki .

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

La clave esta en que cuando y es una variable binaria que toma losvalores cero y uno, siempre se cumple que P(y = 1|x) = E (y |x): laprobabilidad de exito, (o sea, la probabilidad de que y = 1),coincide con el valor esperado de y :

P(y = 1|x) = β0 + β1x1 + ...+ βkxk .

El modelo de regresion multiple con variable dependiente binaria sellama modelo de probabilidad lineal (LPM) porque laprobabilidad de la respuesta es lineal en los parametros βj .

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

En el LPM, βj mide el cambio en la probabilidad de exito si xjcambia y los demas factores se mantienen fijos:

∆P(y = 1|x) = βj∆xj .

Si escribimos el modelo estimado como:

yi = β0 + β1x1i + ...+ βkxki

• yi es la probabilidad predicha de exito para el individuo i ;

• β0 es la probabilidad predicha de exito si todos los xj valencero, esta cantidad puede o no ser de interes;

• La pendiente β1 mide el cambio predicho de probabilidad deexito si x1 se incrementa en una unidad.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

Inconvenientes del LPM

• Para ciertas combinaciones de los parametros podemosobtener probabilidades negativas o mayores que uno;

• El LPM suele funcionar bien para valores de las variablesindependientes que esten cerca de los valores muestralesmedios;

• Debido a que y es binaria, el LPM incumple una de lashipotesis de Gauss-Markov. Si y es binaria, su varianzacondicional en x, es

Var(y |x) = p(x) (1− p(x)) ,

donde p(x) = β0 + β1x1 + ...+ βkxk . Esto implica, excepto enel caso de que esta probabilidad no dependa de ningunavariable independiente, que debe haber heteroscedasticidad enel LPM.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas

Esquema2.1 La informacion cualitativa

2.2 Una unica variable ficticia independiente2.3 Uso de variables ficticias cuando hay varias categorias

2.4 Interrelaciones entre las variables ficticias2.5 Variable dependiente binaria: El modelo de probabilidad lineal

EjemploSea arr86 una variable binaria que vale 1 si un hombre fuedetenido durante 1986 y cero en otro caso. La poblacion son ungrupo de jovenes de California nacidos en 1960 o 1961 que yahabıan sido detenidos antes de 1986. Un modelo lineal deprobabilidad para explicar arr86 es:

arr86 = β0+β1pcnv+β2avgsen+β3tottime+β4ptime86+β5qemp86+u,

donde pcnv es la proporcion de detenciones anteriores que llevarona una condena, avgsen es la condena media cumplidaanteriormente (en mesess), tottime son los meses que ha pasadoen la carcel desde que tenıa 18 anos y antes de 1986, ptime86 sonlos meses que paso en la carcel en 1986, y qemp86 es el numero detrimestres (de 0 a 4) en que el hombre tuvo un empleo legal en1986.

Helena Veiga Capıtulo 2: Regresion con Variables Cualitativas