Tesina Ivana Barbona
-
Upload
ivana-barbona -
Category
Documents
-
view
26 -
download
0
Transcript of Tesina Ivana Barbona
UNIVERSIDAD NACIONAL DE ROSARIO
FACULTAD DE CIENCIAS ECONÓMICAS Y ESTADÍSTICA
ESCUELA DE ESTADÍSTICA
Título de la tesina:
“Uso del Modelo Logit Mixto para el estudio de la desocupación en Rosario”
Tesinista: Ivana Barbona
Directora: Mgs. Gabriela Boggio
Carrera: Licenciatura en Estadística
ROSARIO - 2009
ÍNDICE
I- INTRODUCCIÓN.................................................................................................. 1
II- MATERIAL......................................................................................................... 4
II-A Características de la Encuesta Permanente de Hogares (EPH)........................... 4
II-B Descripción de las Variables en estudio............................................................ 7
III-METODOLOGÍA.................................................................................................. 10
III-A Modelos Lineales Generalizados Mixtos........................................................... 10
III-B Modelo Logit con intercepto aleatorio............................................................. 12
III-C Estimación de los parámetros del modelo....................................................... 14
IV- RESULTADOS.................................................................................................... 19
IV-A Análisis Descriptivo........................................................................................ 19
IV-B Modelización................................................................................................. 23
IV-B-1 Consideraciones acerca del supuesto distribucional de los efectos aleatorios…... 35
V-CONSIDERACIONES FINALES............................................................................... 38
VI- ANEXO............................................................................................................. 40
VI-A Análisis descriptivo de la muestra total de individuos y la submuestra
correspondiente a los individuos utilizados para ajustar el modelo……………………………… 40
VI-B Métodos para la determinación de la escala para las variables continuas………... 45
VII- BIBLIOGRAFÍA................................................................................................. 49
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
1
I-Introducción
Existen estudios que se caracterizan por el hecho de que las observaciones se
encuentran agrupadas. Esta agrupación puede deberse a que las mismas pertenecen a
individuos que comparten alguna característica, o bien, a que estén tomadas sobre un
mismo sujeto en forma repetida o en varias ocasiones a través del tiempo, es decir
longitudinalmente. Esto lleva a que exista cierto grado de correlación entre las observaciones
dentro de un mismo grupo o individuo.
Ignorar esta correlación entre observaciones al aplicar técnicas estadísticas tradicionales
puede invalidar las inferencias obtenidas.
Uno de los enfoques más utilizados al analizar datos correlacionados de este tipo son los
denominados Modelos Lineales Generalizados Mixtos (MLGM). Estos modelos constituyen
una extensión de los Modelos Lineales Generalizados (MLG) que permiten tener en cuenta la
correlación entre las observaciones de individuos dentro de un mismo grupo o tomadas a un
mismo sujeto, mediante la incorporación de efectos aleatorios.
En particular, cuando se cuenta con una variable respuesta de tipo binaria y datos
correlacionados, uno de los modelos más frecuentemente utilizados es el Modelo Logit Mixto.
El mismo tiene en cuenta la naturaleza binaria de la variable respuesta y la correlación de las
observaciones dentro de un mismo grupo o sujeto mediante la función de enlace logit y la
incorporación de efectos aleatorios respectivamente. Este modelo es un caso especial de la
familia de MLGM también conocido como Modelo Logístico Normal (Agresti, 2002).
En esta tesina se realiza una aplicación de este modelo para el estudio de la
desocupación en el aglomerado Gran Rosario utilizando datos provenientes de la Encuesta
Permanente de Hogares (EPH) realizada por el Instituto Nacional de Estadística y Censos
(INDEC) en el período 2005 – 2006. Los mismos son de tipo longitudinal y cada individuo
que participa de la encuesta es entrevistado en a lo sumo 4 ocasiones durante el período
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
2
considerado, con lo cual las observaciones que corresponden a un mismo individuo van a
tender a estar correlacionadas.
En la Argentina las cifras referidas a empleo y desempleo no provienen de ningún
registro administrativo. La falta de información sobre desocupación impone entonces
requerimientos metodológicos que son específicos e inherentes a las fuentes estadísticas
disponibles. Debido a ello, para la obtención de dichos datos se recurre a la EPH realizada
por el INDEC desde 1974.
Según el INDEC medir la dinámica laboral en Argentina significa, entre otras cosas,
monitorear la estructura del mercado de trabajo, profundizar sobre el perfil de ocupados y
desocupados, y ampliar el marco de perspectivas posibles para diagnosticar sobre variados
aspectos de nuestra economía y sociedad.
Quizás el fenómeno de la desocupación remita a múltiples causas: tecnificación de los
procesos productivos, crecimiento vegetativo de la población, crisis periódicas de la
economía, entre otras; pero en todos los casos tiende a producir efectos encadenados cada
vez más críticos desde la perspectiva de la población involucrada: la reducción de su poder
adquisitivo y el deterioro de sus condiciones de vida. Su medición procura generar
información y nuevos elementos de juicio para conocer la realidad, orientar decisiones en
política económica y efectuar previsiones para paliar este flagelo (INDEC, 1997).
Teniendo en cuenta que durante los últimos años, en nuestro país, el fenómeno de la
desocupación constituye una de las problemáticas más importantes relacionadas con el
mercado de trabajo, resulta de interés estudiar la relación entre el estado ocupacional y
factores tanto demográficos como socio-económicos.
El objetivo de esta tesina es, entonces, el estudio de la desocupación en el aglomerado
Gran Rosario en función de determinados factores demográficos y socio-económicos en el
período 2005 – 2006 mediante la aplicación de un Modelo Logit Mixto.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
3
Planteado el objetivo de este trabajo, en el capítulo II, se describe exhaustivamente el
material disponible. Luego se presenta el Modelo Logit Mixto como caso particular de la
familia de Modelos Lineales Generalizados Mixtos y en el capítulo IV se muestran los
resultados alcanzados. Por último, se presenta una discusión sobre la aplicación realizada.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
4
II-Material
En este capítulo se realiza una descripción de los datos que se utilizan en el presente
trabajo, así como también se presenta la definición operacional de las variables socio-
económicas y demográficas que van a ser consideradas en el modelo.
II-A Características de la Encuesta Permanente de Hogares (EPH)
La EPH es un programa nacional de producción sistemática y permanente de indicadores
que tiene como objetivo conocer las características socio-demográficas y socio-económicas
de la población. Es realizada en forma conjunta por INDEC y las Direcciones Provinciales de
Estadística (DPE), ya que estas últimas realizan los relevamientos bajo las normas técnicas y
metodológicas fijadas y monitoreadas por en equipo central de la EPH en el INDEC.
En base a esta encuesta el INDEC proporciona regularmente, entre otros resultados, las
tasas oficiales de empleo, desocupación, subocupación y pobreza (para cada uno de los
aglomerados, las regiones estadísticas y el total de los aglomerados).
En el año 2003 se encaró un proceso de reformulación integral de la EPH que abarcó
aspectos temáticos, muestrales y organizativos, sin alterar los propósitos iniciales de
relevamiento. El objetivo de dicha reformulación consistió en reelaborar la metodología de
medición y formas de operación atendiendo a características socio-económicas actuales, a
las nuevas modalidades de inserción en el mercado de trabajo y a su dinámica de cambio.
La nueva encuesta cuenta con tres cuestionarios, uno de vivienda; otro de hogar; y uno
para cada una de las personas de 10 o más años que conforman el hogar. Los mismos son
aplicados en una muestra distribuida en el tiempo, bajo una modalidad de relevamiento
continuo y con mayor frecuencia de presentación de los resultados.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
5
En cuanto a la medición de la condición de actividad se consideran ocupados a todos
aquellos individuos quienes desarrollan, en un período de referencia dado, una actividad
laboral. Es decir el conjunto de personas que:
- Trabajó por lo menos una hora en la semana de referencia en forma remunerada.
- Trabaja habitualmente sin pago.
- No trabajó en la semana pero mantiene el empleo.
- Incluye los suspendidos por menos de un mes y a los de 1 a 3 meses que no hayan
buscado activamente trabajo en la semana de referencia, así como también aquellos
a los que se les mantiene el pago independientemente del tiempo de suspensión.
- Incluye a los que no trabajaron en la semana por ciertas causas laborales (rotura de
equipos, mal tiempo, etc.) sólo si el tiempo de retorno es de hasta 1 mes.
En el caso de los desocupados se refiere a aquellos individuos que no tiene una
ocupación, buscan activamente trabajo y están disponibles para trabajar en las cuatro
semanas a partir de la semana de referencia. También se incluye a las personas que
interrumpieron momentáneamente la búsqueda de trabajo por un período de un mes por
razones circunstanciales y a los suspendidos de más de un mes que buscaron activamente
trabajo.
Se considera inactivos a aquellas personas que se han retirado de la búsqueda activa
de trabajo por falta de visualización de oportunidades pero están disponibles para trabajar.
También se consideran dentro de ésta categoría a los individuos que no trabajan, no buscan
activamente trabajo ni están disponibles para trabajar.
En cuanto al diseño de la muestra, la EPH es una encuesta por muestreo. Esto significa
que para conocer las diversas características del total de los hogares, se encuesta una
pequeña fracción representativa de los mismos.
Los hogares a encuestar son seleccionados aleatoriamente en dos etapas de selección:
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
6
- Primera etapa: Se lleva a cabo en cada aglomerado dentro de los cuales se
selecciona una cantidad de radios censales o subdivisiones de los mismos (áreas).
- Segunda etapa: Se listan todas las viviendas particulares de las áreas seleccionadas,
para efectuar a partir de ese listado una selección aleatoria de viviendas. Los hogares
que habitan esas viviendas son hogares a encuestar.
La cantidad de viviendas a seleccionar en cada área, es igual dentro de cada
aglomerado.
La periodicidad con la que se realiza la encuesta es trimestral quedando definidos en el
año los siguientes trimestres:
Trimestre Meses
1 Enero, febrero, marzo
2 Abril, mayo, junio
3 Julio, agosto, septiembre
4 Octubre, noviembre, diciembre
El período para el cual se brinda información se denomina “ventana de observación” y es
el trimestre.
En cuanto a la distribución de la muestra en el tiempo, las áreas seleccionadas se
distribuyen a lo largo de 12 semanas del trimestre de manera que la cantidad de áreas por
semana sea similar. Cada área tiene asignada una semana de referencia dentro del trimestre
la cual es la misma para todos los trimestres (no cambia de trimestre a trimestre, ni de año a
año). Cada trimestre tiene 12 semanas de referencia, quedando siempre la semana 13 libre
que no se utiliza como tal.
En la EPH se renueva periódicamente el conjunto de hogares a encuestar, denominado
panel de respondentes. La forma en la que se produce esta renovación se denomina “panel
de rotación”.
El esquema empleado se denomina 2-2-2 y su funcionamiento es el siguiente:
- Las viviendas de un área ingresan a la muestra para ser encuestadas en dos
trimestres consecutivos, en el mes y semana asignados a ese área.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
7
- Se retiran por dos trimestres consecutivos.
- Vuelven a la muestra para ser encuestadas en dos trimestres consecutivos en el mes
y semana asignados a ese área.
El esquema anterior garantiza que una vivienda que es encuestada por primera vez en la
semana 2 del trimestre 1, vuelve a ser encuestada en la semana 2 del trimestre 2, se retira
momentáneamente de la muestra para volver a ser encuestada en la semana 2 del trimestre
1 del año siguiente y en la semana 2 del trimestre 2 del año siguiente.
Este método de rotación da la posibilidad de realizar análisis en el tiempo, siguiendo a un
hogar o a un respondente desde su ingreso en el panel hasta la última vez que es
encuestado, de manera tal que, por ejemplo, un hogar puede ser seguido a lo largo de un
año y medio.
II-B Descripción de las variables en estudio
La variable respuesta considerada para el estudio de la desocupación en el aglomerado
Gran Rosario es Estado Ocupacional, la misma está formada por las siguientes categorías:
0 = Entrevista individual no realizada (no respuesta al Cuestionario Individual)
1 = Ocupado
2 = Desocupado
3 = Inactivo
4 = Menor de 10 años
En esta tesina, el grupo de estudio está conformado por los individuos pertenecientes a
la población económicamente activa. Es decir, las personas que tienen una ocupación o que
sin tenerla la están buscando activamente de manera tal que la variable respuesta asume
sólo las siguientes 2 categorías:
1 = Ocupado
2 = Desocupado
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
8
Respecto de las variables explicativas, fueron consideradas en el estudio las siguientes
variables que representan características socio-económicas y demográficas de los individuos:
Sexo
1 = Varón Niveles
2 = Mujer Jefe de familia
1 = Jefe Niveles
2 = No jefe Nivel de Ingreso Familiar
1 = Bajo (1º, 2º y 3º decil del ingreso per cápita familiar)
Niveles 2 = Medio (4º, 5º, 6º y 7º decil del ingreso per cápita familiar)
3 = Alto (8º, 9º y 10º decil del ingreso per cápita familiar)
Nivel Educativo
1 = Sin Instrucción/Primaria Incompleta/Educación especial 2 = Primaria Completa/Secundaria Incompleta
Niveles 3 = Secundaria Completa/Superior Universitaria Incompleta 4 = Superior Universitaria Completa
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
9
Rama de Actividad Económica
1 = Construcción
2 = Manufactura
3 = Servicios Comerciales Niveles 4 = Intermediación Financiera
5 = Administración Pública y Defensa, Enseñanza y Servicios
Sociales y de Salud
6 = Otras actividades de servicio
Edad: Toma valores mayores a 10 años.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
10
III- Metodología
III-A Modelo Lineal Generalizado Mixto
Los Modelos Lineales Generalizados Mixtos (MLGM) constituyen una extensión de los
Modelos Lineales Generalizados (MLG) que permiten tener en cuenta la correlación entre las
observaciones de individuos dentro de un determinado grupo o la correlación entre las
mediciones realizadas a un mismo individuo, es decir, un sujeto medido en varias ocasiones.
Dicha correlación es considerada en el modelo mediante la incorporación de efectos
aleatorios. Además, se supone que estos efectos siguen alguna distribución de probabilidad,
la cual puede asumirse por conveniencia matemática y computacional, como una normal
multivariada ( Fitzmaurice et al., 2004).
En este trabajo el interés se centra en el caso de individuos medidos en varias ocasiones
en el tiempo, es decir, de manera longitudinal.
Sean
- 1 2 i
'
i i i ity y . . . yY el vector de respuestas correspondiente al i-ésimo
individuo, con i=1,...,n, donde n es el número total de individuos en la muestra y ti el
número de mediciones repetidas para el i-ésimo individuo, pudiendo los individuos estar
medidos en distinto número de ocasiones.
- bi un vector de efectos aleatorios específico asociado al i-ésimo individuo.
- 1 2
'
ij ij ij ijpx x . . . xX el vector de covariables correspondientes a cada yij,
es decir, a la j-ésima observación del i-ésimo individuo donde j=1,...,ti .
El Modelo Lineal Generalizado Mixto puede especificarse mediante las siguientes tres
componentes ( Fitzmaurice et al., 2004):
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
11
1. Se supone que la distribución condicional de cada yij, dado un vector de efectos
aleatorios bi de dimensión qx1, pertenece a la familia exponencial de distribuciones
con Var(yij | bi) = v{E(yij | bi)}.Φ, donde v(.) es una función de variancia conocida
y además es función de la media condicional, E( yij | bi) y Φ parámetro de escala.
2. La media condicional de yij, es decir E(yij | bi), depende de los efectos fijos y
aleatorios mediante el siguiente predictor lineal:
' '
ij ij ij ibZ X , (1)
con
' '
ij i ij ij ij ig E(y | )b bZ X (2)
donde g(.) es alguna función de enlace conocida y β es el vector de parámetros de
regresión de dimensión px1.
3. Finalmente, se asume que los efectos aleatorios siguen alguna distribución de
probabilidad. En principio, se puede suponer cualquier función de probabilidad para
bi. En la práctica, es común asumir que bi tiene distribución normal multivariada,
con media cero y matriz de covariancias G de dimensión qxq. Además, se supone
que los efectos aleatorios bi son independientes de las covariables
1 2 ii i i it, ,...,X X X X .
Mediante estas tres componentes queda especificada en forma completa la distribución
conjunta de yij.
Cuando la naturaleza de la variable respuesta es binaria generalmente se utiliza la
función de enlace "logit", obteniendo así el denominado Modelo Logit Mixto que es un caso
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
12
especial de la familia de MLGM. Para el caso particular donde se tiene el intercepto como
único efecto aleatorio, el modelo anterior se denomina Modelo Logit con intercepto aleatorio.
A continuación se realiza una descripción de este modelo, el cual se elige para el análisis
de los datos.
III-B Modelo Logit con intercepto aleatorio
Sea Yij variable respuesta binaria, que toma los valores 0 y 1. El Modelo Logit con
intercepto aleatorio para dicha variable queda especificado por las siguientes tres partes
( Fitzmaurice et al., 2004):
1. Condicional a un sólo efecto aleatorio bi, las yij son independientes y tienen una
distribución de probabilidades Bernoulli, con Var(yij | bi) = E(yij | bi) {1 – E(yij | bi)},
(es decir, Φ =1).
2. La media condicional de yij depende de los efectos fijos y aleatorios mediante el
siguiente predictor lineal:
' ' '
ij ij ij i ij ib bZ X X , (3)
donde Zij = 1 para todo i = 1,...,n, y j = 1,...,ti, con
1
10
ij i '
ij i ij ij i
ij i
Pr y blogit Pr(y | b ) log b
Pr y b
( | )
( | )
X , (4)
Es decir, la media condicional de yij está relacionada con el predictor lineal
mediante una función de enlace logit.
3. Se supone que el efecto aleatorio bi tiene una distribución normal univariada, con
media cero y variancia 2
b . Este supuesto implica que el modelo en cuestión forma
parte de la denominada clase de Modelos Logísticos Normales (Agresti, 2002).
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
13
La introducción del efecto aleatorio bi produce un incremento en la correlación a través
de las respuestas dentro de un individuo en relación a la correlación entre respuestas de
distintos individuos. Es decir, el hecho de que las respuestas para un individuo tengan el
mismo valor del efecto aleatorio bi hace que estén más altamente correlacionadas que
aquellas respuestas con distintos valores de bi. Cuanto mayor es la diferencia en los valores
de los bi, mayor es la correlación intra-individuos. La heterogeneidad de los efectos
aleatorios bi es simplemente una función de su variancia 2
b . En consecuencia, la correlación
intra-individuo se incrementa al aumentar 2
b (Hosmer y Lemeshow, 2000).
Por otro lado, aunque la introducción de efectos aleatorios ha sido pensada como una
forma de tener en cuenta la correlación entre las observaciones de un mismo individuo, la
misma tiene implicancias importantes en la interpretación de los coeficientes de regresión.
Dichos coeficientes poseen una interpretación denominada sujeto-específica. Es decir,
representan la influencia de las covariables sobre el logaritmo del odds de respuesta de un
sujeto específico. En particular, la interpretación de un coeficiente de regresión βk se hace en
términos de los cambios en el logaritmo del odds de respuesta para un individuo dado por
incremento unitario en el valor de la correspondiente covariable xijk para valores fijos de las
demás covariables ( Fitzmaurice et al., 2004).
Lo anteriormente enunciado puede ser expresado en términos del modelo de la siguiente
forma:
Cuando xijk toma un determinado valor c, y los valores de las demás covariables se
mantienen fijos, es decir iguales a algún valor x’, el logaritmo del odds de respuesta positiva,
donde por respuesta positiva se entiende que yij toma el valor 1, es:
1 1
1 1
1 1
1
0
ij i ij ijk ijp ij ijp
i ij k p ijp
ij i ij ijk ijp ij ijp
Pr(y | b x ,..., x ,..., x x ,..., c,..., x )log b x ... ... x .
Pr(y | b x ,..., x ,..., x x ,..., c,..., x )
,c
,
(5)
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
14
De manera similar, cuando xijk toma el valor (c+1) manteniendo fijos los valores para el
resto de las covariables, el logaritmo del odds de respuesta positiva es el siguiente:
1 1
1 1
1 1
11
1
1
0
ij i ij ijk ijp ij ijp
i ij k p ijp
ij i ij ijk ijp ij ijp
Pr(y | b x ,..., x ,..., x x ,..., (c ),..., x )log b x ... ) ... x .
Pr(y | b x ,..., x ,..., x x ,..., (c ),..., x )
,(c
,
(6)
Así, para cualquier individuo, el logaritmo del odds de respuesta positiva por unidad de
incremento en xijk es sencillamente βk. Dicho coeficiente es el resultado de la diferencia de la
expresión (6) menos la (5).
Al exponenciar la diferencia anterior, es decir exp(βk) se obtiene la Razón de Odds cuya
interpretación indica cuánto mayor o menor es la chance de respuesta positiva para un
individuo i en el tiempo j que presenta un valor de la covariable xijk=(c+1) en comparación
con la chance de respuesta positiva si el mismo individuo hubiese presentado un valor de
xijk=c.
Es por esta razón que este modelo es más útil cuando el objetivo principal es realizar
inferencia a nivel sujeto en lugar de hacerlo a nivel promedio poblacional ( Fitzmaurice et al.,
2004).
III-C Estimación de los parámetros del modelo
Uno de los enfoques posibles para la estimación de los parámetros de un MLGM consiste
en la maximización de la verosimilitud marginal, obtenida integrando a través de los efectos
aleatorios, en función de la distribución de probabilidad asumida para ellos, en este caso la
Normal Multivariada (Molenberghs y Verbeke, 2005).
Sea un MLGM como el modelo (2), la contribución del i-ésimo sujeto a la verosimilitud
viene dada por (Molenberghs y Verbeke, 2005):
1
it
i i ij ij i i ij
yf ( | , ,Φ) f ( | , ,Φ)f( | )d
Y G b b G b (7)
de donde se deriva la verosimilitud para β, G y Φ:
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
15
1
1 1
i
n
i ii
tn
ij ij i i ii j
y
L( , ,Φ) f ( | , ,Φ)
f ( | , ,Φ)f( | )d
G Y G
b b G b
(8)
El problema principal se presenta al maximizar la expresión anterior en presencia de n
integrales del vector de efectos aleatorios bi de dimensión qx1.
Como en general no se dispone de expresiones analíticas para las integrales de dicha
expresión, es necesario recurrir a aproximaciones numéricas.
Una de ellas se basa en la descomposición de los datos en la media y un término del
error apropiado, mediante la expansión en serie de Taylor de la media que es una función no
lineal del predictor lineal.
Más específicamente, se considera la siguiente descomposición:
' '
ij ij ij ij ij i ijy h( ) X Z b (9)
donde h(.) es la inversa de la función de enlace y los errores tienen una distribución
apropiada con variancia V(yij|bi)= v(μij)Φ siendo v(.) la función de variancia habitual en la
familia exponencial.
Cuando se considera una variable aleatoria binaria y la función de enlace logit, se tiene:
11
' '
ij ij i
ij ij ij ' '
ij ij i
exp( )P(y )
exp( )
X Z b
X Z b
(10)
donde εij es igual a 1-ij con probabilidad ij y -ij con probabilidad 1-ij.
Una aproximación posible de la media µij conduce a las denominadas estimaciones
cuasi verosímiles penalizadas. Consiste en una expansión lineal de Taylor de (9)
alrededor de las estimaciones y ˆi
b de efectos fijos y aleatorios respectivamente, o sea:
' ' ' ' ' ' ' ' ' '
ij ij ij i ij ij i ij ij ij i ij i i ij
' '
ij ij ij ij ij i i ij
y h h ( ( ) h ( ) ( )
v( ) ( ) v( )ˆ
ˆ ˆ ˆ ˆ( ) )
ˆ( )ˆ ˆ
ˆ ˆ ˆ ˆ
ˆ
X Z b X Z b X X Z b Z b b
X Z b b
(11)
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
16
donde ij es igual al predictor
' '
ij ij ih( )ˆˆ X Z b para la media condicional E(yij|bi) y
' ' '
ij ij ij iv( h ( )ˆ ˆ) ˆ X Z b .
Matricialmente:
i i i i i i i i i( ) ( )ˆˆ ˆˆˆ Y VX VZ b b (12)
para las matrices de diseño apropiadas iX y i
Z , y con iV matriz diagonal cuyos elementos
diagonales son ijv( ) . Re-ordenando la expresión anterior se obtiene:
1* *
i i i i i i i i i i i( ) ˆˆ ˆˆ Y V Y X Zb X Zb (13)
para *
i igual a
1
i iˆ V , el cual sigue teniendo media cero.
La expresión (13) puede ser vista como un modelo lineal mixto para los denominados
pseudo datos *
iY , con efectos fijos β, efectos aleatorios bi, y término del error
*
i .
Dados valores iniciales para los parámetros β, G y Φ en la verosimilitud marginal, se
calculan las estimaciones de Bayes empíricas para bi, y luego se calculan los pseudo-datos
*
iY . Seguidamente se ajusta el modelo lineal mixto (13), produciendo nuevas estimaciones
de β, G y Φ. Estas últimas se utilizan para actualizar los pseudos-datos y el esquema
anterior se repite alternativamente hasta alcanzar la convergencia.
Las estimaciones resultantes se denominan estimaciones cuasi-verosímiles penalizadas,
debido a que se obtienen al optimizar una función de cuasi-verosimilitud que sólo involucra
los momentos de primer y segundo orden, aumentada con un término de penalidad de los
efectos aleatorios.
Según Molenberghs y Verbeke (2005) debido a que el ajuste del MLGM se basa en
principios máximo verosimiles, las inferencias acerca de los parámetros se obtienen también
a partir de la teoría de máxima verosimilitud clásica.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
17
Al asumir que el modelo ajustado es apropiado, los estimadores de los parámetros se
distribuyen asintóticamente Normal. Por lo tanto, pueden llevarse a cabo tests de tipo Wald,
tests de Razón de Verosimilitud y tests de Score. En el punto anterior se mostró que los
parámetros de los MLGM se pueden estimar ajustando un MLM a un conjunto de pseudo
datos. Las estimaciones de la precisión para los efectos fijos y para los efectos aleatorios se
calculan, entonces, utilizando la metodología para los modelos lineales mixtos, lo que hace
posible el uso de tests Z, t y F para los efectos fijos.
En cuanto a los efectos aleatorios, resulta de interés la inferencia acerca de las
componentes de variancia. En estos casos pueden aplicarse los test cásicos de Wald, Razón
de Verosimilitud y Score, siempre y cuando las hipótesis planteadas no refieran a la frontera
del espacio paramétrico.
Por ejemplo puede interesar probar si la variancia 2
b de un efecto aleatorio en un
modelo lineal generalizado con un único efecto aleatorio es igual a cero; en este caso las
hipótesis en cuestión son la siguientes: H0: 2
b = 0 vs. H1:
2
b > 0. De esta forma, la hipótesis
nula cae sobre la frontera del espacio paramétrico 2 0b
, por lo tanto, como fue expresado
anteriormente, ninguno de los test clásicos como Wald, Razón de Verosimilitud o Score
resultan válidos. Esto puede verse fácilmente considerando el test de Wald que se basaría en
la aproximación de la distribución normal estándar de la estimación 2
b .
Esta estadística no puede distribuirse normal con media igual a cero ya que la estimación
de 2
b toma sólo valores positivos. En consecuencia, bajo H0, esta estadística sigue una
distribución normal positiva en el 50% de los casos y es igual a cero en el otro 50% de los
casos. Ello conduce a una mezcla de distribuciones 2 como distribución nula. Es decir,
cuando 2
b > 0 y la estadística observada del test toma el valor t, el valor de la probabilidad
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
18
asociada para este test asintótico es 2
1
1
2P t , que equivale a la mitad de la probabilidad
asociada al test asintótico Chi Cuadrado con 1 grado de libertad (Molenberghs y Verbeke,
2005; Agresti, 2002).
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
19
IV- Resultados
En esta sección se presentan los resultados obtenidos al analizar los datos disponibles
sobre la desocupación en el aglomerado Gran Rosario.
En primer lugar se realiza un análisis descriptivo de las variables a considerar en este
trabajo y luego se utiliza un Modelo Logit Mixto para estudiar el efecto que tienen
determinados factores demográficos y socio-económicos sobre la desocupación en el
aglomerado Gran Rosario en el período que comprende los años 2005 y 2006.
IV-A Análisis descriptivo
Durante el período en estudio, como ya fue explicitado, los individuos fueron
encuestados en reiteradas oportunidades u ocasiones de acuerdo a un sistema rotativo que
da la posibilidad de realizar análisis en el tiempo, siguiendo a un hogar o a un respondente
desde su ingreso en el panel hasta la última vez que es encuestado.
En base a dicho seguimiento se construye la Tabla I y la Figura 1 en las cuales se
observa que el porcentaje de desocupados presenta cambios a lo largo del período que
comprende los 8 trimestres. Para el caso particular del año 2005 este porcentaje resulta
14,11% en el primer trimestre, para luego descender y mantenerse aproximadamente en el
12% en los tres trimestres restantes. En el año 2006 se visualiza que el valor del porcentaje
de desocupados para el primer trimestre supera al mismo trimestre del año anterior. No
obstante, este porcentaje va disminuyendo a través del 2006 finalizando el año con 9,43%
de desocupados, cifra menor que la última del 2005.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
20
Tabla I: Porcentaje de desocupados por trimestre del período 2005-2006
Año
2005 2006
1er
Trimestre
2do
Trimestre
3er
Trimestre
4to
Trimestre
1er
Trimestre
2do
Trimestre
3er
Trimestre
4to
Trimestre
% desocupados 14,11 12,11 12,52 12,35 14,88 12,68 11,05 9,43 PEA 1028 966 1118 1061 1109 1167 1186 1114
Figura I: Porcentaje de desocupados versus trimestres para cada año
En la Tabla II se presentan los porcentajes de desocupados correspondientes a los años
2005 y 2006 según los diferentes factores demográficos y socio-económicos en los trimestres
considerados.
Se puede apreciar que el porcentaje de desempleo es notablemente mayor para las
mujeres que para los hombres en todos los trimestres. El máximo porcentaje de desempleo
en el período estudiado, en el caso de los hombres, es 12,38% en el primer trimestre del
2005 y el mínimo es 7,31% en el cuarto trimestre del 2006. Para las mujeres estos
porcentajes son 21,10% en el primer trimestre del 2006 y 12,47% en el cuarto trimestre del
2006 respectivamente. Además, para los individuos de sexo masculino se ve que en ambos
años el porcentaje de desocupados desciende en el segundo trimestre, a continuación
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
21
presenta un leve aumento en el tercer trimestre para luego disminuir en el cuarto. En cuanto
a las mujeres, si bien no se observa un patrón similar al de los hombres en los dos años, se
puede apreciar que en el 2006 el porcentaje de desempleo es elevado al principio y va
disminuyendo a través del tiempo.
Tabla II: Porcentajes de desocupados según condición sociodemográfica en el período 2005-
2006
% de desocupados
Año
2005 2006
1er
trimestre
2do
trimestre
3er
trimestre
4to
trimestre
1er
trimestre
2do
trimestre
3er
trimestre
4to
trimestre
Sexo Hombre 12,38 10,52 10,99 8,72 10,55 9,20 9,88 7,31
Mujer 16,67 14,32 14,49 16,81 21,10 17,26 12,60 12,47
Nivel
Educativo
Sin
Instrucción/Primaria
incompleta /
Educación Especial.
15,49 13,33 11,11 13,33 9,52 8,82 2,56 8,05
Primaria completa o
Secundaria
incompleta
12,79 14,25 15,88 15,76 17,67 12,81 13,72 11,03
Secundaria completa o Superior
Universitaria
incompleta
18,92 13,62 13,15 13,03 15,98 15,67 12,75 11,03
Superior
Universitaria
completa
5,73 3,59 5,43 3,92 6,21 7,18 4,48 3,11
Condición
de jefe de
hogar
Es Jefe 4,96 8,02 5,68 6,57 7,27 5,81 4,43 5,21
No es Jefe 22,24 15,67 18,64 17,53 21,33 18,83 16,61 13,09
Rama de
Actividad
Construcción 23,47 12,63 21,65 18,89 15,04 18,63 18,35 14,66
Manufactura 3,57 5,63 10,15 9,42 6,17 3,59 9,14 4,59
Serv. Comerciales 12,77 12,68 8,83 8,78 10,12 9,94 7,14 8,27
Intermediación Financiera
10,87 11,76 9,43 6,52 14,68 12,40 10,62 6,74
Adm. Pública y
Defensa, Enseñanza
y Serv. Soc. y de
Salud
3,70 5,56 4,25 2,56 4,84 5,26 2,01 3,57
Otras actividades de
servicio 15,56 11,63 13,87 21,33 25,00 13,89 13,38 13,53
Nivel de
Ingreso
Familiar
Bajo (deciles 1º, 2º
y 3º) 20,50 23,83 22,22 20,00 25,00 20,56 20,26 18,93
Medio (deciles 4º,
5º, 6º y 7º) 12,42 9,80 11,78 10,98 12,07 10,46 8,22 8,82
Alto (deciles 8º, 9º y 10º)
3,14 4,85 1,54 2,37 5,03 7,03 4,69 1,66
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
22
Con respecto al nivel de educación, los porcentajes más bajos de desempleo se dan en
casi todos los trimestres entre las personas con educación superior universitaria completa.
En cambio, el mayor porcentaje de desocupación se presenta en la mayoría de los trimestres
para los individuos con primaria completa o secundaria incompleta. Otra característica
observada es que para el grupo de personas con secundaria completa o superior
universitaria incompleta, los porcentajes de desempleo descienden a través del tiempo tanto
dentro del año 2005 como del 2006. También se puede ver que los porcentajes de individuos
desocupados para todos los trimestres en el año 2006 de la categoría sin instrucción o
primaria incompleta o educación especial son menores que los mismos para los respectivos
trimestres en el año 2005.
Al tener en cuenta la condición de jefe de hogar, para todos los trimestres, el porcentaje
de desocupación es notablemente más bajo en los individuos que son jefes de hogar
respecto de aquéllos que no lo son. En el año 2005 se observa que el porcentaje de
desempleo para los jefes de hogar presenta fluctuaciones, ya que sube en el segundo
trimestre, luego decrece y vuelve a subir en el último trimestre del año. En cambio, en el año
2006 este porcentaje desciende con el transcurso del año.
Al considerar la rama de actividad económica los porcentajes más altos de desocupación
se dan con más frecuencia en el área de la construcción, mientras que los más bajos se
observan en la administración pública y defensa, enseñanza y servicios sociales y de salud.
También se observan porcentajes relativamente bajos para la rama de actividad
manufacturera.
En relación al nivel de ingreso familiar, los mayores porcentajes de desempleo se
observan en todos los trimestres para el grupo de individuos con nivel de ingreso familiar
bajo, siendo los mismos del orden del 20%, y dicho porcentaje va descendiendo a medida
que aumenta el ingreso.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
23
En la Tabla III se puede observar que la edad promedio de los individuos desocupados
es notablemente menor que la de los individuos ocupados en todos los trimestres, lo mismo
sucede con la mediana de la edad. Por otro lado la edad promedio para las personas
desocupadas es, en casi todos los trimestres, menor en el 2006 en comparación con el 2005.
Se destaca que para los desocupados tanto en el 2005 como en el 2006 existe una marcada
asimetría en la distribución de la edad reflejada en la diferencia observada entre media y
mediana.
Tabla III: Medidas descriptivas para la Edad de las personas entrevistadas según su estado
ocupacional en el período 2005-2006
Año Trimestre Media
Desvío
Estándar Mediana
Estado
Ocupacional
Ocupado
2005
1er 39,38 13,30 38,00
2do 39,73 14,47 38,00
3er 39,55 13,95 38,00
4to 40,00 13,87 35,50
2006
1er 39,08 14,00 38,00
2do 39,57 14,10 39,00
3er 39,37 14,11 38,00
4to 39,75 14,31 38,00
Desocupado
2005
1er 31,68 13,97 26,00
2do 33,77 15,55 27,00
3er 33,24 14,31 27,50
4to 33,98 14,25 28,00
2006
1er 31,81 14,39 26,00
2do 30,61 13,28 25,00
3er 30,31 13,39 25,00
4to 30,97 14,16 25,00
Medidas descriptivas generales 38,62 14,25 37,00
IV-B Modelización
Con el fin analizar los cambios que se presentan en la probabilidad de estar desempleado
teniendo en cuenta simultáneamente las distintas características demográficas y socio-
económicas de los individuos se ajusta un Modelo Logit Mixto, específicamente un Modelo
Logit con intercepto aleatorio. Mediante la incorporación del intercepto aleatorio, se pretende
tener en cuenta la posible asociación entre las respuestas de un mismo individuo
correspondientes a diferentes momentos.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
24
Como, de acuerdo a lo observado en la Tabla y Figura I, la probabilidad estimada de
estar desocupado presenta cambios a través del período considerado se decide incluir el
trimestre como un efecto fijo en el modelo. Del ajuste de dicho modelo se obtienen las
estimaciones que se presentan en la Tabla IV.
En la misma se observa que la mayoría de las estimaciones de los parámetros obtenidas
al ajustar el modelo son significativas a un nivel del 5%, excepto para las categorías de la
variable nivel educacional, y para la categoría de rama de actividad manufactura.
Tabla IV: Estimaciones de los parámetros del Modelo Logit Mixto
Estimación Error Estándar p-asociado
(Test de Wald)
Intercepto -4,7176 0,3733 <0,0001
Condición de jefe de hogar
No es jefe 1,0475 0,1337 <0,0001
Es jefe 0 . .
Sexo
Mujer 0,3850 0,1300 0,0031
Hombre 0 . .
Nivel educativo
Sin Instrucción / Primaria incompleta o Educación Especial -0,5014 0,3030 0,0981
Primaria completa o Secundaria incompleta 0,05812 0,2260 0,7971 Secundaria completa o Superior universitaria incompleta 0,2829 0,2160 0,1904
Superior universitaria completa 0 . .
Rama de actividad Construcción 1,5351 0,2398 <0,0001
Manufactura 0,3486 0,2383 0,1436
Serv. Comerciales 0,9321 0,2039 <0,0001
Intermediación Financiera 1,3950 0,2400 <0,0001
Otras actividades de servicio 1,1288 0,2088 <0,0001 Adm. Pública y Defensa, Enseñanza y Serv. Soc. y de Salud 0 . .
Nivel de Ingreso Familiar Bajo (deciles 1º, 2º y 3º) 2,0075 0,2051 <0,0001
Medio (deciles 4º, 5º, 6º y 7º) 1,0815 0,1959 <0,0001
Alto (deciles 8º, 9º y 10º) 0 . .
Edad -0,01279 0,004572 0,0052
Trimestre -0,04458 0,02227 0,0454
Variancia del efecto aleatorio 1,0067 0,1488 <0,0001
Con el objeto de evaluar si la variancia del efecto aleatorio del modelo es
significativamente distinta de cero, se aplica el test de Wald explicitado en la sección C del
capítulo III. El valor de la probabilidad asociada para dicho test es <0,0001, con lo cual se
concluye que la heterogeneidad entre individuos es lo suficientemente importante como para
ser tenida en cuenta mediante la incorporación del efecto aleatorio en el modelo.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
25
Un comentario especial merece el hecho de que la variable nivel de ingreso familiar
presenta una gran cantidad de valores faltantes: 2837 sobre un total de 8749 observaciones.
De todas formas, debido a que se trata de una característica importante a tener en cuenta
para el estudio de la desocupación se decide considerarla en el modelo. Otra variable que
presenta valores faltantes es rama de actividad económica (406 valores faltantes). No
obstante, es prudente reconocer que al ajustar el modelo en presencia de estas variables se
va a trabajar sólo con una submuestra que corresponde a las personas que declaran ingreso
familiar y rama de actividad económica. Por lo tanto, debido a que dicha submuestra se
espera resulte representativa a su vez de una subpoblación, las inferencias en base al
modelo utilizado están dirigidas a ésta y no a la población total de individuos.
A continuación se presentan un breve análisis descriptivo considerando la submuestra de
individuos que no presentan valores faltantes con el fin de representar las características de
los mismos.
Tabla V: Porcentaje de desocupados por trimestre del período 2005-2006 para la submuestra
considerada al ajustar el modelo.
Año
2005 2006
1er
Trimestre
2do
Trimestre
3er
Trimestre
4to
Trimestre
1er
Trimestre
2do
Trimestre
3er
Trimestre
4to
Trimestre
% desocupados 10,97 11,43 10,17 9,88 12,22 8,87 9,16 8,92 PEA 720 665 757 729 679 688 688 706
Los porcentajes de desocupados por trimestre que se presentan en la tabla V disminuyen
respecto a los mismos porcentajes obtenidos en base a la totalidad de los individuos.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
26
Tabla VI: Porcentajes de desocupados según condición sociodemográfica en el período 2005-
2006 para la submuestra considerada al ajustar el modelo.
En la tabla VI se observa que las probabilidades de estar desocupados disminuyen en la
mayoría de los trimestres para las variables sexo, nivel educativo, condición de jefe de hogar
y nivel de ingreso familiar. En el caso de la rama de actividad económica algunas categorías
presentan aumento en el porcentaje de desocupados para algunos trimestres.
Resulta interesante señalar que se realizaron tablas de frecuencias para todas las
variables en la muestra total de individuos y en la submuestra (Ver Anexo pág. 40). Se
% de desocupados
Año
2005 2006
1er
trimestre
2do
trimestre
3er
trimestre
4to
trimestre
1er
trimestre
2do
trimestre
3er
trimestre
4to
trimestre
Sexo Hombre 10,30 9,82 8,75 8,21 9,77 6,82 7,81 6,68
Mujer 12,01 13,67 11,98 11,93 15,71 11,40 11,00 12,20
Nivel
Educativo
Sin
Instrucción/Primaria
incompleta /
Educación Especial.
11,32 9,80 6,67 8,77 6,98 6,67 3,77 6,56
Primaria completa o Secundaria
incompleta
11,11 13,10 12,22 12,66 12,32 10,25 11,91 11,41
Secundaria completa
o Superior
Universitaria
incompleta
11,81 13,10 11,03 9,56 14,12 10,00 9,85 8,80
Superior
Universitaria completa
8,16 3,16 4,65 3,54 8,89 3,00 2,13 3,09
Condición
de jefe de
hogar
Es Jefe 4,35 7,06 3,92 5,23 6,23 4,23 3,71 5,19
No es Jefe 17,90 15,63 16,58 14,48 18,13 13,81 14,79 12,84
Rama de
Actividad
Construcción 24,00 11,69 17,39 20,00 13,79 17,74 20,00 13,41
Manufactura 3,13 7,02 10,42 9,23 1,89 0,95 7,92 4,00
Serv. Comerciales 11,32 17,22 9,21 7,31 12,31 10,10 6,67 9,28
Intermediación
Financiera 14,04 15,00 9,38 7,02 17,65 13,85 11,43 10,53
Adm. Pública y
Defensa, Enseñanza
y Serv. Soc. y de
Salud
4,11 4,55 5,10 3,50 5,26 2,78 3,15 3,54
Otras actividades de servicio
18,63 12,75 15,79 19,09 24,77 14,42 13,64 16,30
Nivel de
Ingreso
Familiar
Bajo (deciles 1º, 2º
y 3º) 16,08 20,89 18,90 17,62 20,87 14,29 17,05 15,22
Medio (deciles 4º,
5º, 6º y 7º) 10,93 7,47 8,89 8,10 9,09 7,96 6,67 8,70
Alto (deciles 8º, 9º y
10º) 2,60 5,03 0,53 1,83 3,33 4,49 3,76 1,13
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
27
observa en base a las mismas que la muestra total y la submuestra son similares en cuanto
a la distribución de las variables consideradas en el modelo.
Otro de los aspectos importantes a tener en cuenta en la búsqueda del modelo más
apropiado es la evaluación de la forma funcional bajo la que se incluyen las variables
continuas en el modelo. Para esto se recurre a estrategias propuestas por Hosmer y
Lemeshow (2000).
Una forma simple consiste en categorizar la variable continua de manera que los
cuartiles de la misma determinen los niveles. Se calculan las razones de odds estimadas
según el modelo tomando el primer cuartil como categoría de referencia. Estas razones de
odds representan la chance de estar desocupado para un individuo que pertenece a un
cuartil determinado versus la chance de estar desocupado en el caso de que el mismo
individuo pertenezca al primer cuartil. Luego se grafican los puntos medios de los cuartiles
versus las razones de odds estimadas del modelo con la variable continua como categórica.
De esta forma se puede observar y explorar gráficamente la escala de la covariable. Una
recta indicaría que la variable continua es lineal en el logit, mientras que si el polígono se
aparta de una recta su forma puede sugerir la posible transformación que se debe aplicar a
la variable continua. Tiene como ventaja la simplicidad de su aplicación, no obstante, no es
una técnica lo suficientemente poderosa para captar desviaciones sutiles respecto a una
tendencia lineal.
Otra técnica es la denominada Polinomios Fraccionarios; básicamente consiste en buscar
la transformación que proporcione la mejor forma funcional para la variable continua entre
un conjunto de posibles transformaciones de la variable a través de un procedimiento
iterativo. (Ver Anexo pág. 45).
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
28
Las variables de naturaleza continua en el modelo son edad y trimestre. Para evaluar la
forma funcional de dichas variables se aplican las técnicas explicitadas anteriormente
obteniéndose los siguientes resultados.
Figura IV: Razones de odds entre estado ocupacional y edad categorizadas (gráfico A) y
estado ocupacional y trimestre categorizada (gráfico B)
En el gráfico A de la Figura IV se observa que la escala de la variable edad no resulta
lineal. Por otro lado, la escala de la variable tiempo parece ser aproximadamente lineal hasta
el tercer cuartil, para luego mantenerse constante ya que la razones de odds estimadas
entre el tercer cuartil y el cuarto son prácticamente iguales como puede observarse en el
gráfico B de la Figura IV.
Al aplicar la técnica de polinomios fraccionarios a la variable edad, la transformación
hallada conduce a incluir en el modelo dos términos: un coeficiente que acompaña a la
variable en forma lineal y otro coeficiente que acompaña a la misma en forma logarítmica.
Respecto a la variable trimestre, la misma ingresa de manera lineal confirmando la
evaluación gráfica realizada.
En la Figura V se muestran las razones de odds estimadas para estado ocupacional y
edad (gráfico A) y estado ocupacional y trimestre (gráfico B), en base a las transformaciones
recién elegidas. Se observa que para el caso de la variable edad, ésta tiene una forma
gráfico A gráfico B
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
29
bastante similar a la que se visualiza en el gráfico A de la Figura IV, lo que sugiere que los
resultados obtenidos según esta técnica concuerdan con los resultados gráficos hallados
previamente. En cuanto a la variable trimestre la forma funcional elegida da lugar a una
línea recta de pendiente negativa (Figura V – gráfico B).
Figura V: Razones de odds entre estado ocupacional y edad (grafico A) y estado ocupacional
y trimestre (gráfico B)
Por consiguiente se reestima el modelo incluyendo edad y trimestre con la forma
funcional elegida en base a la técnica de polinomios fraccionarios. La estimación de dicho
modelo se presenta en la Tabla VII.
gráfico A gráfico B
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
30
Tabla VII: Estimaciones de los parámetros del Modelo Logit Mixto
Estimación Error Estándar p-asociado
Intercepto 5,5152 1,9215 0,0041
Condición de jefe de hogar
No es jefe 0,9423 0,1367 <0,0001
Es jefe 0 . .
Sexo
Mujer 0,4297 0,1304 0,0010 Hombre 0 . .
Nivel educativo
Sin Instrucción / Primaria incompleta o Educación Especial -0,6722 0,3046 0,0274 Primaria completa o Secundaria incompleta -0,08588 0,2274 0,7057
Secundaria completa o Superior universitaria incompleta 0,1946 0,2166 0,3689
Superior universitaria completa 0 . .
Rama de actividad
Construcción 1,4711 0,2409 <0,0001
Manufactura 0,2863 0,2391 0,2313
Serv. Comerciales 0,8466 0,2047 <0,0001 Intermediación Financiera 1,3169 0,2411 <0,0001
Otras actividades de servicio 1,0624 0,2093 <0,0001
Adm. Pública y Defensa, Enseñanza y Serv. Soc. y de Salud 0 . .
Nivel de Ingreso Familiar
Bajo (deciles 1º, 2º y 3º) 2,0239 0,2055 <0,0001
Medio (deciles 4º, 5º, 6º y 7º) 1,0999 0,1963 <0,0001
Alto (deciles 8º, 9º y 10º) 0 . .
Edad 0,09593 0,02027 <0,0001
Log(Edad) -3,9685 0,7302 <0,0001
Trimestre -0,04984 0,02248 0,0267
Variancia del efecto aleatorio 1,0063 0,1488 <0,0001
Este modelo no presenta diferencias con respecto al anterior en cuanto a la significación
de las variables excepto en el caso del nivel educativo sin instrucción/primaria incompleta o
educación especial el cual resulta significativo para el nuevo modelo a un nivel del 5%.
Además, la estimación de la variancia del efecto aleatorio es significativamente distinta de
cero (p<0,0001), por lo tanto la incorporación del efecto aleatorio es adecuada teniendo en
cuenta la heterogeneidad entre los individuos.
Para llevar a cabo la interpretación de los coeficientes de las covariables en el Modelo
Logit Mixto ajustado se interpretan las estimaciones de las razones de odds condicionales.
Las mismas representan la chance de estar desocupado para un individuo según sea el valor
asumido por cada covariable en particular manteniendo constante el valor de las restantes.
En la Tabla VIII se presentan las estimaciones puntuales de razones de odds y los
respectivos intervalos de confianza según el modelo considerado.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
31
Tabla VIII: Razones de odds entre estado ocupacional y cada factor socio-demográfico
Estimación
RO
IC 95%
LI LS
Condición de jefe de hogar
No es jefe vs. es jefe 2,566 1,963 3,355
Sexo
Mujer vs. Hombre 1,537 1,190 1,984
Nivel educativo
Sin Instrucción / Primaria incompleta o Educación Especial vs. Superior Universitaria completa 0,511 0,281 0,928
Primaria completa o Secundaria incompleta vs. Superior Universitaria completa 0,918 0,588 1,433
Secundaria completa o Superior universitaria incompleta vs. Superior Universitaria completa 1,215 0,794 1,858
Rama de actividad
Construcción vs. Adm. Pública y Defensa, Enseñanza y Serv. Soc. y de Salud 4,354 2,715 6,983 Manufactura vs. Adm. Pública y Defensa, Enseñanza y Serv. Soc. y de Salud 1,332 0,833 2,128
Serv. Comerciales vs. Adm. Pública y Defensa, Enseñanza y Serv. Soc. y de Salud 2,332 1,561 3,483
Intermediación Financiera vs. Adm. Pública y Defensa, Enseñanza y Serv. Soc. y de Salud 3,732 2,326 5,987
Otras actividades de servicio vs. Adm. Pública y Defensa, Enseñanza y Serv. Soc. y de Salud 2,893 1,919 4,361
Nivel de Ingreso Familiar
Bajo (deciles 1º, 2º y 3º) vs. Alto (deciles 8º, 9º y 10º) 7,568 5,057 11,325
Medio (deciles 4º, 5º, 6º y 7º) vs. Alto (deciles 8º, 9º y 10º) 3,004 2,044 4,415
Trimestre 0,951 0,910 0,994
Se puede ver en la Tabla VIII que la chance de que un individuo que no sea jefe de
hogar esté desocupado es aproximadamente entre 2 y 3 veces mayor que si el mismo
individuo fuese jefe de hogar.
Con respecto al nivel de instrucción se puede decir que para un individuo sin instrucción
o con primaria incompleta o educación especial la chance de estar desocupado es entre un
10% y un 70% menor que si el mismo individuo tuviese nivel educacional superior
universitario completo.
Si se considera a un individuo con primaria completa o secundaria incompleta, la chance
de estar desocupado resulta similar a la que presentaría si éste tuviese nivel educacional
superior universitario completo. Lo mismo sucede con la chance de estar desocupado para
un individuo con nivel secundario completo o superior universitario incompleto versus
superior universitario completo.
En cuanto al nivel de ingreso familiar, se puede decir que la chance de estar desocupado
para una persona con nivel de ingreso familiar bajo es entre 5 y 11 veces mayor,
aproximadamente, que si esta persona tuviese un nivel de ingreso familiar alto. A su vez, la
chance de desocupación para un individuo con un nivel de ingreso familiar medio es entre 2
y 4 veces y media mayor que si tuviese un nivel de ingreso familiar alto.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
32
Respecto de la rama de actividad se puede destacar que la chance de desocupación para
un individuo que se dedica a la construcción es entre 3 y 7 veces mayor que la chance que
tendría si se dedicara a la administración pública y defensa, enseñanza y servicios sociales y
de salud.
En relación al trimestre, la chance de estar desocupado para un individuo en particular es
como máximo un 9% menor en un trimestre dado respecto de la chance de estar
desocupado si hubiese sido entrevistado en el trimestre inmediatamente anterior, lo que da
una idea acerca de la importancia de la disminución de la desocupación a través del tiempo
en el período bajo estudio.
Resulta interesante describir el efecto de la edad sobre la probabilidad de desocupación.
Para esto se elige a manera de ejemplo el perfil poblacional de los individuos de sexo
masculino, jefes de hogar, con nivel educativo secundario completo o universitario
incompleto cuya rama de actividad económica son los servicios comerciales y que poseen un
nivel de ingreso familiar medio, entrevistados en el cuarto trimestre del año 2006. En la
Figura VIII se presenta la probabilidad estimada de estar desocupado versus la edad para
individuos con el perfil anteriormente definido.
Figura VIII: Probabilidades estimadas desocupación según la edad para varones, jefes de
hogar, con secundario completo o universitario incompleto con rama de actividad económica
en los servicios comerciales, con nivel de ingreso familiar medio y entrevistados en el 4to
trimestre del año 2006
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
33
Se observa que la probabilidad estimada de estar desocupado alrededor de los 20 años
es aproximadamente de 0,06, luego desciende levemente para mantenerse en ese nivel
hasta poco antes de los 50 años, edad a partir de la cual comienza a ascender.
Por otro lado también resulta interesante comparar perfiles de individuos y de esta
manera poder observar cómo varían las probabilidades estimadas de estar desocupado para
individuos que difieren en alguna característica. Por ejemplo, puede interesar la diferencia en
las curvas de probabilidades estimadas en función de la edad para hombres jefes de hogar,
con secundario completo o universitario incompleto, con nivel de ingreso familiar medio,
entrevistados en el 4to trimestre del año 2006 que difieran en la rama de actividad
económica. Estos perfiles se encuentran representados en el siguiente gráfico:
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
34
Figura IX: Probabilidades estimadas de estar desocupado a través de la edad para dos
perfiles que difieren rama de actividad económica.
__ Hombre, jefe de hogar, con secundario completo o universitario incompleto cuya rama de
actividad son los servicios comerciales, ingreso familiar medio entrevistados en el cuarto trimestre del año 2006.
- - - Hombre, jefe de hogar, con secundario completo o universitario incompleto cuya rama de
actividad es la administración pública y defensa, enseñanza y servicios sociales y de salud, ingreso familiar medio entrevistados en el cuarto trimestre del año 2006.
Como se visualiza en la Figura IX, las probabilidades estimadas de desocupación son
menores para los hombres jefe de hogar con secundario completo o universitario incompleto
que pertenecen a la rama de actividad administración pública y defensa, enseñanza y
servicios sociales y de salud, ingreso familiar medio entrevistados en el cuarto trimestre del
2006, comparadas con las respectivas probabilidades para aquellos con las mismas
características pero que pertenecen a la rama de actividad servicios comerciales.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
35
IV-B-1 Consideraciones acerca del supuesto distribucional de los efectos aleatorios
El ajuste del Modelo Logit con intercepto aleatorio, como ya fuera explicitado, supone
que los efectos aleatorios bi tienen distribución normal con media 0 y variancia 2
b . Con el fin
de explorar el cumplimiento de dicho supuesto se calculan algunas medidas descriptivas y se
construyen gráficos para las estimaciones de los efectos aleatorios asociados a cada
individuo.
Las diferencias entre las medidas de tendencia central calculadas, media y mediana,
sugieren falta de simetría en la distribución de las estimaciones de los efectos aleatorios
(Tabla IX). La misma se corrobora al realizar el histograma y el gráfico de normalidad que se
presentan en las Figuras IX y X respectivamente. Si bien Alonso et al. (2008) afirman que las
estimaciones de los efectos aleatorios pueden no seguir una distribución normal incluso
cuando la distribución correcta de los efectos aleatorios sea efectivamente normal, preocupa
la notable falta de normalidad observada.
Tabla IX: Medidas descriptivas para las estimaciones bayesianas de los efectos aleatorios
Media Desvío
Estándar Mínimo Máximo Rango Quartil 1 Mediana Quartil 3
-1,55376E-16 0,32 -0,87 1,93 2,8 -0,15 -0,06 -0,02
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
36
Figura IX: Histograma para las estimaciones de los efectos aleatorios
Figura X: Gráfico de normalidad para las estimaciones de los efectos aleatorios
Es por ello que se realizó una exploración de los dos grupos de individuos bien
diferenciados que se observan en el histograma (Figura IX) respecto a las variables
consideradas en el estudio. Sólo se encontraron diferencias en relación a la propia variable
respuesta “estado ocupacional” difiriendo notablemente el porcentaje de desocupados por
grupo de individuos, tal como se observa en la Tabla X que se presenta a continuación.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
37
Tabla X: Estado Ocupacional según si el efecto aleatorio es menor o mayor que 0
También es sabido que, si bien los estimadores máximos verosímiles del modelo pueden
ser sesgados debido a la postulación de una distribución de los efectos aleatorios incorrecta,
la magnitud del sesgo es generalmente pequeña (Alonso et al., 2008). En base a esta última
aseveración se decide entonces confiar en los resultados hallados en base al ajuste del
modelo.
En este sentido, Alonso et al. han demostrado mediante estudios por simulación, en los
cuales se consideraron diferentes distribuciones para el intercepto aleatorio, que las
estimaciones de los parámetros de interés y los procedimientos inferenciales fueron similares
independientemente de la distribución utilizada. Estas afirmaciones también tranquilizan
acerca del ajuste logrado.
Cabe destacar que una estrategia recomendada cuando hay dudas acerca de la
verdadera distribución de los efectos aleatorios, es utilizar también un enfoque no
paramétrico o uno semi-paramétrico para estimar los efectos aleatorios ya que el mismo
constituye una herramienta muy flexible para capturar la estructura de asociación intra-
sujeto. Si los resultados a partir de ambos enfoques difieren sustancialmente se puede
cuestionar efectivamente el supuesto de normalidad y sería recomendable utilizar los
resultados obtenidos bajo el enfoque semi-paramétrico (Agresti et al., 2004; Litiere et al.,
2008). Esta alternativa, si bien excede los límites fijados para esta tesina, podría enriquecer
la evaluación del supuesto distribucional de los efectos aleatorios.
bi menor que 0 bi mayor que 0
Estado % ocupado 34,59 99,17
% desocupado 65,41 0,83
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
38
V-Consideraciones finales
La aplicación del Modelo Logit Mixto es muy útil en el caso de contar con datos binarios
longitudinales ya que permite tener en cuenta la correlación entre las mediciones realizadas
a un mismo individuo. En el caso de los datos sobre desocupación analizados en este
trabajo, este modelo resulta apropiado para estudiar el efecto de determinadas covariables
demográficas y socio-económicas sobre la probabilidad de que un individuo esté desocupado
como así también para controlar la heterogeneidad intra-individuo respecto al estado
ocupacional a través del tiempo.
En particular, los resultados obtenidos para el aglomerado Gran Rosario correspondiente
al período 2005-2006 indican que la chance de estar desocupado es menor para un individuo
jefe de hogar respecto si este no fuese jefe de hogar. Otro hallazgo llamativo es que para
un individuo sin instrucción o con primaria incompleta o educación especial, la chance de
estar desocupado es mucho menor que si tuviese nivel educacional superior universitario
completo. En el caso de un individuo con primaria completa o secundaria incompleta, la
chance de estar desocupado resulta similar a la que presentaría si tuviese nivel educacional
superior universitario completo. Lo mismo sucede con un individuo con secundaria completa
o superior universitaria incompleta. Con respecto al nivel de ingreso familiar, según la
modelización, se puede decir que la chance de desocupación aumenta cuanto menor es el
nivel de ingreso familiar. Respecto de la rama de actividad se puede destacar que la chance
de desempleo para un individuo que se dedica a la construcción es mayor comparada con la
que tendría si se dedicara a la Administración Pública y Defensa, Enseñanza y Servicios
Sociales y de Salud. Por último, se pudo confirmar una disminución de la chance de
desocupación a través del tiempo.
En conclusión, se puede decir que el modelo aplicado resulta útil para estudiar la
desocupación utilizando datos de tipo longitudinal provenientes de la EPH. Sería
enriquecedor contar con la opinión de expertos en el tema, que puedan aportar su punto de
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
39
vista respecto de las categorizaciones elegidas para las variables y las asociaciones
encontradas.
Por último, cabe destacar que resultaría conveniente estudiar y explorar
metodológicamente de manera más amplia el supuesto de normalidad de efectos aleatorios.
En este sentido se han presentado recientemente algunos test que permiten evaluar la
validez de este supuesto (Alonso et al., 2008), por lo que queda evidenciado que se trata de
un área de investigación actual.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
40
VI-Anexo
VI-A Análisis descriptivo de la muestra total de individuos y la submuestra
correspondiente a los individuos utilizados para ajustar el modelo.
Tabla XI: Tabla de frecuencias de la variable sexo.
Tabla XII: Tabla de frecuencias de la variable nivel educativo. Nivel Educativo Frecuencia Porcentaje
Submuestra de individuos que no
presentan valores faltantes
Sin instrucción/ Primaria incompleta/ Educación especial 408 7,24
Primaria completa o Secundaria incompleta 2366 42,01
Secundaria completa o Superior universitaria incompleta 2042 36,26
Superior universitaria completa 816 14,49
Total 5632 100
Muestra total de individuos
Sin instrucción/ Primaria incompleta/ Educación especial 589 6,73
Primaria completa o Secundaria incompleta 3390 38,75
Secundaria completa o Superior universitaria incompleta 3257 37,23
Superior universitaria completa 1513 17,29
Total 8749 100
Tabla XIII: Tabla de frecuencias de la variable condición de jefe de hogar. Condición de Jefe de
Hogar
Frecuencia Porcentaje
Submuestra de individuos que no presentan valores faltantes
Es jefe 2848 50,57
No es jefe 2784 49,43
Total 5632 100
Muestra total de individuos
Es jefe 4083 46,67
No es jefe 4666 53,33
Total 8749 100
Tabla XIV: Tabla de frecuencias de la variable rama de actividad económica. Rama de Actividad Frecuencia Porcentaje
Submuestra de individuos que no
presentan valores faltantes
Construcción 592 10,51
Manufactura 956 16,92
Serv. Comerciales 1689 29,99
Intermediación financiera 498 8,84
Adm. Pública y defensa, enseñanza y serv. Soc. y de salud 824 14,63
Otras actividades de servicio 1076 19,11
Total 5632 100
Muestra total de individuos
Construcción 820 9,83
Manufactura 1438 17,24
Serv. Comerciales 2588 31,02
Intermediación financiera 807 9,67
Adm. Pública y defensa, enseñanza y serv. Soc. y de salud 1133 13,58
Otras actividades de servicio 1557 18,66
Total 8343 100
Sexo Frecuencia Porcentaje
Submuestra de individuos que no presentan valores faltantes
Hombre 3245 57,62
Mujer 2387 42,38
Total 5632 100
Muestra total de individuos
Hombre 5040 57,61
Mujer 3709 42,39
Total 8749 100
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
41
Tabla XV: Tabla de frecuencias de la variable nivel de ingreso familiar. Nivel de Ingreso Familiar Frecuencia Porcentaje
Submuestra de individuos que no presentan valores
faltantes
Bajo (deciles 1º, 2º y 3º) 1878 33,29
Medio (deciles 4º, 5º, 6º y 7º) 2401 42,63
Alto (deciles 8º, 9º y 10º) 1356 24,08
Total 5632 100
Muestra total de individuos
Bajo (deciles 1º, 2º y 3º) 2008 33,96
Medio (deciles 4º, 5º, 6º y 7º) 2499 42,27
Alto (deciles 8º, 9º y 10º) 1405 23,77
Total 5912 100
Tabla XVI: Tabla de frecuencias de la variable trimestre.
Tabla XVII: Tabla de frecuencias de la variable sexo para los distintos trimestres del período 2005-2006
Año Trimestre Frecuencia Porcentaje
Submuestra de individuos que no presentan valores faltantes
2005
1er 720 12,78
2do 665 11,81
3er 757 13,44
4to 729 12,94
2006
1er 679 12,06
2do 688 12,22
3er 688 12,22
4to 706 12,54
Total 5632 100,00
Muestra total de individuos
2005
1er 1028 11,75
2do 966 11,04
3er 1118 12,78
4to 1061 12,13
2006
1er 1109 12,68
2do 1167 13,34
3er 1186 13,56
4to 1114 12,73
Total 8749 100,00
Sexo
Año
2005 2006
1er
trimestre
2do
trimestre
3er
trimestre
4to
trimestre
1er
trimestre
2do
trimestre
3er
trimestre
4to
trimestre
Submuestra
de
individuos que no
presentan
valores
faltantes
Hombre 437
(60,69 %)
387
(58,20 %)
423
(55,88 %)
402
(55,14 %)
399
(58,76 %)
381
(55,38 %)
397
(57,70 %)
419
(59,35 %)
Mujer 283
(39,31 %)
278
(41,80 %)
334
(44,12 %)
327
(44,83 %)
280
(41,24 %)
307
(44,62 %)
291
(42,30 %)
287
(40,65 %)
Total 720
(100%)
665
(100 %)
757
(100 %)
729
(100 %)
679
(100 %)
688
(100 %)
688
(100 %)
706
(100 %)
Muestra
total de
individuos
Hombre 614
(59,73 %)
561
(58,07 %)
628
(56,17 %)
585
(55,14 %)
654
(58,97 %)
663
(56,81 %)
678
(57,17 %)
657
(58,98 %)
Mujer 414
(40,27 %)
405
(41,93 %)
490
(43,83 %)
476
(44,86 %)
455
(41,03 %)
504
(43,19 %)
508
(42,83 %)
457
(41,02 %)
Total 1028
(100 %) 966
(100 %) 1118
(100 %) 1061
(100 %) 1109
(100 %) 1167
(100 %) 1186
(100 %) 1114
(100 %)
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
42
Tabla XVIII: Tabla de frecuencias de la variable nivel educativo para los distintos trimestres del período 2005-2006
Nivel
Educativo
Año
2005 2006
1er trimestre
2do trimestre
3er trimestre
4to trimestre
1er trimestre
2do trimestre
3er trimestre
4to trimestre
Submuestra
de
individuos
que no
presentan valores
faltantes
Sin instrucción/
Primaria
incompleta/
Educación
especial
53
(7,36%)
51
(7,67%)
45
(5,94%)
57
(7,82%)
43
(6,33%)
45
(6,54%)
53
(7,70%)
61
(8,64%)
Primaria completa o
Secundaria
incompleta
315
(43,75%)
290
(43,61%)
311
(41,08%)
308
(42,25%)
284
(41,83%)
283
(41,13%)
277
(40,26%)
298
(42,21%)
Secundaria
completa o
Superior
universitaria incompleta
254
(35,28%)
229
(34,44%)
272
(35,93%)
251
(34,43%)
262
(38,59%)
260
(37,79%)
264
(38,37%)
250
(35,41%)
Superior
universitaria
completa
98
(13,61%)
95
(14,29%)
129
(17,04%)
113
(15,50%)
90
(13,25%)
100
(14,53%)
94
(13,66%)
97
(13,74%)
Total 720
(100%)
665
(100%)
757
(100%)
729
(100%)
679
(100%)
688
(100%)
688
(100%)
706
(100%)
Muestra
total de
individuos
Sin
instrucción/ Primaria
incompleta/
Educación
especial
71
(6,91%)
75
(7,76%)
72
(6,44%)
75
(7,07%)
63
(5,68%)
68
(5,83%)
78
(6,58%)
87
(7,81%)
Primaria
completa o
Secundaria incompleta
430
(41,83%)
379
(39,23%)
422
(37,75%)
406
(38,27%)
447
(40,31%)
437
(37,45%)
452
(38,11%)
417
(37,43%)
Secundaria
completa o
Superior
universitaria
incompleta
370 (35,99%)
345 (35,71%)
403 (36,05%)
376 (35,44%)
438 (39,50%)
453 (38,82%)
455 (38,36%)
417 (37,43%)
Superior
universitaria completa
157
(15,27%)
167
(17,29%)
221
(19,77%)
204
(19,23%)
161
(14,52%)
209
(17,91%)
201
(16,95%)
193
(17,32%)
Total 1028
(100%)
966
(100%)
1118
(100%)
1061
(100%)
1109
(100%)
1167
(100%)
1186
(100%)
1114
(100%)
Tabla XIX: Tabla de frecuencias de la variable condición de jefe de hogar para los distintos trimestres del período 2005-2006
Condición
de Jefe
de Hogar
Año
2005 2006
1er
trimestre
2do
trimestre
3er
trimestre
4to
trimestre
1er
trimestre
2do
trimestre
3er
trimestre
4to
trimestre
Submuestra
de individuos
que no
presentan
valores
faltantes
Es jefe 368
(51,11%)
326
(49,02%)
383
(50,59%)
363
(49,49%)
337
(49,63%)
355
(51,60%)
350
(50,87%)
366
(51,84%)
No es jefe 352
(48,89%) 339
(50,98%) 374
(49,41%) 366
(50,21%) 342
(50,37%) 333
(48,40%) 338
(49,13%) 340
(48,16%)
Total 720
(100%)
665
(100%)
757
(100%)
729
(100%)
679
(100%)
688
(100%)
688
(100%)
706
(100%)
Muestra
total de
individuos
Es jefe 484
(47,08%)
449
(46,48%)
528
(47,23%)
502
(47,31%)
509
(45,90%)
551
(47,22%)
542
(45,70%)
518
(46,50%)
No es jefe 544
(52,92%) 517
(53,52%) 590
(52,77%) 559
(52,69%) 600
(54,10 %) 616
(52,78%) 644
(54,30%) 596
(53,50%)
Total 1028
(100%)
966
(100%)
1118
(100%)
1061
(100%)
1109
(100%)
1167
(100%)
1186
(100%)
1114
(100%)
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
43
Tabla XVIII: Tabla de frecuencias de la variable rama de actividad para los distintos trimestres del período 2005-2006
Rama de
Actividad
Año
2005 2006
1er trimestre
2do trimestre
3er trimestre
4to trimestre
1er trimestre
2do trimestre
3er trimestre
4to trimestre
Submuestra de
individuos
que no
presentan
valores
faltantes
Construcción 75
(10,42%) 77
(11,58%) 69
(9,11%) 70
(9,60%) 87
(12,81%) 62
(9,01%) 70
(10,17%) 82
(11,61%)
Manufactura 128
(17,78%)
114
(17,14%)
144
(19,02%)
130
(17,83%)
106
(15,61%)
105
(15,26%)
101
(14,68%)
125
(17,71%)
Serv.
Comerciales
212
(29,44%)
180
(27,07%)
228
(30,12%)
219
(30,04%)
195
(28,72%)
208
(30,23%)
210
(30,52%)
237
(33,57%)
Intermediación
financiera
57
(7,92%)
60
(9,02%)
64
(8,45%)
57
(7,82%)
68
(10,01%)
65
(9,45%)
70
(10,17%)
57
(8,07%)
Adm. Pública y
defensa, enseñanza y
serv. Soc. y de
salud
102
(14,17%)
102
(15,34%)
95
(12,55%)
110
(15,09%)
109
(16,05%)
104
(15,12%)
110
(15,99%)
92
(13,03%)
Otras
actividades de
servicio
146
(20,28%)
132
(19,85%)
157
(20,74%)
143
(19,62%)
114
(16,79%)
144
(20,93%)
127
(18,46%)
113
(16,01%)
Total 720
(100%)
665
(100%)
757
(100%)
729
(100%)
679
(100%)
688
(100%)
688
(100%)
706
(100%)
Muestra
total de
individuos
Construcción 98
(10,17%) 95
(10,27%) 97
(9,10%) 90
(8,88%) 113
(10,82%) 102
(9,16%) 109
(9,57%) 116
(10,77%)
Manufactura 168
(17,43%)
160
(17,30%)
197
(18,48%)
191
(18,84%)
162
(15,52%)
167
(14,99%)
197
(17,30%)
196
(18,20%)
Serv.
Comerciales
282
(29,25%)
276
(29,84%)
317
(29,74%)
296
(29,19%)
326
(31,23%)
352
(31,60%)
364
(31,96%)
375
(34,82%)
Intermediación
financiera
92
(9,54%)
85
(9,19%)
106
(9,94%)
92
(9,07%)
109
(10,44%)
121
(10,86%)
113
(9,92%)
89
(8,26%)
Adm. Pública y
defensa, enseñanza y
serv. Soc. y de
salud
135
(14,00%)
129
(13,95%)
137
(12,85%)
150
(14,79%)
148
(14,18%)
144
(12,93%)
157
(13,78%)
133
(12,35%)
Otras
actividades de
servicio
189
(19,61%)
180
(19,46%)
212
(19,89%)
195
(19,23%)
186
(17,82%)
228
(20,47%)
199
(17,47%)
168
(15,60%)
Total 964
(100%)
925
(100%)
1066
(100%)
1014
(100%)
1044
(100%)
1114
(100%)
1139
(100%)
1077
(100%)
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
44
Tabla XX: Tabla de frecuencias de la variable nivel de ingreso familiar para los distintos trimestres del período 2005-2006
Nivel de
ingreso
familiar
Año
2005 2006
1er trimestre
2do trimestre
3er trimestre
4to trimestre
1er trimestre
2do trimestre
3er trimestre
4to trimestre
Submuestra de
individuos
que no
presentan
valores
faltantes
Bajo (deciles 1º, 2º y 3º)
255 (35,42%)
225 (33,83%)
254 (33,55%)
244 (33,47%)
254 (37,41%)
196 (28,49%)
217 (31,54%)
230 (35,58%)
Medio
(deciles 4º,
5º, 6º y 7º)
311
(43,19%)
281
(42,26%)
315
(41,61%)
321
(44,03%)
275
(40,50%)
314
(45,64%)
285
(41,42%)
299
(2,35%)
Alto (deciles
8º, 9º y 10º)
154
(21,39%)
159
(23,91%)
188
(24,83%)
164
(22,50%)
150
(22,09%)
178
(25,87%)
186
(27,03%)
177
(25,07%)
Total 720
(100%)
665
(100%)
757
(100%)
729
(100%)
679
(100%)
688
(100%)
688
(100%)
706
(100%)
Muestra
total de
individuos
Bajo (deciles 1º, 2º y 3º)
278 (36,63%)
235 (33,76%)
270 (33,92%)
260 (33,94%)
276 (38,07%)
214 (29,56%)
232 (32,40%)
243 (33,29%)
Medio
(deciles 4º,
5º, 6º y 7º)
322
(42,42%)
296
(42,53%)
331
(41,58%)
337
(43,99%)
290
(40,00%)
325
(44,89%)
292
(40,78%)
306
(41,92%)
Alto (deciles
8º, 9º y 10º)
159
(20,95%)
165
(23,71%)
195
(24,50%)
169
(22,06%)
159
(21,93%)
185
(25,55%)
192
(26,82%)
181
(41,92%)
Total 759
(100%)
696
(100%)
769
(100%)
766
(100%)
725
(100%)
724
(100%)
716
(100%)
730
(100%)
Tabla XXI: Medidas descriptivas para la edad considerando los distintos trimestres del período 2005-2006
Año Trimestre Media Desvío
Estándar Mediana
Submuestra de individuos que no presentan
valores faltantes
2005
1er 38,48 13,33 37,00
2do 38,29 14,22 37,00
3er 38,60 14,06 37,00
4to 39,42 14,15 38,00
2006
1er 37,66 14,03 36,00
2do 38,08 13,77 37,00
3er 38,46 13,93 37,00
4to 38,55 14,01 37,00
Medidas descriptivas generales 38,45 13,94 37,00
Muestra total de individuos
2005
1er 38,29 13,65 37,00
2do 39,01 14,72 37,00
3er 38,76 14,15 37,00
4to 39,25 14,05 38,00
2006
1er 37,99 14,29 36,00
2do 38,43 14,30 37,00
3er 38,37 14,31 36,00
4to 38,92 14,52 37,00
Medidas descriptivas generales 38,62 14,25 37,00
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
45
VI-B Métodos para la determinación de la escala para las variables continuas
Con el fin de determinar la escala con la cual las variables continuas ingresan al modelo
se recurre a dos métodos, Variables de Diseño y Polinomios Fraccionarios (Hosmer y
Lemeshow, 2000).
- Variables de Diseño.
Consiste en obtener los cuartiles correspondientes de la distribución de la variable
continua. Luego se crea una variable categórica con cuatro niveles en base a los cuartiles
calculados anteriormente. Pueden utilizarse otras estrategias de categorización pero ésta
generalmente funciona de manera adecuada en la práctica.
Se ajusta un modelo reemplazando la variable continua por la variable categorizada de
forma tal que se utilizan tres variables de diseño con el cuartil menor como grupo de
referencia. Se grafican los coeficientes estimados versus los puntos medios de cada grupo.
Para esto en el punto medio del primer cuartil se grafica el coeficiente igual a 0. Se conectan
mediante líneas los 4 puntos graficados. Se inspecciona visualmente el gráfico obtenido y en
base a éste se trata de buscar la forma paramétrica más adecuada para la escala de la
variable continua.
- Polinomios Fraccionarios.
Es una técnica desarrollada por Royston y Altman (1994) para sugerir transformaciones.
Se desea estimar qué valor de xp provee el mejor ajuste para la covariable. Este método
consiste en reemplazar la estimación máximo verosímil de la potencia buscándola a través de
un pequeño pero razonable conjunto de posibles valores para la misma.
La técnica de Polinomios Fraccionarios puede ser usada con un Modelo Logit Mixto
multivariado, pero por simplicidad se describirá el procedimiento con una sola covariable
continua y sin efecto aleatorio.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
46
El Modelo Logit lineal en la covariable es:
3
0 1g(x, ) x ,
donde β es el vector de coeficientes del modelo y x el vector de covariables. Una forma de
generalizar el modelo anterior es especificarlo de la siguiente manera:
0 1
1
J
ij
g(x, ) F(x)
donde Fj(x) es un tipo particular de función de potencia, y el valor de la primer función es
F1(x)= 1px .
Royston y Altman (1994) proponen restringir p1 entre los valores del siguiente conjunto:
2 1 0 5 0 0 5 1 2 3, , . , , . , , ,
Donde p1=0 corresponde al logaritmo de la variable. El resto de las funciones se definen de
la siguiente forma:
1
1
p
j j
j
j j j
x , p pF (x)
F (x) ln(x), p p
para j=2,...,J y valores de potencias restringidos a los del conjunto P.
Al implementar el método, para J=1 se ajustan 8 modelos, es decir p1 P. El mejor de
ellos es el que posee el mayor valor de log verosimilitud. El proceso se repite con J=2
ajustando 36 modelos obtenidos con los pares de potencias, es decir (p1, p2) PxP y el
mejor de los modelos es nuevamente el que tiene la mayor log verosimilitud.
Por ejemplo, para J=1 y p1=3 el modelo correspondiente es:
3
0 1g(x, ) x
Para J=2, p1=2 y p2=0,5 el modelo queda de la siguiente manera:
2
0 1 2g(x, ) x x
Para la elección del modelo significativamente mejor se procede de la siguiente forma:
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
47
Sea L(1) la log verosimilitud para el modelo lineal, es decir para J=1 y p1=1; L(p1), la log
verosimilitud para el mejor modelo con J=1 y L(p1, p2), la log verosimilitud para el mejor
modelo con J=2.
Luego el test de razón de verosimilitud comparando el modelo lineal con el mejor modelo
para J=1 es G(1, p1)=-2{L(1)-L(p1)}, que se distribuye como una 2
1 bajo la hipótesis nula
de linealidad de x.
El test de razón de verosimilitud comparando el mejor modelo para J=1 con el mejor
para J=2 es G[p1,(p1, p2)]=-2{L(p1)-L(p1,p2)}, el cual se distribuye como una 2
2 bajo la
hipótesis nula de que la segunda función es igual a 0.
Similarmente, el test de razón de verosimilitud comparando el modelo lineal con el mejor
modelo J=2 es G[1,(p1,p2)]=-2{L(1)-L(p1, p2)} se distribuye aproximadamente como una 2
3
bajo la hipótesis nula.
Cabe destacar que p1 denota la mejor potencia tanto para J=1 como para la primer
potencia de J=2 pero que probablemente no tomen el mismo valor.
El procedimiento a seguir en el caso de cada covariable a las que se les estudia la escala
es el que se describe a continuación:
Se realiza el test con 3 grados de libertad para el mejor modelo para J=2 versus el lineal
utilizando G[1,(p1,p2)]; si no resulta significativo a un nivel de significación entonces la
covariable es lineal en el logit.
En cambio, si es significativo, se prueba mediante un test de 2 grados de libertad el
mejor modelo para J=2 versus el mejor modelo para J=1 usando G[p1, (p1, p2)]. Si es
significativo a un nivel de significación entonces se elige el mejor modelo para J=2, caso
contrario se elige el mejor modelo para J=1.
Finalmente se explora cada covariable y el proceso se itera usando los resultados del
primer ciclo. El propósito de la iteración es ver cuándo la transformación aplicada a una
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
48
covariable cambia la transformación aplicada a una o más de las otras covariables. El
proceso se repite hasta que no se presenten cambios entre transformaciones.
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
49
Bibliografía
ALONSO A, LETIERE S, MOLENBERGHS G. 2008. A family of tests to detect
misspecifications in the random-effects structure of generalized linear mixed models.
Computational Statistics and Data Analysis, 52, 4474-4486.
AGRESTI A. 2002. Categorical Data Analysis. John Wiley & Sons.
AGRESTI A, CAFFO B, OHMAN-STRICKLAND P. 2004. Examples in which
misspecification of random effects distribution reduces efficiency, and possible
remedies. Computational Statistics and Data Analysis, 47, 639-653.
FITZMAURICE G, LAIRD N, WARE J. 2004. Applied Longitudinal Analysis. John Wiley
& Sons.
HACHUEL L, BOGGIO G, BORRA V. 2006. Uso de Modelos Logit Mixtos para el estudio
del bajo peso al nacer en Rosario. Undécimas Jornadas “Investigaciones en la
Facultad” de Ciencias Económicas.
http://www.fcecon.unr.edu.ar/investigacion/jornadas/archivos/hachuelyotros.PDF
(15/04/2009)
HOSMER D, LEMESHOW S. 2000. Applied Logistic Regression. Second Edition. John
Wiley & Sons.
Instituto Nacional de Estadística y Censos. 2003. La nueva encuesta permanente de
hogares de Argentina.
http://www.indec.gov.ar/nuevaweb/cuadros/4/Gacetilla_EPHContinua.pdf
(04/04/2008)
Instituto Nacional de Estadística y Censos. 2003. Encuesta Permanente de Hogares
(EPH). Cambios Metodológicos.
http://www.indec.gov.ar/nuevaweb/cuadros/4/Gacetilla_EPHContinua.pdf
(04/04/2008)
Instituto Nacional de Estadística y Censos. 1997. ¿Cómo se mide el desempleo?
Uso del Modelo Logit Mixto para el Estudio de la Desocupación en Rosario
50
http://www.indec.gov.ar/nuevaweb/cuadros/4/metempleo1.pdf (04/04/2008)
LETIERE S, ALONSO A, MOLENBERGHS G. 2008. The impact of a misspecified
random-effects distribution on the estimation and the performance of the inferential
procedures in generalized linear mixed models. Statistics in Medicine, 27, 3125-3144.
MOLENBERGHS G, VERBEKE G. 2005. Models for Discrete Longitudinal Data.
Springer.
ROYSTON P, ALTMAN D, 1994. Regression using fractional polynomials of continuous
covariates: Parsimonious parametric modelling (with discussion). Applied Statistics,
43, 429-467.
SAS INSTITUTE INC. 2006. The GLIMMIX Procedure.
http://support.sas.com/rnd/app/papers/glimmix.pdf (25/04/2008)