GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A...

66
GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES DIRECCION TECNICA DE DEMOGRAFIA E INDICADORES SOCIALES Lima, Enero 2002

Transcript of GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A...

Page 1: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 1

Dirección Técnica de Demografía e Indicadores Sociales

GUIA PARA LAAPLICACIÓNDEL ANALISISMULTIVARIADO ALAS ENCUESTASDE HOGARES

DIRECCION TECNICA DE DEMOGRAFIA EINDICADORES SOCIALES

Lima, Enero 2002

Page 2: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

2 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

Preparado : Dirección Técnica de Demografía e Indicadores Sociales delInstituto Nacional de Estadística e Informática (INEI)

Impreso : Talleres de la Oficina Técnica de Administración del INEIDiagramación : Centro de Edición de la Oficina Técnica de Difusión del INEITiraje : 500 EjemplaresDomicilio : A v. General Garzón 658, Jesús María. Lima - PerúOrden de Impresión : N º 1 7 0 - O T A - I N E IDepósito Legal Nº : 150113-2002-0155

DIRECCIÓN Y SUPERVISION

Rosario Aquije ValdezDirectora Técnica de Demografía e Indicadores Sociales

RESPONSABLES DEL ESTUDIO

Econ. Rofilia Ramírez RamírezIng. Estad. Herman Edgar Castillo Ramón

SOPORTE INFORMATICO

Sr. Walter Ayala Godiño

Page 3: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3

Dirección Técnica de Demografía e Indicadores Sociales

P R E S E N T A C I O N

El Instituto Nacional de Estadística e Informática (INEI), en el marco de supolítica de difusión de las técnicas multivariadas de uso más frecuente,pone a disposición de las autoridades, investigadores y usuarios en generalel documento "GUIA PARA LA APLICACIÓN DEL ANALISISMULTIVARIADO A LAS ENCUESTAS DE HOGARES".

Los temas que se analizan en el presente documento, aplicando las técnicasmultivariadas son el desempleo, la fecundidad y el desarrollo humano.La fuente de información que se ha utilizado para este análisis provienede la Encuesta Nacional de Hogares (ENAHO 2000) y la EncuestaDemográfica y de Salud Familiar (ENDES 2000).

Las técnicas multivariadas permiten el estudio interrelacionado de lasvariables sociales y demográficas, a partir de modelos matemáticos conlos que se representan las múltiples dimensiones de la realidad, facilitandoal investigador un mayor acercamiento a los fenómenos sociales. Parauna mejor comprensión y utilidad de estas técnicas se utilizan dosenfoques. El primero tiene que ver con "las variables y sus interrelaciones"y el segundo enfoque está relacionado con la evaluación de "la calidadde los datos".

En el documento se han aplicado las principales técnicas del análisismultivariado: el análisis factorial, el análisis discriminante y el análisis deconglomerados . Con el análisis factorial se estudian los factoresexplicativos del desempleo. Con el análisis discriminante se estudia lafecundidad, mediante la conformación de grupos de mujeres de acuerdoa un conjunto de variables seleccionadas y con el análisis de conglomeradosse estudia del índice de desarrollo humano, a partir de la clasificación delos departamentos en función de un conjunto de variables determinadas.

Esperamos que este documento aporte los instrumentos para el análisisde los fenómenos sociales y sea de utilidad para las autoridades y usuariosen general, a quienes agradeceremos sus opiniones o sugerencias sobrelas técnicas presentadas.

Lima, Enero 2002

Gilberto Moncada Vigo Jefe del INEI

Page 4: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

4 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

Page 5: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 5

Dirección Técnica de Demografía e Indicadores Sociales

I N D I C E

P R E S E N TA C I O N .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

I. O B J E T I V O S .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

II. A N Á L I S I S M U LT I VA R I A D O .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1 Principios básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2 Principales aplicaciones a la investigación social . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.1 Análisis de la interdependencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.2 Análisis de la dependencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3 Aplicaciones al análisis de las encuestas de hogares . . . . . . . . . . . . . . . . . . . . 132.3.1 Simplificación de la estructura de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.3.2 Clasificación de variables y de unidades de análisis . . . . . . . . . . . . . . 132.3.3 Evaluación de la consistencia transversal de los datos . . . . . . . . . . 14

III. A N Á L I S I S FA C T O R I A L C O N F I R M AT O R I O .. . . . . . . . . . . . . . . . . . . 17

3.1 El análisis factorial confirmatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.2 El análisis factorial confirmatorio y su aplicación a la ENAHO . . . . . 183.3 Estudio de los factores explicativos del desempleo abierto . . . . . . . . . . 18

I V. A N A L I S I S D E C O N G L O M E R A D O S .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.1 El análisis de conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.2 El análisis de conglomerados y su relación con la ENAHO . . . . . . . . . 314.3 Clasificación de los departamentos del Perú en función de las

variables más relacionadas con el Indice de Desarrollo Humano . . . . 31

V. A N Á L I S I S D I S C R I M I N A N T E C L A S I F I C A T O R I O . . . . . . . . . . . . . 43

5.1 El análisis discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.2 El análisis discriminante y su relación con la ENDES . . . . . . . . . . . . . . . . 435.3 Estudio del número de hijos de las mujeres según variables

seleccionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

I. C O N C L U S I O N E S .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

V I I . R E C O M E N D A C I O N E S .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

R E F E R E N C I A S B I B L I O G R A F Í C A S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

A N E X O S .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

Page 6: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

6 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

Page 7: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 7

Dirección Técnica de Demografía e Indicadores Sociales

1.1 Proponer un enfoque multi-variado para el análisis de lasencuestas de hogares

Las encuestas de hogares captaninformación periódica de un conjunto devariables sociales, constituyendo la fuentede datos más importante para el análisisde los problemas sociales, el diseño yseguimiento de las políticas sociales en elpaís. El análisis multivariado a su vez, es laherramienta más apropiada para el estudiosistemático y simultáneo de dos o másvariables. Por ello, en este documento sepropone el modo más adecuado de aplicarlas técnicas multivariadas utilizando lainformación de las encuestas de hogares.De este modo los investigadoresdispondrán de los elementos necesariospara contrastar sus hipótesis planteadas.

OBJETIVOS ESPECIFICOS

1.1 Presentar nuevas herramientasanalíticas para el análisis de losproblemas sociales

En este documento se presenta unconjunto de nuevas herramientas analíticas

para la investigación de los problemassociales y el análisis de los resultadosde las encuestas de hogares. Con estose pretende ampliar el conocimientode los métodos descriptivos tradicional-mente utilizados en los estudiosdemográficos y sociales mostrando elaumento de su efectividad cuando estosmétodos son complementados por lastécnicas multivariadas para el tratamientosimultáneo de las variables.

1.2 Proporcionar nuevos criteriospara evaluar la consistencia de losdatos

El análisis multivariado no se ha enfocadosuficientemente para evaluar laconsistencia de los datos habiéndosedesarrollado la mayor parte de susaplicaciones para la formulación demodelos causales y no causales y elcontraste de hipótesis. Por ello, en elpresente documento se explican nuevoscriterios e instrumentos para verificar laconsistencia simultánea de dos o másvariables y así evaluar la base de datos delas encuestas de hogares.

I. OBJETIVOS

Page 8: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

8 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

Page 9: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 9

Dirección Técnica de Demografía e Indicadores Sociales

Las investigaciones sociales y demográficasproporcionan cuantiosa información por ladiversidad de temas enfocados en ellas asícomo por el gran número de observacionesque integran las muestras. A ello se agregael hecho que las variables investigadas seexpresan en diferentes escalas (nominal,ordinal, de razón e interválica) ¿Cómoanalizar toda esa información? ¿De quémanera se puede reducir el númerode variables y/o datos sin afectar elobjeto social en estudio?. La técnicamatemática que permite el análisissimultáneo de dos o más variables, lareducción de los datos, la descomposiciónen factores del fenómeno social, laclasificación y el ordenamiento de lasunidades investigadas, es el Análisis

II. ANÁLISIS MULTIVARIADO

Multivariado. Para un dominio de este tipode análisis se requiere del conocimientode las matemáticas avanzadas, sinembargo, en esta guía se presentan deun modo didáctico las técnicasmultivariadas aplicadas a tres casos que segeneran a partir de las encuestas dehogares.

Los tres casos prácticos presentados,analizan el problema social, desde suformulación, su representación enmodelos y la interpretación de losresultados. Se utiliza como fuente deinformación la Encuesta Nacional deHogares (ENAHO) del III trimestre del2000 y la Encuesta Demográfica y de SaludFamiliar (ENDES), 2000.

El Análisis Multivariado es una técnica matemática que permite el estudiosimultáneo de las relaciones entre más de dos variables y de las unidadesde análisis en un período de tiempo determinado.

Las estadísticas univariadas (una solavariable), son empleadas con frecuenciaen los estudios sociales. En estos casos essuficiente conocer la media y la varianzadel objeto en estudio para determinar ladistribución de la variable y de este modoinferir los resultados de la investigaciónmediante las pruebas de hipótesis y laconformación de intervalos de confianza.Estos aspectos fueron explicados conmayor detalle en el documento " GuíaMetodológica para la Evaluación deIndicadores Sociales de las Encuestas deHogares ", elaborado por la DTDIS-INEI.

El avance de la Tecnología Informática(hardware y software) hizo posible que enlas investigaciones se apliquen modelosanalíticos complejos para estudiar losfenómenos sociales, dando lugar al usofrecuente de las técnicas multivariadas.Esto facilitó el estudio simultáneo de lasvariables y una mejor aproximación alconocimiento de la realidad social.Mediante el análisis multivariado se puedenanalizar más de dos variables en formasimultánea, generándose por cada variableuna media y varianza, dando lugar a laformación de la matriz de covarianzas. La

Page 10: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

10 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

formulación de un modelo analítico,mediante el cual se hacen explícitas lasrelaciones entre más de dos variables, yel establecimiento de algunos supuestosprevios, facilitarán la interpretaciónposterior de los resultados.

Para seguir un procedimiento sistemáticoy de control de calidad de los procesos,se recomienda iniciar el análisismultivariado elaborando los mapas

conceptuales y los diagramas de procesos."Los primeros permitirán la presentaciónde los conceptos sociales de un modoestructurado y de fácil comprensión,mientras que los diagramas de procesoshacen posible identificar las actividadessecuenciales que se siguen en lainvestigación1/", haciendo posibleincorporar más adelante medidasestadísticas de calidad en cada etapa delproceso.

La técnica multivariada a utilizar se determina a partir del conocimiento dela forma en que se relacionan las variables inherentes al fenómeno socialen estudio.

2.1 Principios básicos

Para la aplicación eficiente del análisismultivariado tenga presente lo siguiente:

2.1.1 En cuanto a las variables

El análisis presenta restricciones según eltipo de variables existiendo una técnicaespecífica de acuerdo al tipo de variablesinvestigadas. Por ejemplo el análisisfactorial y de conglomerados se aplicageneralmente cuando las variables soncuantitativas (interválicas y de razón),mientras que el análisis discriminante exigeque la variable dependiente sea cualitativay las independientes cuantitativas odicotómicas.

2.1.2 En cuanto a las unidades de análisis

El análisis es de corte transversal (en undeterminado período de tiempo) ypermite el estudio simultaneo de todaslas unidades de análisis, y además se

puede identificar unidades particulares,como PEA desocupada, ocupada, mujeresen edad fértil, adultos mayores, entreotros.

2.1.3 Principales elementos que intervienen en el análisis multivariado

Los principales elementos del análisismultivariado son:

La unidad de análisis: Es la unidad deinvestigación o estudio, sobre la cual serealiza el análisis. Por ejemplo: la vivienda,el hogar, la persona o un ámbitogeográfico (departamento, provincia,distrito, localidad, etc.).

Las variables: Son las característicasobservables o conceptuales de la unidadde análisis. Estas características puedenregistrarse en diferentes tipos de escalas.Las variables cuantitativas son medidas enuna escala ordinal, interválica y de razón,por ejemplo: años de estudio, el ingreso,

1/ Guía Metodológica "Evaluación de Indicadores Sociales de las Encuestas de Hogares, 2001.

Page 11: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 11

Dirección Técnica de Demografía e Indicadores Sociales

la edad, los gastos del hogar. Las variablescualitativas son medidas en una escalanominal por ejemplo el sexo, la condiciónde alfabeto, la tenencia de la vivienda,etc.

La Matriz o Tabla de Datos: Una matrizo tabla de datos esta conformada por ladisposición en filas de las unidades de

análisis , mientras que en las columnas seubican las variables. La intersección deuna fila y una columna da lugar al dato.Por ejemplo la matriz de datos que semuestra consta de n unidades de análisisy p variables, xij representa un dato enparticular. Se tendrá tantas matrices dedatos como submuestras de población lopermita la encuesta.

variables 1, … j … p

1 .i . . n

x ij

Uni

dade

s de

aná

lisis

2.2 El análisis multivariado en laInvestigación Social yDemográfica

Los métodos multivariados aportan loselementos analíticos y operativos para quelas Investigaciones Sociales yDemográficas, se realicen en un marcocientífico de tal manera que con el granvolumen de datos proveniente de lasEncuestas de Hogares pueda estudiarsemejor la realidad social. Con laformulación de un modelo multivariadopueden evaluarse las hipótesis establecidaslas mismas que serán contrastadosempíricamente2/.

El tipo de relación entre las variablesdefine la forma funcional del modelo. Porejemplo si entre las variables no haydependencia o todas soninterdependientes, las técnicas de análisismás apropiadas son el Análisis Factorial,el Análisis de Conglomerados (Cluster),el Análisis de Correlación Canónica, elAnálisis de Componentes Principales, entreotros. En cambio, si alguna variable (s) esdependiente(s) de otra u otras entoncesse aplica: el Análisis de RegresiónMultivariado, el Análisis Discriminante yel Análisis de Contingencia Múltiple.

2/ Debe entenderse por contraste empírico al procedimiento que permite comprobar a partir de los datos recogidos las hipótesis formuladas.

Page 12: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

12 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

2.2.1 Análisis de la Interdependencia

Cuando no se puede determinar que unavariable(s) determina a la otra(s), se diceque la relación entre las variables es deinterdependencia. La condición deinterdependencia queda establecida porel conocimiento a priori y/o los supuestos

que el investigador tenga del fenómenosocial en estudio. Por ejemplo en elsiguiente diagrama causal, las variables X,Y , Z son interdependientes, así X es causade Y, a su vez Y es causa de X , así Y loes de Z y Z lo es de X. La interdependenciaentre las variables puede resumirse en elsiguiente diagrama causal3/:

Para facilitar la interpretación de los resultados se recomienda que elinvestigador formule a priori un modelo en el cual se hagan explícitas lasrelaciones entre las variables.

X

Y

Z

Ejemplo práctico: El índice de desarrolloeducativo de la niñez y la adolescenciaqueda determinado a partir de unconjunto de factores denominados comode contexto, de proceso y de resultado.Esta denominación se realizó atendiendoa las características de las variables queconformaban cada factor. Así son variablesde contexto: la proporción de niños condesnutrición crónica y el nivel educativode la madre; de proceso: la proporción dealumnos en extra edad escolar, laproporción de menores de 15-17 años queestudia y trabaja, la tasa de desaprobaciónen educación primaria de menores y deresultado: el grado de estudio aprobado alos 17 años de edad, proporción demenores de 15-17 años que no saben leer

ni escribir, proporción que no estudio nitrabaja. Entre estas variables no seestableció a priori ninguna relación dedependencia, ingresando todas ellas comoexplicativas del desarrollo educativo y portanto interdependientes.

2.2.2 Análisis de la Dependencia

La relación entre las variables es dedependencia, cuando el conocimiento apriori del objeto social en estudio o lossupuestos determinan que una variable(dependiente) es determinada por otras.Por ejemplo: en el siguiente diagramacausal la variable Y depende de X y Z.Así, Y depende de X, Z, y entre X y Zno hay relación.

3/ El diagrama causal es una representación gráfica de los diferentes tipos de relación entre las variables. Para ello se utilizan diferentes figuras geométricas y flechas que indican el sentido de la relación entre las variables.

Page 13: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 13

Dirección Técnica de Demografía e Indicadores Sociales

Ejemplo práctico: Un estudio de lacalidad y la eficiencia de los hospitalesdeterminó que las diferencias de atenciónen los diferentes hospitales son explicadaspor las variables relacionadas con losrecursos humanos que laboran en loshospitales (número, formación,compromiso con la institución), y otrosfactores como la disponibilidad detecnología y el nivel de especialización,así como por las diferentes combinacionesde estos factores. La técnica multivariadautilizada para la comprobación empírica deesta relación causal, fue el análisis deregresión múltiple.

2.3 Aplicaciones al análisis de lasencuestas de hogares

Las aplicaciones del Análisis Multivariadoestán dirigidas principalmente a lareducción de la estructura de datos y a laclasificación de las unidades de análisis olas variables en grupos. Además en estedocumento se presentan algunasaplicaciones dirigidas a evaluar laconsistencia de las bases de datos de lasEncuestas de Hogares.

2.3.1 Simplificación de la Estructura de Datos

Se busca encontrar la manera de reducirel universo de datos sin afectar alfenómeno social en estudio. Esto puedelograrse mediante la transformación

(combinación lineal o no lineal) de unconjunto de variables interdependientesen otro conjunto de menor dimensión.

Ejemplos aplicativos:

1. La matriz de datos inicial compuestapor n-filas (unidades de análisis) yp-variables se reduce a una matrizde menor dimensión mediante elanálisis de componentes principales(análisis factorial).

2. Cuando las unidades de análisis sedisponen en grupos homogéneosmediante el análisis deconglomerados, se reduce el númerode unidades a analizar, simplificándosesu interpretación.

3. Cuando las n variables originales sereducen en n-1 factores (análisisfactorial), siendo cada factor unacombinación lineal de las variables,representando estos factores unadimensión diferente del fenómenosocial observado, se logra un análisissimplificado y ordenado de losresultados.

2.3.2 Clasificación de las variables y las unidades de análisis

Se persigue encontrar el modo maseficiente de agrupar las variables o lasunidades de análisis.

X

Y

Z

Page 14: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

14 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

ejemplos aplicativos:

1. Los departamentos del Perú (unidadesde análisis) pueden ordenarsemediante el análisis factorial, a partirdel puntaje obtenido comocombinación lineal ponderada de unconjunto de variables interrela-cionadas. Además pueden disponerseen grupos homogéneos y hetero-géneos entre si, mediante el análisisde conglomerados.

2. Las variables relacionadas con eldesarrollo educativo pueden serclasificadas en dimensionesdiferentes (contexto, proceso yresultado) aplicando el análisisfactorial.

2.3.3 Evaluación de la consistencia transversal de los datos

Además de las aplicaciones mencionadas,los modelos analíticos multivariadospueden emplearse para evaluar laconsistencia transversal de los datos.

ejemplos aplicativos:

1. A partir del análisis factorial se formulaun modelo explicativo, cuyoscoeficientes calculados (magnitud ysigno) permitirán confirmar laconsistencia de los datos. Si lamagnitud de estos coeficientesexcede los rangos esperadosentonces debe revisarse la base dedatos, de igual manera si se conoceel sentido de la relación entre las

variables (signo) cualquier resultadodiferente al esperado conducirá a larevisión de los datos. Así, al formularun modelo factorial que incorpore lasvariables gastos e ingresos F (G, Y),se espera que el coeficiente que midela relación entre estas variables tengasigno positivo (relación directa), porcuanto "los gastos son directamenteproporcionales al ingreso", un signonegativo permitirá inferir lainconsistencia de la información.

2. Utilizando el análisis deconglomerados (cluster) los grupos deunidades de análisis conformados deacuerdo a un criterio de clasificaciónse espera sean semejantes a losgrupos formados con otro método,de tal manera que al correlacionar elordenamiento obtenido por el análisisde conglomerados con elordenamiento generado por otrométodo, se obtenga un coeficientede correlación significativo, (al menos0,5). Cualquier otra situacióndeterminará la necesidad de revisarla base de datos. Por ejemplo alaplicar el análisis cluster para ordenarlos departamentos del Perú deacuerdo al nivel de pobreza (criterio)se obtienen una clasificación de losdepartamentos en estratos pobres yno pobres. Esta clasificación secompara con el ordenamiento simplede los departamentos según el Indicede Necesidades Insatisfechas (NBI),esperando encontrar unordenamiento semejante (correlaciónsignificativa). De no encontrarse estarelación puede inferirse que lainformación es inconsistente.

Page 15: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 15

Dirección Técnica de Demografía e Indicadores Sociales

3. De una muestra total se seleccionanaleatoriamente dos submuestras,al aplicar el análisis discriminante acada muestra se analiza la tabla deordenamiento de las variablesesperando encontrar ciertasemejanza en ambas, lo quepermitirá inferir la consistencia dela información. Por ejemplo delmodulo de empleo de la ENAHOse seleccionan aleatoriamente dossubmuestras, se aplica a cada una

de ellas el análisis discriminantepara encontrar las variables queexpl ican la condición desubempleo. Las variables masexplicativas se espera sean lasmismas en ambas submuestras.Cualquier otro resultado conduciráa la revisión de la base de datos,en especial de aquellas variablescuya importancia relativa difiera enlas submuestras.

Page 16: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

16 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

Page 17: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 17

Dirección Técnica de Demografía e Indicadores Sociales

El análisis factorial es una técnica delAnálisis Multivariado que permite obtenera partir de un conjunto de variables ungrupo menor de nuevas variablesdenominadas factores, los mismos queestarían explicando la variación conjuntao dependencia mutua entre dichasvariables. Estos factores denominadostambién variables "latentes" se caracterizanpor no estar correlacionados entre sí.Con esta reducción se hace más sencilloel análisis de los resultados.

III. ANÁLISIS FACTORIAL CONFIRMATORIO

Los tipos más frecuentes del análisisfactorial son: el análisis factorialexploratorio y el análisis factorialconfirmatorio. El primero se utilizacuando el investigador requiere clasificarlas variables en dimensiones excluyentes(factores). Por ejemplo, mediante elanálisis factorial exploratorio podemosdisponer las variables relacionadas con elIndice de Desarrollo Educativo en sus tresdimensiones: contexto (condicionantes ymedio social), proceso (variablesexplicativas), y resultados (rendimientoeducativo).

Con el análisis factorial las variables se disponen en factores nocorrelacionados entre sí, donde cada factor representa una dimensióndiferente del fenómeno social de este modo se logra una apreciaciónintegral del objeto en estudio.

3.1 El análisis factorial confirmatorio

El análisis factorial confirmatorio se aplicacuando el investigador tiene unconocimiento a priori del fenómeno enestudio, lo cual le permite formular lashipótesis necesarias acerca de la relación

de causalidad entre las variables así comorestringir el valor de algunos parámetrosdel modelo antes de calcularlo(coeficientes del modelo). Así, el modeloa priori formulado es contrastado con losresultados muestrales obtenidos.

El análisis factorial confirmatorio permite contrastar sistemáticamente lasrelaciones formuladas a priori entre las variables de tal manera que secompruebe empíricamente los supuestos y los resultados tengan laconsistencia estadística esperada.

Page 18: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

18 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

3.2 El análisis factorial confirmatorioy su aplicación a la ENAHO

La encuesta nacional de hogares (ENAHO),es una encuesta que periódicamenteejecuta el INEI y está orientada a obtenerinformación tanto del hogar como de laspersonas que lo habitan en temasrelacionados con las características de lavivienda y del hogar, empleo e ingresos,educación, salud, programas sociales ycondiciones de vida de la población. Lasvariables que integran cada uno de lostemas, pueden ser analizadassimultáneamente y de una maneraeficiente mediante las técnicasmultivariadas.

El análisis factorial, permite desarrollarinvestigaciones sociales con variables tantocuantitativas como cualitativas. Así, sepuede estudiar el desempleo abiertoaplicando un modelo factorialconfirmatorio, con las diferentes variablesseleccionadas de la base de datos queintegran el modulo empleo de la ENAHO.

3.3 Estudio de los factores explica-tivos del desempleo abierto

En el siguiente caso práctico se estudia eldesempleo abierto utilizando la técnicafactorial confirmatoria. Como todainvestigación esta se inicia con la revisiónconceptual. Así, se considera que estánen situación de desempleo abierto, laspersonas de 14 años y más de edad quecumplen las tres condiciones siguientes:desean trabajar, están disponibles parahacerlo y se encuentran buscandoactivamente un empleo. En el país estasituación afecta aproximadamente el 10%de la población económicamente activa(PEA), siendo necesario efectuar unestudio sistemático de este problema

social. A partir de un modelo factorialconfirmatorio se identificarán las variablesmás relacionadas con el desempleo y quecontribuyen a explicar las condicionantesde esta situación.

3.3.1 Etapas para realizar el análisis factorial confirmatorio

Para realizar el análisis factorialconfirmatorio siga las siguientes etapas:

1. Formule las hipótesis: Para plantearlas hipótesis se formulan las siguientespreguntas: ¿Cuáles son los factoresexplicativos del desempleo? ¿Quévariables contribuyen más a explicarestos factores? A partir de estaspreguntas se pueden formular lashipótesis siguientes:

Primera hipótesis: El desempleoabierto está determinado por factoresrelacionados con la demanda delmercado laboral (las expectativa delempleador), la oferta de mano de obra(el perfil profesional del desempleado)y otro factor no considerado en losanteriores.

Segunda Hipótesis: El nivel educativoes la variable más determinante en lacondición de desempleo.

2. Genere un modelo multivariado: Elconocimiento a priori del fenómenosocial determina la selección de lasvariables, su número y el sentido de larelación entre ellas. Así, mediante undiagrama causal podemos representarlas relaciones entre las variables. Eneste ejemplo se han seleccionado oncevariables explicativas del problemasocial.

Page 19: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 19

Dirección Técnica de Demografía e Indicadores Sociales

Modelo factorial confirmatorio del desempleo abierto:

nj

FFFE jjjjjj

,,1

321 321

K=

+⋅+⋅+⋅+= ϕλλλµ

Diagrama causal:

X 1

X 2

F 1

X 11

X 5

X 6

X 9 F 2 E X 10

X 7

X 8 F 3

X 3

X 4

donde:E : Desempleo (variable explicada)F1 : Primer Factor. Demanda del

mercado laboral (expectativa delempleador)

F2 : Segundo Factor. Oferta de mano deobra (el perfil profesional deldesempleado)

F3 : Tercer Factor. Otro factor noconsiderado entre los anteriores

Xj : j - ésima variable explicativa

3. Variables explicativas: Generalmenteel análisis factorial se realiza convariables medidas en una escalaintervalar, porque la matriz decorrelación punto inicial del análisis se

basa en el cálculo del coeficiente dePearson. Para el presente ejemplo, seha considerado en el modelo factorialconfirmatorio algunas variablesnominales las cuales han sidoconvertidas a dicotómicas, codifi-cándose sus categorías con 0 y 1. Elvalor 1 indicará la presencia de lacualidad correspondiente a una de lasdos categorías y el 0 la ausencia de dichacualidad. Este artificio permitiráobtener el valor analítico (signo) de loscoeficientes estimados, al margen dela escala en que se han medido estasvariables. Así, se ha considerado lassiguientes variables explicativas:

Page 20: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

20 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

4. Fuente de datos: La fuente de datospara probar las hipótesis planteadas esla ENAHO 2000 III trimestre, se utilizala base de datos sin expandir, para quelos coeficientes estimados, no se veanafectados por los factores de expansión.Además la base de datos debe estarconformada por la población objetivo(unidades de análisis) , que para elpresente caso práctico es la poblaciónde 14 años y más de edad que se

encuentran en situación de desempleoabierto.

5. Inicie el Análisis Factorial Confir-matorio utilizando el programa SPSS.Abra la base de datos con las variablesseleccionadas. Luego en el menú debarras del SPSS ubique la opciónAnalyze / Data Reduction / Factor, deacuerdo al cuadro de diálogo siguiente:

No Variable Tipo Código

1 ¿Ha trabajado antes? Nominal-dicotomica EXPLABOR

2 ¿Ha aprendido un oficio a través de la experiencia? Nominal-dicotomica P592

3 ¿Cuántas semanas ha buscado trabajo? Interválica p564

4 ¿Tiene profesión? Nominal-dicotomica p584b

5 Edad Interválica EDA500

6 Sexo Nominal-dicotomica SEXO

7 ¿Total de miembros del hogar? Interválica MIEPERHO

8 Area Nominal-dicotomica AREA

9 Condición de Unión Nominal-dicotomica CONCIVIL

10 Años de estudios Interválica ANOEST

11 ¿Actualmente lleva o llevó cursos de capacitación? Nominal-dicotomica P587

La opción Data Reduction contiene lastécnicas de reducción de datos tambiénllamadas de reducción de las dimensionesdel fenómeno en estudio. Estas son el

"Factor Analysis" (Análisis Factorial), el"Correspondence Analysis" (Análisis deCorrespondencias) y el "Optimal Scaling"(Escalamiento Optimo).

Page 21: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 21

Dirección Técnica de Demografía e Indicadores Sociales

El "Factor Analysis" (Análisis Factorial), seaplica principalmente a las variablescuantitativas, mientras que las otrastécnicas son apropiadas para variablescualitativas, permitiendo encontrar lasrelaciones entre las categorías de lasvariables.

El "Correspondence Analysis" (Análisis deCorrespondencias), se utiliza para estudiarla semejanza entre variables con igualnúmero de categorías. Por ejemplo sepuede estudiar la relación entre el sexo(hombre / mujer) de la persona y sucondición de ocupación (ocupado /desocupado).

El "Optimal Scaling" (EscalamientoOptimo), permite el estudio de variablescualitativas con diferente número de

categorías. Así se puede estudiar la relaciónentre el nivel educativo de una persona(primaria, secundaria, superior) y el ámbito(urbano / rural).

Regresando al análisis factorialconfirmatorio, la opción factor habilita unaventana que facilita la selección de lasvariables explicativas, de modo que lasonce variables explicativas seleccionadasse trasladen al recuadro de "Variables".Las opciones del Data Reduction / Factor,son: "Descriptives", "Extraction", "Rotation","Scores" y "Options", que a continuaciónse explican con más detalle.

La Ventana DESCRIPTIVES: Habilita elcuadro de diálogo siguiente "FactorAnalysis: Descriptives"

La opción estadística "Statistics" -Univariate descriptives, activada facilita lageneración de las estadísticas descriptivas(media, desviación estándar, moda, entreotras) para cada una de las variablesseleccionadas. Al activar "Initial solution"el programa mostrara la solución inicial(comunalidad inicial) en la salida ("output").Las opciones activadas en "CorrelationMatrix" -Matriz de Correlación-, permiten

que se calculen los coeficientes decorrelación de Pearson, ("coefficients"), eldeterminante de la matriz (determinant)y los niveles de significación estadística delos coeficientes estimados (significancelevels). Las pruebas de esfericidad deBarlett y el test de Kaiser-Meyer-Olkin(KMO) permitirán evaluar la calidad delas estimaciones.

Page 22: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

22 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

La Ventana EXTRACTION: En esta ventana seleccione las siguientes opciones:

En Method, elija el método decomponentes principales "PrincipalComponents" por ser el punto de partidapara para estimar los factores.

En Analyze active la opción de la matrizde correlaciones, de modo que semuestren las asociaciones entre lasvariables. En caso de que no existaasociación entre las variables, la matrizde correlación será igual a la matrizidentidad. La siguiente opción Covariancematriz (matriz de covarianzas) es opcional.

En Extract active cualquiera de lasopciones que se muestran, pues ambaspermiten fijar el número valores eigen ode factors a extraer del resto de variables.

En este caso se ha elegido extraer tresfactores.

En Display debe activar las dos opciones"unrotated factor solution" (soluciónfactorial no rotada) para comparar lassoluciones entre factores sin rotar yrotadas, el "scree plot" para obtener elgráfico respectivo.

En Maximum Iterations forconvergence, especificar el númeromáximo de pasos que el algoritmo puedetomara para estimar la solución. Pordefecto este número es de 25.

La Ventana ROTATION: En esta ventanadebe seleccionar las siguientes opciones:

Page 23: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 23

Dirección Técnica de Demografía e Indicadores Sociales

En Method active el método de rotaciónVarimax, para la rotación ortogonal de lascomponentes o factores, de modo quelas variables fuertemente correlacionadasentre sí presenten concentraciones altassobre un mismo factor (por ejemplo lasvariables correlacionadas con lascaracterísticas demográficas esténagrupadas en un mismo factor) y suconcentración en otros factores sean bajas.Así, se optimiza la solución.

En Display active la opción "Rotatedsolution" para mostrar la solución rotada.El número de iteraciones para laconvergencia de la solución que pordefecto aparece es 25.

La Ventana SCORES: La ventana scoresmuestra la siguientes opciones:

Page 24: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

24 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

Los puntajes factoriales (scores) son lasproyecciones de los valores de las variablessobre cada uno de los factores ocomponentes hallados. Debe activarse laopción Save as variables, para grabar enla base de datos estos puntajes factoriales(F_1, F-2....) como nuevas variables. Estospuntajes permitirán ordenar las unidadesde análisis, recomendándose obtenerlospor el método de regresión por ser este

un procedimiento más estandarizado.Además debe activarse la opción Displayfactor score coefficient matrix quemuestra la matriz de transformación de lascomponentes para calcular los puntajesfactoriales.

La Ventana OPTIONS: En la ventanaOptions, active las siguientes funcionessegún se indican:

En Missing Values, active la opción"Exclude cases listwise" por la que seexcluye del análisis las unidades de análisiscon valores incompletos. En CoefficientDisplay Format active la opción "Sortedby size" que permite presentar en formaordenada las variables de acuerdo a sumayor correlación con los factoresestimados.Una vez realizada todas las seleccionespulsar OK en el cuadro de dialogo principalpara ejecutar todo el procedimiento deanálisis factorial.

6. ¿Cómo se interpretan los resultadosdel análisis factorial realizado?

El análisis factorial realizado ha permitidola obtención de los tres factores en loscuales se agrupan las once variablesinicialmente consideradas y la

generación de los indicadores de calidadde las estimaciones. Las interpretacionesde las salidas que otorga el programason:

Matriz de correlación

La matriz de correlación contiene loscoeficientes de correlación de Pearson(medida de asociación lineal entre lasvariables). La magnitud y el signo delcoeficiente determina el grado y sentidode la relación entre las variablesexplicativas. Cuanto mayor sea el valor delcoeficiente mayor será la relación entrelas variables. Si es positivo entonces larelación entre las variables es directa, perosi el signo es negativo la relación es inversa.Mientras más cerca a uno se encuentrenlos coeficientes de correlación implica quela relación entre las variables es mas alta,

Page 25: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 25

Dirección Técnica de Demografía e Indicadores Sociales

mientras que los valores próximos a ceroimplican ausencia de la correlación(relación). El determinante de la matriz seindica al pié de la tabla. Debajo de loscoeficientes de correlación se muestra lasignificación estadística de los coeficientes

calculados, la misma que viene dada porla proximidad a cero de los valoresmostrados. Así, cuanto más próximos acero se encuentren estos valores loscoeficientes serán estadísticamentesignificativos.

La matriz de correlación es una matrizsimétrica cuyos coeficientes de correlaciónse muestran por encima y por debajo de ladiagonal principal (formada por uno). Comose esperaba algunos coeficientes están máscerca de la unidad, mientras que otrosvalores están próximos a cero. Así, lacorrelación entre los años de estudio y latenencia de profesión, es 0.725 (coeficientemás alto), asimismo este coeficiente esestadísticamente significativo (0.000). La

significación estadística viene dada por losvalores que se muestran debajo de la matrizde correlación. El coeficiente de correlaciónes significativo si el valor que se muestraen la parte inferior a la matriz de correlaciónes inferior a 0.05. Cualquier otro valor,indica que el coeficiente de correlación noes significativo y por tanto no son válidaslas inferencias, siendo sus valores soloreferenciales.

Correlación Matrix a

Ha trabajado

antes?

Ha aprendido

algún oficio a través de

la expe- riencia?

Cuantas semanas ha estado buscando trabajo sin

interrupción

Tiene profesión

Edad (Años)

SexoTotal de

miembros del hogar

AreaCondición de unión

Años de

Estudio

Actual- mente

lleva o ha llevado

cursos de capaci- tación?

Ha trabajado antes? 1.000 -0.190 0.000 0.027 -0.216 0.095 -0.010 0.049 0.194 -0.009 -0.087Ha aprendido algún oficio a través de la experiencia? -0.190 1.000 0.006 -0.187 0.260 -0.308 0.016 0.008 -0.199 -0.200 -0.120Cuantas semanas ha estado buscando trabajo sin interrupción? 0.000 0.006 1.000 0.023 0.138 -0.028 0.066 -0.1 -0.046 0.058 0.028

Ninguna profesión 0.027 -0.187 0.023 1.000 -0.077 0.090 -0.130 -0.1 0.103 0.725 0.277

Edad (Años) -0.216 0.260 0.138 -0.077 1.000 -0.162 -0.145 -0.1 -0.524 -0.214 0.014

Sexo 0.095 -0.308 -0.028 0.090 -0.162 1.000 -0.007 0.001 0.006 0.076 0.103

Total de miembros del hogar 0.010 0.016 -0.066 -0.130 -0.145 -0.007 1.000 0.070 0.040 -0.102 -0.071

Area 0.049 0.008 -0.054 -0.134 -0.093 0.001 0.070 1.0 0.017 -0.190 -0.153

estado civil 0.194 -0.199 -0.046 0.103 -0.524 0.006 0.040 0.017 1.000 0.154 0.004

Años de estudio -0.009 -0.200 0.058 0.725 -0.214 0.076 -0.102 -0.2 0.154 1.000 0.373

Actualmente lleva o ha llevado cursos de capacitación? -0.087 -0.120 0.028 0.277 0.014 0.103 -0.071 -0.2 0.004 0.373 1.000

Ha trabajado antes? 0.000 0.499 0.158 0.000 0.000 0.355 0.037 0.000 0.365 0.001Ha aprendido algún oficio a través de la experiencia? 0.000 0.411 0.000 0.000 0.000 0.275 0.384 0.000 0.000 0.000Cuantas semanas ha estado buscando trabajo sin interrupción? 0.499 0.411 0.197 0.000 0.156 0.007 0.024 0.047 0.017 0.156

Ninguna profesión 0.158 0.000 0.197 0.002 0.000 0.000 0.000 0.000 0.000 0.000

Edad (Años) 0.000 0.000 0.000 0.002 0.000 0.000 0.000 0.000 0.000 0.309

Sexo 0.000 0.000 0.156 0.000 0.000 0.393 0.487 0.413 0.003 0.000

Total de miembros del hogar 0.355 0.275 0.007 0.000 0.000 0.393 0.005 0.073 0.000 0.005

Area 0.037 0.384 0.024 0.000 0.000 0.487 0.005 0.266 0.000 0.000

estado civil 0.000 0.000 0.047 0.000 0.000 0.413 0.073 0.266 0.000 0.447

Años de estudio 0.365 0.000 0.017 0.000 0.000 0.003 0.000 0.000 0.000 0.000

Actualmente lleva o ha llevado cursos de capacitación? 0.001 0.000 0.156 0.000 0.309 0.000 0.005 0.000 0.447 0.000

a. Determinant = 0.169

Page 26: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

26 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

Es importante que todas las variablestengan al menos un coeficiente decorrelación significativo en la matriz. Elcoeficiente de correlación de Pearson esapropiado cuando las variables soncuantitativas. Sin embargo, las variablescualitativas incorporadas al modelopermitirán la disposición adecuada de lasvariables en los factores al margen de lamagnitud y signo de los coeficientes decorrelación a partir de ellas generados.

Pruebas de Kaiser-Meyer-Olkin(KMO) y de Bartlett

La prueba de Bartlett, está referida a lamatriz de correlaciones. Se contrasta lasiguiente hipótesis nula (Ho): La matrizde correlaciones es una matriz de

identidad; versus la hipótesis alternante:la matriz de correlaciones no es una matrizde identidad. En caso de rechazar la Hose concluye que las variables estáncorrelacionadas entre sí, lo que da sentidoal análisis factorial a realizar.

La prueba de Kaiser-Meyer-Olkin(KMO) estima un valor que de acuerdo asu ubicación en una escala permitiráconcluir si el análisis realizado esconveniente. Este KMO se basa en larelación entre los coeficientes decorrelación de Pearson y los coeficientesde correlación parcial entre las variables.En la medida que los primeros sean másaltos, el valor estimado estará mas cercade uno, y por tanto el modelo factorialempleado será más efectivo.

Prueba KMO y Bartlett

.602

2375.412

55

.000

Kaiser-Meyer-Olkin Measure of SamplingAdequacy.

Approx. Chi-Square

df

Sig.

Bartlett's Test ofSphericity

Realizada la prueba de Bartlett, por serel Sig (0.00) inferior al valor de 0.05 apriori f i jado, se rechaza la Ho. Seconcluye que es poco probable que lamatriz de correlación sea una matriz deidentidad, y por tanto la correlación

entre las variables es estadísticamentesignificativa.

Para interpretar el KMO obtenido serequiere ubicar este valor (0.602) en lasiguiente tabla:

1 >= KMO > 0.9 excelente0.9 >= KMO > 0.8 bueno0.8 >= KMO > 0.7 aceptable0.7 >= KMO > 0.6 regular0.6 >= KMO > 0.5 deficiente

KMO <= 0.5 inaceptable

Page 27: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 27

Dirección Técnica de Demografía e Indicadores Sociales

El KMO calculado en el ejemplo es iguala 0.6 alcanzando un nivel deficiente deacuerdo a la escala presentada. Estoprobablemente sea consecuencia de quemás de la mitad de variables empleadasen el caso práctico analizado sondicotómicas.

Comunalidad

La comunalidad, es una medida del aportede los factores a la explicación de lasvariables, mientras más próximos a unoestén las comunalidades, significa que losfactores explican en su totalidad lavariabilidad.

Para el caso práctico las variables: Añosde estudios, edad y tiene profesión sonlas variables mejor explicadas por lostres factores, al registrar las comunalidades

más altas. El valor de 0.803 se interpretade la siguiente manera: el 80% de lavariabilidad de los años de estudios esexplicada por los tres factores, mientrasque el valor de 0.31 significa que lavariable "ha trabajado antes" es explicadaapenas en un 30% por los tres factores.

Porcentaje de varianza

El cuadro muestra el porcentaje devarianza del modelo que es explicado porlos tres factores o componentes. En lacolumna "Rotation Sums of SquaredLoadings" se indica que el primercomponente explica el 19.1% de lavariación total, el segundo componenteexplica el 14.6%, mientras que el terceroel 13.9%. Así, entre los tres factoresexplican el 48% del comportamiento dela variable explicada (E).

2.331 21.187 21.187 2.331 21.187 21.187 2.105 19.137 19.137

1.778 16.164 37.351 1.778 16.164 37.351 1.609 14.630 33.767

1.133 10.302 47.653 1.133 10.302 47.653 1.527 13.886 47.653

1.051 9.552 57.205

.936 8.514 65.718

.904 8.216 73.934

.803 7.296 81.230

.731 6.648 87.878

.650 5.909 93.788

.446 4.055 97.843

.237 2.157 100.000

Component1

2

3

4

5

6

7

8

9

10

11

Total

% ofVarian

ceCumulative % Total

% ofVarian

ceCumulative % Total

% ofVarian

ceCumulative %

Initial EigenvaluesExtraction Sums of Squared

LoadingsRotation Sums of Squared

Loadings

Extraction Method: Principal Component Analysis.

Los valores Eigen, vienen a ser la expresiónnumérica de las componentes, explicandosu valor un porcentaje de la varianza total.Por ejemplo en la columna "Rotation Sumsof Squared Loadings" el valor Eigen quecorresponde a 2.105 explica el 19.1%,mientras que los valores eigen de 1.609 y1.527 explican el 14.6% y el 13.8%,

respectivamente. Es decir el porcentajede variación explicado crece en relacióndirecta a la magnitud del valor Eigen. Deeste modo los tres primeros valores Eigen(equivalentes a tres factores ocomponentes) explican el 48% de lavariabilidad total del modelo, lo que puedeinterpretarse como un porcentaje

Porcentaje de Varianza Explicada

Page 28: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

28 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

aceptable, teniendo mas de la mitad devariación del desempleo explicada por lostres factores. En el caso de los modelosde prognosis se recomienda que el

porcentaje de variación total del casoestudiado sea explicado por los factores almenos en el 60%.

Representación Gráfica

% de la Variación explicada

Número de componentes

1110987654321

valo

r E

igen

2.5

2.0

1.5

1.0

.5

0.0

En el gráfico se representan en el eje deabcisas el número total de factores ocomponentes y en el eje de ordenadas suvalor numérico. Se aprecia la relación inversaentre la magnitud del coeficiente y el númerode factores. Desde que la magnitud delcoeficiente mide el poder explicativo, sepuede inferir que conforme se calculen másfactores el poder explicativo decrece.

El punto de inflexión de la curva, señala elnúmero ideal de factores a determinar. Enel caso práctico desarrollado el gráficoconfirma que el número ideal de factoreses tres.

Matriz de Cargas o Pesos FactorialesRotada

La tabla muestra la disposición de las variablesen los factores según su grado de

importancia. Así en el primer factor ocomponente, las variables: "años deestudio", "tiene profesión", "actualmentelleva o ha llevado cursos de capacitación"y "área" tienen mayor peso. A este factorse le denominó "Demanda del mercadolaboral". En el segundo factordenominado "Oferta de mano de obra",tienen mayor importancia las variables:"edad", "condiciones de unión", "total demiembros del hogar" y "semanasbuscando trabajo sin interrupción". Enel tercer factor denominado "otro factor"se congregan las variables "sexo","aprendió un oficio por la experiencia" y"ha trabajado antes". Las variables másrepresentativas de cada factor es deciraquellas con los pesos más altos son elnivel educativo, la edad y el sexo, lasmismas que podemos inferir son las máscondicionantes del desempleo.

Page 29: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 29

Dirección Técnica de Demografía e Indicadores Sociales

.881 .151 7.184E-02

.825 6.501E-02 8.613E-02

.596 -.160 7.279E-02

-.391 .186 .105

-9.495E-02 -.773 -.325

.146 .762 .155

-.221 .367 -.118

9.889E-02 -.314 4.586E-02

2.759E-02 -.184 .772

-.188 -.104 -.727

-.125 .259 .477

AÑOS DE ESTUDIO

Tiene profesi¢n

Actualmente lleva o ha llevado cursos decapacitaci¢n?

AREA

Edad (A¤os)

Condición de Unión

Total de miembros del Hogar

Cuantas semanas ha estado buscandotrabajo sin interrupcion?

Sexo

Ha aprendido alg£n oficio a traves de laexperiencia?

Ha trabajado antes?

1 2 3

Component

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

Rotation converged in 5 iterations.a.

Principales conclusiones del análisisfactorial realizado

El modelo factorial ha permitidodeterminar que las variables máscondicionantes de la situación dedesempleo abierto son: el nivel educativo,la edad y el sexo (son las que tienen elmayor peso o carga factorial en cadafactor).

La disposición de las variables según sucoeficiente de correlación determina queel primer factor (F1) se reúnan las variables:años de estudio, tenencia de profesión ycursos de capacitación llevados por eldesocupado denominación este factorcomo "calificación laboral"; en elsiguiente factor (F2) , se congregan lasvariables como: la edad, la condición deunión, el tamaño de la familia y las

semanas que ha buscado trabajo por loque se considera este factor como"características sociodemográficos".En el tercer factor (F3) son másimportantes las variables: sexo, haaprendido algún oficio a través de laexperiencia y si ha trabajado antes por locual se le ha denominado "experiencialaboral".

La identificación de estas tres dimensioneshace posible realizar el análisis de losresultados a partir de ellas prescindiéndosede las variables originales.

En cuanto a la consistencia delmodelo y los datos.

- Consistencia del modelo: lasmedidas de calidad para la validez delmodelo (Bartlett y KMO) analizadas,

Matriz de Componentes Rotadas a

Page 30: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

30 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

permiten inferir que la técnica factorialutilizada ha sido adecuada. Además elgráfico de componentes otorga validezal número de componentes estimadas.Otra medida de calidad son los valoresque se presentan en la tabla decomunalidad. En esta tabla se muestrael porcentaje del comportamiento dela variable que es explicado por losfactores estimados. En el caso prácticodesarrollado la variable "años de estudio"es explicada en los tres factores en másdel 80%, existiendo algunas variablescomo cuántas semanas ha estadobuscando trabajo sin interrupción, totalde miembros del hogar y área que noalcanzan el 20% en los tres factores.La tabla de resultados de la Matriz decomponentes rotados muestra ladisposición de las variables en losfactores o componentes según su gradode importancia. Esto permitirá confirmarlas hipótesis a priori establecidas de talmanera que si las variables tienen unagrupamiento diferente al esperado, elmodelo puede no ser el mas adecuado.En el ejemplo desarrollado las variablesmás explicativas del desempleo sonaquellas con los coeficientes mas altosen los factores, confirmándose que elnivel educativo, la edad y el sexocontribuyen más a explicar estasituación.

- Consistencia de los datos: la matrizde correlación estimada permiteverificar la consistencia de los datos,analizándose el sentido de la relaciónentre las variables (signo de loscoeficientes de correlación) y lamagnitud de estos. A partir de estosvalores pueden inferirse si los datosconfirman el conocimiento teóricosobre el problema, en caso contrario

debe evaluarse la base de datos enespecial de aquellas variables concoeficientes de correlación nosignificativos y con signos contrarios alesperado.

Para el ejemplo, los resultadosmostrados en la tabla de comunalidadrecomiendan revisar las variables cuántassemanas ha estado buscando trabajo sininterrupción, total de miembros delhogar y área, por cuanto el poderexplicativo de los tres factores en ellasno alcanzan ni la mitad. En estos casosse recomienda realizar un análisisdescriptivo de estas variables quepermita detectar algunas inconsistencias(% de omisiones, alta varianza, valoresextremos, entre otras).

En La Matriz de componentes rotadosaquellas variables cuyos coeficientesrotados presentan valores semejantesque no permite definir su ubicación enalgunos de los factores, deben serrevisadas. Para el ejemplo la variableárea, cuántas semanas ha estadobuscando trabajo, ha trabajado, puedenubicarse en cualquiera de los factoresdada la semejanza de sus valores, porello se recomienda realizar el análisisde la distribución de sus valores en labase de datos original.

Además, se recomienda comoprocedimiento general efectuar unapartición de los datos en dos muestras,seleccionadas aleateoriamente, a fin dereplicar los procedimientos en variassubmuestras Los resultados de laprimera submuestra deberáncontrastarse con los resultados de lasegunda muestra, de tal manera quese alcancen la consistencia estadística.

Page 31: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 31

Dirección Técnica de Demografía e Indicadores Sociales

4.1 El análisis de conglomerados

El análisis de conglomerados es una técnicadel análisis multivariado que permiteagrupar un conjunto de individuos o devariables en grupos (cluster) de acuerdo aciertos criterios de distancia y similaridadfijados, de tal manera que cada grupo estéintegrado por unidades homogéneas y losgrupos entre sí sean muy heterogéneos.A diferencia de otras formas de análisis

IV. ANALISIS DE CONGLOMERADOS

multivaríado (discriminante) los grupos noestán definidos a priori y la conformaciónde los mismos tiene un carácterexploratorio. La cercanía o alejamientoentre las unidades de análisis o devariables se determina por ejemplo con ladistancia euclídea5/, esto condiciona elanálisis a variables cuantitativas. De estemodo dos unidades se consideran muysemejantes cuando menor es la distanciaentre ellas.

El análisis de conglomerados (cluster) es una técnica multivariada quepermite la conformación de grupos homogéneos de unidades de análisiso variables, según una medida de distancia o proximidad determinada.

4.2 El análisis de conglomerados ysu relación con la ENAHO

A través de las encuestas de hogares serecogen los datos que permiten obtenerlos indicadores para cuantificar losproblemas sociales como el analfabetismo,la pobreza, el ingreso, entre otros. Estosindicadores o variables se expresan endiferentes escalas : ordinales, interválicasy de razón lo que determinaría distintasformas de clasificación de las unidades deanálisis (vivienda, hogar, individuo, etc.)en grupos excluyentes, según el tipo deescala considerada generándose tantasclasificaciones como variables se tengan.La herramienta analítica que integra losdiferentes modos de clasificación de las

unidades de análisis y variables y laconformación de grupos excluyentes, esel análisis de conglomerados (cluster).

4.3 Clasificación de los departamentosdel Perú en función de las variablesmás relacionadas con el índice dedesarrollo humano

En el siguiente caso práctico se clasificalos departamentos del Perú en función deun conjunto de variables relacionadas conel índice de desarrollo humano (IDH). Elordenamiento resultante no persigue finesanalíticos comparativos constituyendosolamente un ejercicio didáctico, parademostrar la aplicación de la técnica.

5/ Es la opción que por defecto proporciona el programa. Se define como la raíz cuadrada de la suma de diferenciasal cuadrado entre dos elementos en la variable o variables consideradas D(X,Y)= S(X

i - Y

i )2.También es usualmente

considerada el cuadrado de la distancia euclidea D(X,Y)=S(Xi – Y

i)

2

Page 32: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

32 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

4.4 Etapas para realizar el análisis deconglomerados

Para realizar el análisis de conglomeradossiga las siguientes etapas:

1. Formule las hipótesis: Para plantearlas hipótesis se formula la siguientespreguntas: ¿Cuántos grupos dedepartamentos se puede conformar deacuerdo a las variables relacionadas conel IDH? ¿Cuál es el departamento conmayor desarrollo humano relativo? ¿Cuáles el departamento con menordesarrollo humano relativo?

Primera hipótesis: De acuerdo a lasvariables que explican el IDH losdepartamentos del Perú se agrupan entres grupos bien diferenciados: los muydesarrollados, los medianamentedesarrollados y los menos desarrollados.

Segunda hipótesis: Lima es eldepartamento que tiene el mayordesarrollo humano relativo yHuancavelica es el de menor desarrollo.

2. Genere un esquema de análisis: Pararealizar el análisis de conglomeradosdeben identificarse primero lasvariables/características que diferencianmás a los grupos. Si el objetivo es formarconglomerados de individuos debenubicarse las variables que presentan losvalores más altos y más bajos. Elanálisis factorial explicado anteriormenteayuda en la selección de estas variables.Así, se escogerán las variables queintegran cada factor y las másrepresentativas de las dimensiones delproblema social en estudio. El siguientediagrama muestra los procesos seguidospara realizar un análisis deconglomerados.

variables unidades

unidades

matriz inicial matriz de de datos similaridad

entre objetos

criterio de similaridad Algoritmo deeclasificacion estructura jerarquizada

unidades

Tener presente que los conglomeradosse generan a partir de las relacionesinterdependientes entre las variables.

3. Identifique la fuente de datos y launidad de análisis: La unidad deanálisis es el departamento y losindicadores están referidas al período1999. Cuando las fuentes deinformación proceden de muestras serecomienda utilizar los datos sin

expandir, así se evitarán resultados quedistorsionen la interpretación de loscoeficientes estimados.

4. Variables seleccionadas: El análisisgeneralmente está restringido a lasvariables interválicas o de razón. Parael ejemplo las variables seleccionadaspara conformar los conglomerados(cluster) son:

Page 33: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 33

Dirección Técnica de Demografía e Indicadores Sociales

Las variables utilizadas en este casopráctico son las que intervienen en elcalculo IDH. La esperanza de vidacorresponde al periodo 1995-2000,mientras que el resto de variables sehan obtenido a partir de la ENAHO1999.

6. Iniciando el análisis deconglomerados: No se realizó elanálisis factorial para la selección devariables debido a que el Programa delas Naciones Unidas para el Desarrollo(PNUD) determina un conjunto deindicadores como explicativos deldesarrollo humano.

El análisis se inicia ubicando en la basede datos los cuatro indicadores queexplican el IDH a nivel departamental.

Con el análisis de conglomerados seconformaran grupos de departamentosa los cuales se denominarán cluster.Para la formación de los cluster seutilizan dos métodos: el Análisis ClusterJerárquico o el K-Means Cluster. Elprimer método se utiliza cuando sedispone de una muestra relativamentepequeña de individuos. El segundométodo se recomienda cuando sedispone de un tamaño de muestragrande y a priori se conoce el númerode cluster. En el ejemplo, los 24departamentos constituyen una muestrapequeña lo que determina aplicar eneste caso el análisis cluster jerárquico.

A continuación se muestra la base de datosactiva y las variables luego de la selección:

No Variable Tipo Código

1 Esperanza de Vida Interválica ESPERANZ

2 Tasa de alfabetismo Razón ALFABETISM

3 Años Promedio de Estudio Interválica AÑOS_ PRO

4 Ingreso Promedio MensualPercápita

Interválica INGRESO_PR

Page 34: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

34 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

En el menú de barras del SPSS elija la opción Analyze/Classify/Hierarchical Cluster.

Pase al recuadro "variable(s)" losindicadores: Esperanza de vida,Alfabetismo, Años promedio de estudios,e Ingreso Per cápita. En el recuadro "Labelcases by" pase la variable que identifica

las unidades a clasificar "departam". Estavariable tiene que ser nominal. Luego enCluster active la opción "Cases " y enDisplay las opciones Statistics y Plots " :

En la opción Cluster se selecciona "Cases"en lugar de "Variables", de tal manera queel análisis se efectúe a nivel dedepartamentos (casos). En caso contrarioel análisis será a nivel de variables. En"Display" se habilita las opciones "Statistics"y "Plots". La primera permitirá calcular lasestadísticas de tendencia central y de

dispersión para cada conglomerado(cluster), mientras que la segunda generarálos respectivos gráficos.

Ventana STATISTICS En el subcuadro que se muestra, agreguela opción "Proximity matriz" a lasseleccionadas por defecto.

Page 35: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 35

Dirección Técnica de Demografía e Indicadores Sociales

El "Agglomeration schedule" es unmétodo acumulativo de formación decluster. Consiste en formar primero tantoscluster como departamentos se tengan.Es decir se inicia con 24 cluster. Cuandose forma el primer cluster se van añadiendootros, de tal manera que al final todos loscluster conformarán un solo grupo. Si uncluster se ha formado, ya no se desintegrahasta el final.

Con la opción "Proximity matrix" semuestra la matriz de distancias, que parael presente ejemplo se compone de lamatriz de distancias euclideas al cuadrado.La opción "Cluster membership"permite mostrar la formación progresivade los cluster, al inicio y en cada pasoiterativo. Si selecciona "None" no se

muestra nada. El "Single Solution", da laposibilidad de mostrar un númerodeterminado de cluster. En "Range ofsolution" da la posibilidad de fijar un rangodeterminado de clusters en que deseadividir la muestra, que va desde dos hastaun número equivalente al total deunidades de análisis menos uno.

Pulse el botón "continue" para continuarla selección.

Ventana PLOTSEn "Plots" seleccione las siguientesopciones. En el subcuadro que se muestra,dejar todas las opciones seleccionadas pordefecto y añada la opción "Dendograma".Seguidamente pulse continue.

Page 36: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

36 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

El "Dendogram" es una representación delos resultados del análisis cluster. Se leede izquierda a derecha. Las líneasverticales dan a conocer la unión de doscluster. En la parte superior se muestra laescala de distancias entre los diversoscluster (coeficientes), la cual ha sidoreconvertida a otra escala de 0-25. Laposición de la línea vertical en esta escalaindica la distancia de unión de los cluster.El vertical icicle plot (gráfico vertical) quese configura al seleccionar las opciones"icicle all cluster" y "orientation vertical",permite representar gráficamente laconformación de los grupos. Al trazar unalínea horizontal, en el gráfico "vertical

icicle plot", se configura el número degrupos y los departamentos que lointegran.Pulse continue para continuar la selección.

Ventana METHOD

Pulse el botón de la opción ClusterMethods del cuadro de diálogo principalde la figura. En la ventana que se muestra,dejar todas las opciones seleccionadas pordefecto excepto la relacionada alprocedimiento "Transform Values", en lacual debe seleccionar de la listadesplegable, la opción Z score. Pulsecontinue

Page 37: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 37

Dirección Técnica de Demografía e Indicadores Sociales

La opción "Measure" permite seleccionarla expresión para medir las distancias, lamisma que estará en función al tipo deescala en que se han medido las variables:intervalo y de razón.

La opción "Transform Values" permitehomogenizar los diferentes tipos de escalaen que se han medido las variables. Así

las unidades de distancia entre dosindividuos será expresada en el mismo tipode unidades (Z-scores)

Ventana OPTIONS

En la ventana Options, seleccione lassiguientes funciones:

Page 38: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

38 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

"Exclude cases listwise", permite excluir losvalores incompletos. "Sorted by size"permite ordenar los coeficientesestimados en forma creciente.

Sin realizar ningún cambio en la ventana"save", en el cuadro de diálogo principalpulse OK. De este modo se ejecutaratodo el procedimiento.

El agrupamiento del ejemplo desarrolladotoma en cuenta las variables de tipoeconómico, social y demográfico lo cualdetermina una conformación específicade los departamentos, en los distintosgrupos, probablemente muy diferente ala que se obtendría si el criterio declasificación se hubiese realizado convariables de tipo cultural, político,ambiental o de salud, etc.

Así como se agrupan los departamentossegún el criterio de distancia elegido,también existen muchos métodos paracombinar los grupos. En el ejemplo seemplea el método aglomerativo, queconsiste en un agrupamiento sucesivoen una serie de pasos. Al comienzo setienen tantos grupos (cluster) comodepartamentos, en cada paso los cluster sevan uniendo hasta que al final constituyenun solo grupo.

6. Interpretación de los resultadosdel análisis de conglomerados

Matriz de distanciasLa matriz formada de orden 23 x 23 ( totalde departamentos menos uno), muestralas distancias euclideanas entre losdepartamentos. Un valor pequeño denotamayor semejanza en cambio un valorgrande mayor diferencia.

Page 39: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 39

Dirección Técnica de Demografía e Indicadores Sociales

Tabla de aglomeración

En esta tabla se muestra el número degrupos o cluster que se combinan en cadaestado (Stage). La primera líneacorresponde al estado stage = 1 . En estenivel se combinan el cluster 4 (Arequipa)con el cluster 10 (Ica) quedando 23 cluster.La distancia euclidea ( coefficients ) entreestos cluster es 0.171. La última columna(next stage) indica en que estado seincorpora un nuevo cluster (departamento)a esta primera unión. En el ejemplo, es el

estado 9. Si se verifica en la columna stage= 9 , ubica el número 22 que correspondeal departamento de Tacna, quedandoformado un nuevo cluster con losdepartamentos de Arequipa, Tacna e Ica.La columna "stage cluster first appears"indica en que nivel se dio la primeraformación de cluster. De este modo lalectura del "aglomeration schedule"permite realizar un seguimiento a laconformación de los grupos. Cuantomenor sean los coeficientes, implica mayorhomogeneidad entre los cluster.

Agglomeration Schedule

4 10 .171 0 0 9

3 20 .196 0 0 14

13 23 .246 0 0 15

18 24 .273 0 0 7

16 21 .291 0 0 18

11 15 .370 0 0 7

11 18 .399 6 4 13

12 17 .438 0 0 12

4 22 .647 1 0 12

6 9 .693 0 0 17

1 2 .748 0 0 17

4 12 1.101 9 8 20

11 19 1.201 7 0 15

3 5 1.302 2 0 16

11 13 1.415 13 3 18

3 8 1.568 14 0 19

1 6 1.839 11 10 21

11 16 2.035 15 5 20

3 7 2.908 16 0 21

4 11 3.069 12 18 22

1 3 3.880 17 19 22

1 4 10.567 21 20 23

1 14 24.964 22 0 0

Stage

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

Cluster 1 Cluster 2

Cluster Combined

Coefficients Cluster 1 Cluster 2

Stage Cluster FirstAppears

Next Stage

Page 40: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

40 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

Dendograma

El dendograma es una representacióngráfica de la conformación de losconglomerados o cluster. La líneahorizontal superior indica la escala a la cualse combinan los cluster. Las líneasverticales indican la conformación de losdepartamentos en cluster. Cuanto losconglomerados se encuentren máspróximo a cero en la escala (rescaled

distance cluster combine) implica que lasagrupaciones son más fuertes. Asítenemos Arequipa. Ica, Tacna, La libertady Moquegua conforman el primer clustercuya agrupación por estar próxima a ceroen la escala indica cercanía en cuanto alas características de desarrollo estudiadas.En cambio Lima se encuentra muy alejadodel resto de conglomerados, por cuantosus indicadores denotan mayor desarrolloy por tanto mayor distancia.

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * *Dendrogram using A verage Linkage (Between Groups)

Rescaled Distance Cluster Combine (Escala)

C A S E 0 5 10 15 20 25Label Num +- - - - - - - -+- - - - - - - - -+- - - - - - - - -+- - - - - - - - -+- - - - - - - - -+

Arequipa 4Ica 10Tacna 22La Libertad 12Moquegua 17Madre de Dios 16San Martín 21Lambayeque 13Tumbes 23Pasco 18Ucayali 24Junín 11Loreto 15Piura 19Cajamarca 6Huánuco 9Amazonas 1Ancash 2Apurimac 3Puno 20Ayacucho 5Huancavelica 8Cusco 7Lima 14

Page 41: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 41

Dirección Técnica de Demografía e Indicadores Sociales

7. Principales conclusiones delanálisis factorial realizado

Los departamentos del Perú se handispuesto en tres grupos biendiferenciados de acuerdo a su mayorrelación con las variables consideradas,comprobándose la primera hipótesisformulada. Así, Lima con mejoresindicadores de desarrollo humano y muyalejada del resto conforma un grupo, elsegundo grupo y con un desarrollohumano relativo mediano está integradopor: Arequipa, Ica, Tacna, La Libertad,Moquegua, Madre de Dios, San Martín,Lambayeque, Tumbes, Pasco, Ucayali,Piura, Junín, y Loreto. El tercer grupo, conel menor desarrollo relativo estáconformado por: Cajamarca, Huanuco,Amazonas, Ancash, Apurímac, Puno,Ayacucho, Cusco y Huancavelica.

También se comprueba que Huancavelicaforma parte del grupo de departamentoscon menor desarrollo relativo,comprobándose la segunda hipótesis.

8. Consistencia del modelo y losdatos

En cuanto al modelo

En la matriz de distancias se muestranlos coeficientes que permiten determinarla semejanza entre la unidades de análisis.Un valor alto significa que las unidades nose parecen, mientras que los valorespequeños estarán asociados a las unidadescon características semejantes. En elejemplo desarrollado, los departamentoscon características sociales diferentesmostrarán los coeficientes de distancia másaltos, mientras que los valores pequeñosestarán asociados a departamentos con

características muy semejantes. Así, entreIca y Arequipa el coeficiente de distanciaes 0.171 lo que denota su semejanza,mientras que entre Lima y Amazonas elcoeficiente de distancia es 28.7. Laconsistencia del modelo quedadeterminada cuando los coeficientes dedistancia hallados tienen relación con lasdiferencias encontradas entre las variablesoriginales.

La tabla de aglomeración: En esta tablapueden estudiarse paso a paso laformación de los grupos de unidades deanálisis, esperando encontrar en elejemplo desarrollado que las primerasuniones se den entre aquellosdepartamentos con desventajas socialesrelativas muy parecidas. Si esta condiciónse verifica entonces podrá inferirse laefectividad del modelo.

El dendograma: En este gráfico seaprecia de manera global la disposición delos departamentos.

También la conformación de los diferentesgrupos de acuerdo a su desarrollo relativo.En el dendograma, se observa que Limase separa del resto de departamentos, porcuanto tiene los mejores indicadores dedesarrollo humano, mientras queCajamarca, Huanuco, Amazonas, Ancash,Apurímac, Puno, Ayacucho, Huancavelicay Cusco forman un conglomerado con unadesventaja relativa mayor en relación alresto de departamentos.

En cuanto a la consistencia de losdatos

La matriz de distancias sirve para realizarcomparaciones entre los departamentos.Así, Apurímac y Ayacucho tienen un

Page 42: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

42 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

coeficiente de distancia de 1.14, lo queconfirma las diferencias mostradas en losvalores de las variables originales y que seutilizan como criterios de clasificación(Esperanza de vida, Años promedio deestudios, Alfabetismo, e Ingreso Percápita). Mientras que Ayacucho yArequipa tienen un coeficiente de distanciade 27. 45 y entre Apurímac y Arequipaeste coeficiente es 18.6. Así, Apurímac yAyacucho son más parecidos entre sí, encambio Arequipa dados los valores de loscoeficientes de distancia no se parece aninguno. Puede concluirse que los datosconfirman los supuestos teóricos conrespecto a las diferencias relativas en eldesarrollo de los departamentos reflejadosen los valores de las variables. Estaproximidad entre los resultados observadosy los esperados es evidencia de laconsistencia de los datos de la encuesta.En caso contrario la base de datos debeestudiarse nuevamente.

La tabla de aglomeración: Esta tablapuede ser útil para identificar aquellos

departamentos con las variables que tienendatos muy alejados de la tendenciamostrada por los valores promedio delgrupo al que pertenece. En estos casos serecomienda revisar en la base de datosdicha variables. En el ejemplo desarrolladolas distancias entre los cluster que semuestran en la columna "coefficients" dela tabla "Agglomeration Schedule" sirvenpara realizar este tipo de comparaciones.Así entre el departamento de Arequipa,Ica y Tacna identificados en esta tabla conlos dígitos 4, 10 y 22, se espera valoresen las variables originales cercanos.

El dendograma: contribuye también ala evaluación de los datos, por cuanto ladisposición y agrupamiento entre losdepartamentos obedece a los valores quetoman entre las variables. De este modoa simple vista pueden ubicarse losdepartamentos con los coeficientes dedistancia muy próximos entre sí, cuyosvalores en las variables originales se esperatambién lo sean.

Page 43: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 43

Dirección Técnica de Demografía e Indicadores Sociales

5.1 El análisis discriminante

El análisis discriminante es otra técnica delanálisis multivariado que permite clasificarlas unidades de análisis en gruposdefinidos a priori y analizar las causasque han dado lugar a la formación de estosgrupos. Los grupos se conforman a partirde un conjunto de variables seleccionadas(variables independientes), las cualesademás de explicar la formación de losgrupos pueden ordenarse según su mayorpoder discriminatorio. De este modo lasunidades de análisis son reclasificadas,

V. ANALISIS DISCRIMINANTE CLASIFICATORIO

generándose una clasificación distinta a larealizada a priori, donde el aporte de lasvariables independientes (explicativas) a laformación de los grupos determina laformación de los mismos. El algoritmomatemático (función discriminante) sedetermina a partir de la escala de medidade la variable dependiente: si la variabledependiente es dicotómica (discreta)entonces el modelo matemático másapropiado es el logístico; si es continua,entonces el modelo que mejor se adecuaes el modelo de regresión lineal simple omúltiple.

El análisis discriminante es otra técnica del análisis multivariado quepermite asignar las unidades de análisis a grupos a priori conformados apartir de un conjunto de variables explicativas que contribuyen más a laformación de los grupos .

El análisis discriminante clasificatorio

El análisis discriminante clasificatorio seaplica cuando se busca conformar gruposmutuamente excluyentes de unidades deanálisis a partir de un conjunto de variablesexplicativas (independientes), estosnuevos grupos muy probablementedifieren de los conformados a priori.

5.2 El análisis discriminante y surelación con la ENDES

La encuesta demográfica y de salud familiarENDES contiene un conjunto deinformación relacionada con lascaracterísticas demográficas de la mujer

en edad fértil y de sus hijos menores decinco años, además de datos relacionadoscon la vivienda y el hogar. El estudio puedeestar referido a diferentes unidades deanálisis: el hogar, la mujer adolescente, lamujer adulta mayor, entre otras. Estasunidades de análisis pueden disponerseen grupos según las características de lasvariables que las integran. La ENDESconsidera generalmente variablescualitativas.

Las variables de la ENDES medidas enescalas diferentes (nominales, ordinales einterválicas), determinarán diversos modosde clasificación no pudiéndose determinarcual de las variables influye más en la

Page 44: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

44 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

conformación de los grupos de estudio.De allí la necesidad de aplicar otra técnicamultivariada como el análisis discriminanteque permita clasificar las unidades deanálisis medidas en diferentes escalas eidentificar aquellas variables másinfluyentes en la conformación de losgrupos.

5.3 Estudio del número de hijos delas mujeres según variablesseleccionadas

A partir del modelo discriminante y larelación de dependencia establecida sebusca encontrar las causas que determinanla tenencia de hijos por las mujeres enedad fértil.

5.4 Etapas para realizar el análisisdiscriminante

Para realizar el análisis discriminante sigalas siguientes etapas:

1. Formule las hipótesis: Para plantearlas hipótesis se formulan las siguientespreguntas: ¿El número de hijos de lasmujeres esta determinado por el niveleducativo? ¿Qué variables contribuyenmás a distinguir entre las mujeres conhijos y sin ellos? A partir de estaspreguntas se pueden formular lashipótesis siguientes:

Primera hipótesis: El nivel educativodetermina el número de hijos en lasmujeres.

Segunda hipótesis: La edad, lacondición de ocupación y el lugar deresidencia son las variables quecontribuyen más a diferenciar entre lasmujeres con hijos y sin ellos.

2. Genere un modelo multivariado: Elmodelo multivaríado se conforma apartir de una ecuación lineal. A fin dealcanzar mayor precisión en lasestimaciones se recomienda efectuarprimero, un análisis factorial paraclasificar las variables de acuerdo a lasdimensiones del objeto social enestudio. Generalmente la variabledependiente es cualitativa mientras lasindependientes son cuantitativas.

X 1

X 2

Y...

X j

Modelo discriminante clasificatorio:

Y ji = a X 1i + b X 2i + c X 3i + ... + m X ji

Donde Y ij : puntaje discriminante del i-ésimo individuo correspondiente a la j-ésima variable

3. Fuente de información y unidad deanálisis: La fuente de información parael presente ejemplo aplicativo es la basede datos de la encuesta demográfica yde salud familiar ENDES 2000. Serecomienda utilizar los datos sinexpandir de modo que las estimacionesno se vean afectadas por lasponderaciones. La unidad de análisis esla mujer en edad fértil (15 a 49 años).

4. Variables seleccionadas: El análisisdiscriminante requiere que la variablepara definir los grupos sea cualitativamientras que las variables discriminantesdeberán ser cuantitativas (intervalares),

Y : variable dependiente Xi : variables independientes

Page 45: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 45

Dirección Técnica de Demografía e Indicadores Sociales

en caso contrario se recomiendaconvertirlas en variables dicotómicas (0-1). Tener presente que el valor de unodebe esta asociado a la presencia de lacualidad. Así, por ejemplo las categorías

de la variable estado conyugal puedenhacerse dicotómicas. El valor 0 indicano unida mientras que el valor 1 indicaunida.

Variable Dependiente: mujer en edad fértil sin hijos, con uno a dos hijos y con treso mas hijos (REV201).

5. Procedimientos para realizar elanálisis discriminante

Para proceder a realizar el análisisdiscriminante con el SPSS siga lossiguientes pasos:

1. Cargue la base de datos con lasvariables seleccionadas de la fuente deinformación mencionada

Iniciando el análisis discriminante:Ingrese a la siguiente ventana del SPSSAnalyze / Classify/ Discriminant. La opciónClassify permite clasificar la informaciónde acuerdo a las opciones K-means Clustery Hierarchical Cluster, explicadas en la

sección anterior. A estas dos se añade laopción discriminante, seleccione deacuerdo a la ventana mostrada. Una vezque ha ingresado al análisis discriminanterealice lo siguiente.

No Variable Tipo Código

1 Edad Interválica V012

2 Lugar de Residencia Nominal-Dicotómica V0251

3 Educación Básica Alcanzada Nomiinal- Dicotómica V1061

4 Estado Conyugal Nominal-Dicotómica V5011

5 Condición de Actividad Nominal-Dicotómica RECV7171

Page 46: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

46 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

En el campo Grouping Variable, ingrese lavariable dependiente que en el ejemploes el número de hijos (REV201). Estavariable tiene tres categorías (1 = sin hijos,2 = 1 y 2 hijos, 3 = 3 o mas hijos). En"Define Range" especifique el valormínimo y máximo de la variabledependiente. En el campo Independents,ingrese las variables independientes. Laopción seleccionada por defecto es "enterindependents together", mediante la cualel software evalúa todas las variablesindependientes al mismo tiempo. Laopción alternativa es el "stepwise method"(método stepwise) , mediante el cual lasvariables explicativas son evaluadas una poruna y salen de acuerdo a ciertos criterios.Las dos formas son válidas quedando laelección a criterio del investigador. Si elige

el "stepwise", se presentan algunasopciones adicionales.

Las siguientes opciones son el "Select","Statistics", "Classify", "Save" y "Method"(encaso de optar por el stepwise), las cualesse explican detalladamente:

Ventana SELECT

Esta opción se utiliza cuando se trabajancon grupos de muestras (submuestras).Por ejemplo podemos analizar si el númerode hijos en las mujeres jóvenes se explicapor las variables seleccionadas. En la cajade diálogo "selection variable", incluya lavariable dependiente. En el desarrollo delpresente ejemplo no se ha consideradoesta opción.

Ventana STATISTICS

En el cuadro de diálogo, seleccione todaslas opciones, tal como se indica, y pulsecontinue. Estas opciones permiten realizarlo siguiente:

La opción "Descriptive", calcula elpromedio y la desviación estándar para lasvariables independientes en cada grupo.

La opción "Univariate ANOVA's", calculala significación estadística de las diferenciasentre los promedios de los gruposconformados.

La opción "Box M", evalúa las diferenciasentre las matrices de covarianza.

Page 47: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 47

Dirección Técnica de Demografía e Indicadores Sociales

La opción "Function Coefficients: Fisher yUnstandardized", permite el cálculo de lospuntajes discriminantes de Fisher y noestandarizados.

La opción "Matrices", permite calcular todaslas matrices de correlación y covarianzaintragrupos, por cada grupo y total. En elcuadro de diálogo, seleccione todas lasopciones, tal como se indica.

Ventana METHOD

Este cuadro de diálogo estará activo si seselecciona la opción Stepwise. En caso dehacerlo deje las opciones seleccionadas

por defecto: en Method deje el "Lambdade Wilks", en Display active "summary ofsteps", en Criteria "Use F value" .Seguidamente pulse continue.

Page 48: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

48 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

El "Lambda de Wilks" calculado es un valornumérico que sirve para decidir el ingresoo salida de las variables en el modelo. Estosvalores van acompañados de los "F value"y se interpretan de manera inversa a loslambda de Wilks. Así, un mayor F implicaun mayor poder discriminatorio de lavariable. Este proceso iterativo deselección se muestra cuando se activa"summary of steps".

Ventana CLASSIFICATION

En esta ventana deben definirse lascaracterísticas de la clasificación. En Priorprobabilities, se tienen dos opciones: "Allgroups equal" que quiere decir "todas lasunidades de análisis ingresan con igualprobabilidad a priori" y "Compute fromgroup sizes" que significa "probabilidades

de ingreso diferente para cada unidad deanálisis de acuerdo al tamaño del grupo apriori conformado". En Display se muestranlos resultados de la clasificación. Con"casewise results" se muestran todos, y con"limit cases to first", se fija el número decasos a mostrar. "Summary table"y "Leave-one-out classification" muestra la tabla ylos resultados de la clasificación.

En "Use Covariance matrix" se muestranlas matrices de covarianza entre grupos yde cada grupo por separado. El"Plots"permite representar gráficamente lasunidades de análisis en los grupos,separadamente y en un mapa territorial,en el cual se muestra su nueva ubicaciónde acuerdo al análisis realizado.

Ejecutamos el proceso con continue.

Ventana SAVE

Seleccionamos todas las opciones,pulsamos continue.

La opción Discriminant Score, muestra lospuntajes del análisis discriminante. Estospuntajes se estiman al reemplazar el valorde las variables en la ecuacióndiscriminante correspondiente.

Page 49: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 49

Dirección Técnica de Demografía e Indicadores Sociales

Cuando en el cuadro de diálogo principal,se selecciona OK debe ejecutarse elanálisis discriminante con las opcionesseleccionadas.

6. Interpretación de los resultados delanálisis discriminante

Las unidades de análisis originalmentedispuestas en tres grupos según el númerode hijos han sido reclasificadas deacuerdo a sus valores en las variablesexplicativas consideradas. Los resultados(output) del modelo discriminanteaplicado son:

Medidas descriptivas

La calidad del análisis realizado sedetermina mediante las medidasdescriptivas como: el promedio y ladesviación estándar de cada grupo. Seespera que los promedios (mean) de cadagrupo sean diferentes, mientras que loscoeficientes de variación que resultande dividir la desviación estándar(std. deviation) y el promedio seansemejantes. Si las medias son diferentes,se comprueba que los grupos conformadosdifieren entre sí, justificándose el análisisrealizado. Estas comparaciones seránposibles en la medida que se compruebetambién la homogeneidad de las varianzas.

Page 50: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

50 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

La eficacia del análisis discriminanterealizado se verifica cuando los puntajespromedio (mean) de cada grupo (1; 2; 3),son lo más diferentes entre sí, mientrasque las desviaciones estándar (std.deviation) son mínimas. El número de casosanalizados sin ponderar y ponderados semuestra en las dos últimas columnas (ValidN -listwise).

Matriz de covarianzaExisten tantas matrices de covarianza comogrupos de la variable dependiente sedispongan. Cuando se analizan el signo yla magnitud de los coeficientes de la matrizde covarianza ésta se convierte en unamedida de calidad de las estimaciones. Lasemejanza entre los valores calculados paracada grupo, será también un indicador dela consistencia de las estimaciones.

Group Statistics

20.9106 6.5638 8912 8912.000

.2819 .4499 8912 8912.000

.8209 .3834 8912 8912.000

8.640E-02 .2810 8912 8912.000

1.5252 .4994 8912 8912.000

28.6531 7.6882 8450 8450.000

.3515 .4775 8450 8450.000

.6923 .4616 8450 8450.000

.7776 .4159 8450 8450.000

1.4460 .4971 8450 8450.000

37.2453 6.9774 10481 10481.000

.5047 .5000 10481 10481.000

.3529 .4779 10481 10481.000

.9248 .2637 10481 10481.000

1.3462 .4758 10481 10481.000

29.4093 9.8214 27843 27843.000

.3869 .4870 27843 27843.000

.6057 .4887 27843 27843.000

.6118 .4874 27843 27843.000

1.4338 .4956 27843 27843.000

V012 Current age - respondent

V0251

V1061

V5011

RECV717 CONDTRABAJO

V012 Current age - respondent

V0251

V1061

V5011

RECV717 CONDTRABAJO

V012 Current age - respondent

V0251

V1061

V5011

RECV717 CONDTRABAJO

V012 Current age - respondent

V0251

V1061

V5011

RECV717 CONDTRABAJO

REV201 Nº DE HIJOS1.00 NO TIENE

2.00 1 A 2

3.00 3 A MAS HIJOS

Total

MeanStd.

Deviation Unweighted Weighted

Valid N (l istwise)

Covariance Matrices a

43.083 -.311 -7.713E-03 .395 -.343

-.311 .202 -7.139E-02 9.198E-03 -2.911E-02

-7.713E-03 -7.139E-02 .147 -1.101E-02 3.897E-02

.395 9.198E-03 -1.101E-02 7.894E-02 -4.538E-03

-.343 -2.911E-02 3.897E-02 -4.538E-03 .249

59.109 -.956 .489 3.565E-02 -3.535E-02

-.956 .228 -9.624E-02 2.655E-03 -2.186E-02

.489 -9.624E-02 .213 -1.202E-03 3.405E-02

3.565E-02 2.655E-03 -1.202E-03 .173 2.712E-02

-3.535E-02 -2.186E-02 3.405E-02 2.712E-02 .247

48.684 -.450 -.101 -6.352E-02 -.132

-.450 .250 -.102 1.133E-02 -2.215E-02

-.101 -.102 .228 -5.334E-03 3.183E-02

-6.352E-02 1.133E-02 -5.334E-03 6.954E-02 1.238E-02

-.132 -2.215E-02 3.183E-02 1.238E-02 .226

96.460 8.237E-02 -1.243 2.428 -.680

8.237E-02 .237 -.110 3.778E-02 -3.138E-02

-1.243 -.110 .239 -6.752E-02 4.975E-02

2.428 3.778E-02 -6.752E-02 .238 -1.365E-02

-.680 -3.138E-02 4.975E-02 -1.365E-02 .246

V012 Current age - respondent

V0251

V1061

V5011

RECV717 CONDTRABAJO

V012 Current age - respondent

V0251

V1061

V5011

RECV717 CONDTRABAJO

V012 Current age - respondent

V0251

V1061

V5011

RECV717 CONDTRABAJO

V012 Current age - respondent

V0251

V1061

V5011

RECV717 CONDTRABAJO

REV201 Nº DE HIJOS1.00 NO TIENE

2.00 1 A 2

3.00 3 A MAS HIJOS

Total

V012 Currentage - respondent V0251 V1061 V5011

RECV717 CONDTRABAJ

O

The total covariance matrix has 27842 degrees of freedom.a.

Page 51: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 51

Dirección Técnica de Demografía e Indicadores Sociales

Las matriz de covarianza (covariancematrices) en general, es una matrizsimétrica cuya diagonal principal contienelas varianzas, mientras que por encima ydebajo de esta diagonal se muestran lascovarianzas. En el ejemplo se apreciacierta semejanza entre las valorescorrespondientes a las diagonales en cadagrupo conformado.

Lambda de Wilks

La suma de cuadrados de la variación totalse descompone en una suma decuadrados intra-grupo y una suma decuadrados entre-grupos. El Lambda de

Wilks, es una medida de calidad, que seforma a partir de la relación entre la sumade cuadrados dentro de grupos y la sumade cuadrados total. Así, si el Lambda deWilks es uno quiere decir que toda lavariación se explica por la variación dentrode grupos y no hay diferencia entre losgrupos. En cambio, cuanto más cerca decero este el Lambda, implica que ladiferencia entre los grupos es mayor, loque significa que las variables sonadecuadas para construir las funcionesdiscriminantes. Las variables con menorLambda de Wilks son las másdiscriminantes. En el cuadro "variablesEntered-Removed" se muestra el ingreso/salida de las variables.

Variables Entered/Removed a,b,c,d

V5011 .438 1 2 27840.000 17893.902 2 27840.000 .000

V012 Current age - respondent .305 2 2 27840.000 11287.309 4 55678.000 .000

V1061 .279 3 2 27840.000 8287.134 6 55676.000 .000

V0251 .277 4 2 27840.000 6253.582 8 55674.000 .000

RECV717 CONDTRABAJO .276 5 2 27840.000 5026.355 10 55672.000 .000

Step1

2

3

4

5

Entered Removed Statistic df1 df2 df3 Statistic df1 df2 Sig.

Exact F

Wilks' Lambda

At each step, the variable that minimizes the overall Wilks ' Lambda is entered.

Maximum number of steps is 10.a.

Minimum partial F to enter is 3.84.b.

Maximum partial F to remove is 2.71.c.

F level, tolerance, or VIN insufficient for further computation.d.

Los Lambda de Wilks calculados permiteninferir que todas las variables debeningresar al modelo, lo cual se debaprobablemente al gran tamaño de muestraconsiderado.

Al realizar el análisis de varianza(descomposición de la variación total) paracada una de las variables por separadoencontramos que todas las variablesmuestran diferencias significativas (prueba

F), lo cual es atribuible al tamaño demuestra grande. Como se esperaba elnivel educativo (v1061), el lugar deresidencia (v0251), la condición deactividad (RECV717), la edad (V012) y elestado conyugal (V501) tienen losmenores Lambda de Wilks y por tantoexplican mejor la variabilidad entre losgrupos de mujeres ( las que no tienenhijos, las mujeres con uno y dos hijos ylas que tienen tres hijos).

Page 52: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

52 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

El Lambda de Wilks para los gruposmuestra la efectividad del análisisrealizado. Las funciones discriminantes 1y 2 son estadísticamente significativas,como lo muestra la prueba estadística Jí-Cuadrado (Chi-square).

Prueba M de Box

¿Existe diferencias significativas entre losgrupos conformados? ¿Son las matrices devarianza y covarianza de cada grupo

estadísticamente significativas? La pruebaM de BOX, es un indicador que permiteresponder estas interrogantes. El M deBox de 3,997.2 determina un valor F alto.Bajo la hipótesis nula que no haydiferencias significativas, se analizan losvalores del F calculado (F) y el sig (nivelde significación). En la tabla "test results",si el sig es inferior a 0.01 entonces serechaza la hipótesis nula y se concluye quelos grupos conformados difierensignificativamente.

Wilks' Lambda

.276 35819.352 10 .000

.892 3194.053 4 .000

Test of Function(s)1 through 2

2

Wilks' Lambda Chi-square df Sig.

Wilks' Lambda

1 .438 1 2 27840 17893.902 2 27840.000 .000

2 .305 2 2 27840 11287.309 4 55678.000 1.898E-14

3 .279 3 2 27840 8287.134 6 55676.000 .000

4 .277 4 2 27840 6253.582 8 55674.000 .000

5 .276 5 2 27840 5026.355 10 55672.000 .000

Step1

2

3

4

5

Number ofVariables Lambda df1 df2 df3 Statistic df1 df2 Sig.

Exact F

Test Results

3997.235

133.207

30

2315436188.341

.000

Box's M

Approx.

df1

df2

Sig.

F

Tests null hypothesis of equal population covariance matrices.

Se encuentran diferencias significativasentre las matrices de varianza y covarianzade cada grupo. La F = 133 y el grado designificación (sig. p = 0.00) así lo señalan.Los grupos de mujeres con hijosconformadas son los adecuados.

Funciones discriminantes¿Es concordante la clasificación de lasunidades de análisis a partir de los puntajesdiscriminantes con la clasificación a priori?

El análisis discriminante permite calcular lasfunciones discriminantes, para determinarel puntaje discriminante con el cual seclasifican las unidades de análisis.

Page 53: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 53

Dirección Técnica de Demografía e Indicadores Sociales

Canonical Discriminant Function Coefficients

.087 -.081

.183 -.254

-.506 1.151

2.190 2.152

-.155 -.160

-3.450 .706

V012 Current age - respondent

V0251

V1061

V5011

RECV717 CONDTRABAJO

(Constant)

1 2

Function

Unstandardized coefficients

Con estos coeficientes se determinan las siguientes ecuaciones discriminantes:

D1= - 3.45 + 0.08 V012 + 0.18 V0251 - 0.5 V1061 + 2.19 V5011 - 0.15 RECV7171

D2= 0.7 - 0.08 V012 - 0.25 V0251 + 1.15 V1061 + 2.15 V5011 - 0.16 RECV7171

Los valores correspondientes de lasunidades de análisis en las variables debensustituirse en las ecuaciones de modo quese obtengan los puntajes discriminantes.Cuando se ejecuta todo el procedimientoy habiendo seleccionado la opción save("discriminant score") estos puntajes semuestran en la última columna de la basede datos . En el ejemplo desarrollado portener la variable dependiente trescategorías se generan dos funcionesdiscriminantes y dos puntajes por cadaunidad de análisis, los cuales se muestraen dos columnas con los encabezadossiguientes "discriminant score fromfunction 1" y "discriminant score fromfunction 2". Junto a ellas se muestra

también la columna "predicted group" (queindica el grupo pronosticado al quepertenece la unidad de análisis) asimismootras columnas son "probabilities ofmembership in group 1" "probabilities ofmembership in group 2" y "probabilitiesof membership in group 3" que indican laprobabilidad de pertenencia de la unidadde análisis a cada categoría de la variabledependiente.

Importancia relativa de las variables

En los grupos de mujeres conformados(mujeres sin hijos, con uno o dos hijos ycon tres o mas hijos) la importancia de lasvariables no es la misma. Así tenemos:

Classification Function Coefficients

.488 .630 .807

5.162 5.400 5.838

5.088 4.745 3.177

-.527 5.983 7.091

6.510 6.044 5.972

-13.956 -19.405 -25.454

V012 Current age - respondent

V0251

V1061

V5011

RECV717 CONDTRABAJO

(Constant)

1.00 NO TIENE 2.00 1 A 2 3.00 3 A MAS HIJOS

REV201 Nº DE HIJOS

Fisher's linear discriminant functions

Page 54: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

54 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

En el grupo de mujeres con tres o máshijos la variable edad -v012- es másimportante en la identificación de estegrupo.

El lugar de residencia -v0251-(urbano /rural) explica también las diferencias en elnúmero de hijos de las mujeres. Elcoeficiente estimado es más alto para elgrupo de mujeres con tres y más hijos.

El nivel educativo -v1061- es para el grupode mujeres sin hijos más determinante.Comprobándose empíricamente larelación "a mayor nivel educativo menornúmero de hijos".

El estado conyugal -v5011-(nunca unidad/ unida) es más importantes en las mujerescon tres o mas hijos. Se comprueba quelas mujeres unidas tienden a tener máshijos que las no unidas.

La condición de actividad es másdeterminante en la disminución del

número de hijos. Así, las mujeres quetienen menos hijos son aquellas quetienen ocupación laboral.

La constante (constant) comprende todoaquello que no es explicado por lasvariables consideradas en el modelo. Parael ejemplo, esta constante crece enrelación directa al número de hijos, porello se recomienda considerar másvariables a fin de reducir esta constante.

Clasificación de las unidades deacuerdo a las funciones discriminantes

Los puntajes discriminantes llevanasociadas una probabilidad, la cual seconvierte en una regla de clasificación delas unidades de análisis. Esta regla se basaen el teorema de Bayes. La probabilidadque una unidad de análisis con un puntajediscriminante, pertenezca a uno de los tresgrupos (mujeres sin hijos, con uno o doshijos y con tres o mas hijos) se estimamediante la siguiente expresión:

Esta expresión significa lo siguiente: ¿Cuáles la probabilidad que una unidad deanálisis con un puntaje discriminantepertenezca a alguno de los tres grupos?Esta probabilidad viene dada por elcociente de dos expresiones. La primeraexpresión es el numerador, donde semultiplica la probabilidad condicional queuna unidad de análisis pertenezca a algunode los tres grupos, por la probabilidad apriori, que en este caso viene a ser igualpara todas ("all groups equal"). Eldenominador, es la sumatoria de lascombinaciones de las probabilidadescondicionales para cada uno de los grupos.

Determinadas las probabilidadesposteriores, la unidad de análisis perteneceal grupo cuya probabilidad calculada ha sidola mayor. Estos resultados se muestran enuna tabla desagregada, siempre que seactive la opción "Display-Casewise results-limit cases to first ". Los resultados globalesse presentan en una tabla resumen, enuna matriz denominada "matriz deconfusión". En la diagonal principal, de estatabla, se presentan el número de casoscorrectamente clasificados, es deciraquellos que coinciden con la clasificacióna priori. Por encima y por debajo de ladiagonal, se muestran los casos que a priori

P (Gi/D) = P (D/Gi) P(Gi)

S(D/Gi)P(Gi)

i = 1

Page 55: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 55

Dirección Técnica de Demografía e Indicadores Sociales

se clasificaban en una categoría y luegopor el análisis discriminante han cambiadode categoría. En el ejemplo, si en el análisisrealizado se encuentra el 30%perteneciendo a una de las tres categorías,implica que las variables seleccionadas no

han tenido efecto en la conformación delos grupos.

En el ejemplo desarrollado se muestra latabla siguiente que resume los resultadosdel análisis realizado:

7997 648 267 8912

1697 5031 1722 8450

433 2195 7853 10481

89.7 7.3 3.0 100.0

20.1 59.5 20.4 100.0

4.1 20.9 74.9 100.0

7997 648 267 8912

1697 5031 1722 8450

433 2195 7853 10481

89.7 7.3 3.0 100.0

20.1 59.5 20.4 100.0

4.1 20.9 74.9 100.0

REV201 Nº DE HIJOS1.00 NO TIENE

2.00 1 A 2

3.00 3 A MAS HIJOS

1.00 NO TIENE

2.00 1 A 2

3.00 3 A MAS HIJOS

1.00 NO TIENE

2.00 1 A 2

3.00 3 A MAS HIJOS

1.00 NO TIENE

2.00 1 A 2

3.00 3 A MAS HIJOS

Count

%

Count

%

Original

Cross-validated a

1.00 NOTIENE 2.00 1 A 2

3.00 3 AMAS HIJOS

Predicted Group Membership

Total

Cross validation is done only for those cases in the analysis. In cross validation, each case isclassified by the functions derived from all cases other than that case.

a.

75.0% of original grouped cases correctly classified.b.

75.0% of cross-validated grouped cases correctly classified.c.

Classificationb,c

En la sección "original" los valores de ladiagonal de la tabla indican los casosclasificados correctamente en los grupos.En el primer grupo (mujeres sin hijos)existen 89.7% de casos correctamenteclasificados, en el grupo de mujeres conuno a dos hijos existen 59.5% de casoscorrectamente clasificados, mientras queen el grupo de mujeres con tres o mashijos existe un 74.9% de casos en que laclasificación original coincide con laclasificación hallada por el métodoindirecto.

En promedio el 75% de los casos de lamuestra, para los tres grupos de mujeres,la clasificación original ha coincidido conla clasificación hallada por métodosindirectos. Esto indica que el análisisrealizado ha sido efectivo.

Otros criterios estadísticos paradeterminar la calidad del análisis

Existen otros criterios estadísticos para evaluarla calidad de la Función Discriminante, entreellos tenemos:

1. Los histogramas de los puntajesdiscriminantes para cada uno de losgrupos, en lo cuales debe verificarse ladistribución normal de dichos puntajes ydetectar la existencia de valores extremos.

2. Los eigen-value o valores propios, queexplican un porcentaje de la varianza total.En la medida que el mayor porcentajede varianza, sea explicado por ellos, laefectividad del método será mejor.

3. La alta correlación entre los puntajesdiscriminantes y cada variableindependiente.

Page 56: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

56 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

7. Principales conclusiones delanálisis discriminante realizado

Las hipótesis planteadas se han contrastadocon los datos de la encuesta. Así, se hapodido determinar que la variable másexplicativa del número de hijos de lasmujeres en edad fértil, es el niveleducativo, comprobándose la validez dela primera hipótesis.

Otras variables que contribuyen aestablecer diferencias entre las mujeressin hijos y las mujeres con hijos son laedad, el lugar de residencia (urbano, rural),la condición de ocupado (trabaja, notrabaja) y el estado conyugal (Nunca unida,unida). Los datos confirman la segundahipótesis e incorporan una variableadicional (estado conyugal) comoexplicativa de estas diferencias.

En cuanto al Modelo

El análisis realizado ha permitidocomprobar empíricamente que existendiferencias entre las mujeres en edad fértilsin hijos, con uno o dos y con tres o máshijos, las cuales se deben principalmentea las variables edad, nivel educativo, lugarde residencia y estado conyugal. Esto secomprueba al interpretar los indicadorescomo el Test M de Box y el Lambdade Wilks. Estas pruebas permitencomprobar la pertinencia del modeloanalizado e identificar las variables másdiscriminatorias.

Además la tabla "Classification Results"resume los resultados de la clasificaciónrealizada. Así, a mayor porcentaje decoincidencias entre la clasificación a priorideterminada y la obtenida por el modelodiscriminante será más efectiva lacontribución del modelo a la prediccióndel comportamiento de la variabledependiente.

En cuanto a la Consistencia de losDatos: En la tabla "Statistical Groups" semuestran el promedio y la desviaciónestándar a partir de las cuales se puedecalcular el coeficiente de variabilidad paracada grupo. Este valor debe ser muysemejante en los diferentes grupos.Además, las varianzas de los gruposconformados deben ser muy parecidasmientras que entre los promedios seespera encontrar ciertas diferencias. Estosvalores calculados permitirán evaluar laconsistencia de los datos, comparándoselos resultados esperados con los obtenidos.Así, podrán encontrarse las variables quepresenta la mayor distorsión respecto alconjunto general de información y revisarla base de datos correspondiente. Porejemplo, en el caso analizado la variableedad es más homogénea en los gruposde mujeres con tres o más hijos que entreaquellas que no los tienen. Estecomportamiento observado está deacuerdo al comportamiento esperado enla población, por lo cual podemos concluirque los datos para esta variable sonconsistentes.

La matriz de covarianzas tambiéncontribuye al análisis de la información porcuanto el signo de los coeficientescalculados se espera tenga correspondenciacon el comportamiento teórico de lavariable. En el ejemplo, se conoce que elnúmero de hijos de las mujeres tiene unarelación directa con el nivel educativo. Estarelación se verifica empíricamenteobservando los resultados de la matriz decovarianzas.

La tabla en la que se muestra la importanciarelativa de la variable en cada grupoconformado permite evaluar la consistenciade los datos. Así, en el ejemplo la variablenivel educativo explica mejor la ausenciade hijos en las mujeres y la condición deocupado explica más la tenencia de tres omás hijos. Estos resultados al ajustarse alos esperados permiten inferir laconsistencia de la información.

Page 57: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 57

Dirección Técnica de Demografía e Indicadores Sociales

1. Una aplicación eficiente de losmodelos multivariados da lugar a laelaboración de diagramas causales enlos cuales se representen losdiferentes tipos de relación entre lasvariables. Estos diagramas debenelaborarse antes de iniciar laaplicación del análisis mulvitaviado demodo que se facilite el análisisposterior de los resultados.

2. El análisis factorial confirmatorio (AFC)permite reducir la cantidad devariables a investigar y ademásagrupar en factores excluyentes lasmismas

3. La aplicación del AFC es más efectivacuando todas las variables queintervienen son cuantitativas.

4. Cuando intervienen variablescualitativas y cuantitativas en el AFC,los coeficientes de la matriz decorrelación en muchos casos no soninterpretables, debido a que elalgoritmo del programa SPSS, quesirve para calcular este coeficiente seaplica solo a variables cuantitativas.

5. En el modelo factorial las variablesque pertenecen a un factor puedenser reemplazadas entre sí, toda vezque cada factor representa unadimensión del fenómeno social enestudio, de este modo se puedereducir la cantidad de variables sinafectar el objeto en estudio

6. Los conglomerados de unidades deanálisis formados mediante el análisisde conglomerados (AC) tienen lacaracterística de ser homogéneos ydiferir significativamente entre sí.

VI. CONCLUSIONES

7. Para alcanzar mayor efectividad conel AC se requiere que las variablesse representen al menos en unaescala ordinal.

8. Si el objetivo del investigador es tenerlas variables más representativas decada dimensión del fenómeno enestudio, se recomienda aplicar el AFC,antes del AC, de este modo segarantiza que las variablesseleccionadas representen unadimensión diferente del fenómeno enestudio.

9. El análisis discriminante clasificatorio(ADC) permite la disposición de lasunidades de análisis en grupos, deacuerdo a ciertos criterios a priorifijados y en función de un conjuntode variables. A diferencia del ACdonde se desconoce la cantidad degrupos a conformar, en el ADC estenúmero es conocido a priori y lo quese procura es encontrar las variablesque contribuyen más a laconformación de estos grupos

10. Se recomienda utilizar el análisisdiscriminante clasificatorio (ADC)cuando las variables estén expresadasen al menos una escala ordinal.

11. Para evaluar la consistencia de losdatos formule un modelo causalhipotético y aplique el AFC. A fin decomprobar la naturaleza de la relaciónentre las variables y los supuestos apriori de tal manera que los datos seanconfirmatorios de tales supuestos, encaso contrario deben ser evaluadosnuevamente.

Page 58: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

58 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

12. La evaluación de la consistencia delos datos aplicando el AC, se efectúaa partir del análisis las medias y lasvarianzas calculadas para cada clustero conglomerado. Las varianzas altasen los cluster indican la probablepresencia de valores extremos en labase de datos, por lo cual serecomienda verificar estos datos,potencialmente influyentes.

12. Una de las aplicaciones del análisisdiscriminante para evaluar laconsistencia de los datos consiste encalcular los puntajes discriminantescon los cuales se puede clasificar lasunidades de análisis en gruposexcluyentes. Al observar elporcentaje de coincidencias entre laclasificación a priori y la resultante delanálisis discriminante, se espera uporcentaje de coincidenciassuperiores al 60%, caso contrario serecomienda revisar la base de datos.

13. Las aplicaciones del análisismultivariado son diversas, lasmostradas en esta guía constituyensólo una pequeña fracción de sus usosposibles. Así, el modelo factorial esútil además para evaluar las políticasaplicadas en determinado sector dela economía a través del análisis de lamagnitud de los coeficientesfactoriales estimados en el modelo.El análisis cluster además puedeaplicarse para la selección de variablesde las encuestas de hogares, a partirde los conglomerados conformados.Otras aplicaciones del análisisdiscriminante permitirán predecir elcomportamiento de cierto grupo deindividuos a partir del conocimientode las variables explicativas delmodelo discriminante y determinar elperfil de un individuo a partir delpuntaje discriminante calculado, loque facilitará la aplicación de políticasfocalizadas.

Page 59: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 59

Dirección Técnica de Demografía e Indicadores Sociales

1. Las técnicas de análisis multivariadoexplicadas deben ser vistas como uncomplemento al análisis descriptivode los datos, sin las cuales no sepodría alcanzar un conocimientocompleto del problema ni aplicar laspruebas estadísticas más apropiadaspara confirmar las hipótesisplanteadas.

2. Para la formulación de los modeloses importante tener un conocimientoteórico de las relaciones entre lasvariables de tal manera que losprocesos iterativos de estimaciónconduzcan a resultados consistentes.

3. Los modelos multivariados dedependencia (discriminante yregresión por ejemplo) no estánexentos de algunas deficiencias. Asíla relación de causalidad entre lasvariables fijada como supuesto inicialen estos modelos puede ocultar elverdadero sentido de la relaciónquedando sus efectos confundidoscon las variables explícitamenteconsideradas. Por ejemplo, se esperaque el nivel educativo tenga unafuerte relación con los ingresos y el

VII. RECOMENDACIONES

lugar de residencia. Aunque puedenexistir poblaciones donde estarelación se muestre en otro sentido.Por ello se recomienda realizarpruebas repetidas para contrastar losresultados obtenidos.

4. Cuando se analiza de las encuestasde corte transversal generalmente elinvestigador es un observador pasivocon poco control sobre los resultados.Por ello las pruebas multivariadas queposteriormente se efectúen debencontar con un marco conceptual detal manera que las relaciones entrelas variables (magnitud y el signo delos coeficientes del modelo) tenganun sólido fundamento teórico. Así,cualquier resultado alejado delesperado será atribuible a los datos.

5. El INEI también cuenta coninformación de encuestas panel a lascuales se recomienda aplicar lastécnicas multivariadas desarrolladas,a fin de obtener los coeficientes quepermitan analizar los ciclos ytendencias del fenómeno social enestudio.

Page 60: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

60 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

Page 61: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 61

Dirección Técnica de Demografía e Indicadores Sociales

1. Bienvenido Visauta Vinacua,"Modelos Causales" - EditorialHispano Europea, España 1986.

2. Bienvenido Visauta Vinacua,"Análisis Estadístico con SPSS paraWindows" - Mc Graw Hill, VolumenII Estadística Multivariante 1998.

3. Andrew L. Comrey, "Manual delAnálisis Factorial " - Cátedra, España1985.

Referencias Bibliográfícas

4. Manuel Mora y Araujo, PaulLazarsfeld, Warren Torgenson, yotros, "Medición y Construcción deIndices" - Editorial Nueva Visión, Ar-gentina 1971.

5. Programa MECOVI PERU,"Compendio de CuestionariosTrimestrales en la Encuesta Nacionalde Hogares" - Centro de Investigacióne Informática -OTDETI -INEI, Lima,Mayo 2000.

6. Centro de Investigación yDesarrollo - INEI, Setiembre2001, �Variables Investigadas con laENDES�.

Page 62: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

62 · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES

Dirección Técnica de Demografía e Indicadores Sociales

Page 63: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GU

IA PA

RA LA

APLIC

AC

IÓN

DEL A

NA

LISIS MU

LTIVA

RIAD

O A

LAS EN

CU

ESTAS D

E HO

GA

RES · 63

Dirección Técnica de D

emografía e Indicadores Sociales

ANEXO Nº 1

ETAPAS PARA REALIZAR EL ANÁLISIS MULTIVARIADO

2.SELECCIÓN DE

TÉCNICAS

MULTIVARIADAS

1.FORMULACION DE

UN MODELO

MULTIVARIADO

3.ESTIMACIÓN DE

COEFICIENTES E

INDICADORES

4.ANÁLISIS E

INTERPRETACION

DE LOS

RESULTADOS

Page 64: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

64 · GU

IA PA

RA LA

APLIC

AC

IÓN

DEL A

NA

LISIS MU

LTIVARIA

DO

A LA

S ENC

UESTA

S DE H

OG

ARES

Dirección Técnica de D

emografía e Indicadores Sociales

ANEXO Nº 2

1. FORMULACION DE UN MODELO MULTIVARIADO

1.2FORMULACION

DE MODELOS

ANALITICOS

1.1NATURALEZA DE

LA RELACION

ENTRE LAS

VARIABLES

MODELOFACTORIAL

MODELO DECOVARIANZA

¿LAS VARIABLES SONDEPENDIENTES?

¿EXISTE INTERDEPENDENCIAENTRE LAS VARIABLES?

ANALISIS TRANSVERSAL YTEMPORAL DE LOS DATOS

SUPUESTOS TEORICOS

ANÁLISIS ESTADÍSTICO

MATRIZ DE

DISTANCIAS

MODELO DEREGRESION

Page 65: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

GU

IA PA

RA LA

APLIC

AC

IÓN

DEL A

NA

LISIS MU

LTIVA

RIAD

O A

LAS EN

CU

ESTAS D

E HO

GA

RES · 65

Dirección Técnica de D

emografía e Indicadores Sociales

ANEXO Nº 3

2. PRINCIPALES TÉCNICAS MULTIVARIADAS

2.1

CLASIFICACION

DE VARIABLES O

UNIDADES DE

ANALISIS

2.2

REDUCCIÓN

DE DATOS

ANÁLISIS

DISCRIMINANTE

ANÁLISIS DE

CONGLOMERADOS

ANÁLISIS

FACTORIAL

Page 66: GUIA PARA LA APLICACIÓN DEL ANALISIS … · GUIA PARA LA APLICACIÓN DEL ANALISIS MULTIVARIADO A LAS ENCUESTAS DE HOGARES · 3 Dirección TØcnica de Demografía e Indicadores Sociales

66 · GU

IA PA

RA LA

APLIC

AC

IÓN

DEL A

NA

LISIS MU

LTIVARIA

DO

A LA

S ENC

UESTA

S DE H

OG

ARES

Dirección Técnica de D

emografía e Indicadores Sociales

ANEXO Nº 4

3. CONSISTENCIA DE LOS RESULTADOS

3.1

CONSISTENCIA DELAS ESTIMACIONES

ANÁLISISDESCRIPTIVO3.2

CONSISTENCIA DELAS ESTIMACIONES

ANÁLISISGRAFICO

MATRIZ DE DISTANCIAS

EIGEN VALOR-

COMPONENTE

MATRIZ DE VARIANZA

COVARIAZA INTRAGRUPO

MATRIZ DE CORRELACION

ENTRE GRUPOOS

ANÁLISIS DE VARIANZA

MAPA TERRITORIAL

(DISCRIMINANTE)

DENDOGRAMA

(CONGLOMRADO)