Analisis de Correspondencia Simple

30
AÑO DE LA INVERSION NACIONAL PARA EL DESARROLLO RURAL Y LA SEGURIDAD ALIMENTARIA UNIVERSIDAD NACIONAL AGRARIA LA MOLINA FACULTAD DE ECONOMIA Y PLANIFICACIÓN NOMBRE: GIOVANA VILLAVICENCIO DURAND CURSO: ESTADISTICA APLICADA A LOS NEGOCIOS II TEMA: ANALISIS DE CORRESPONDENCIA SIMPLE PROFESOR: RINO SOTOMAYOR FECHA: 07/ 11/ 2013 1

Transcript of Analisis de Correspondencia Simple

ANtildeO DE LA INVERSION NACIONAL PARA EL DESARROLLO RURAL Y LA SEGURIDAD ALIMENTARIA

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

FACULTAD DE ECONOMIA Y PLANIFICACIOacuteN

NOMBRE GIOVANA VILLAVICENCIO DURAND

CURSO ESTADISTICA APLICADA A LOS NEGOCIOS II

TEMA ANALISIS DE CORRESPONDENCIA SIMPLE

PROFESOR RINO SOTOMAYOR

FECHA 07 11 2013

1

INDICE

INTRODUCCION3

I ANALISIS DE CORRESPONDENCIA4

II PLANTEAMIENTO DEL PROBLEMA5

III DEPENCIA E INDEPENDENCIA EN TABLAS DE CORRESPONDENCIA7

IV ANALISIS DE RESIDUOS8

V ANALISIS DE CORRESPONDENCIA SIMPLE9

VI ELEMENTOS SUPLEMENTARIOShelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

VII CASO PRACTICOhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

VIII CONCLUSIONEShelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

IX BIBLIOGRAFIAhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

2

INTRODUCCION

El Anaacutelisis de Correspondencias es una teacutecnica descriptiva o exploratoria cuyo objetivo es resumir una gran cantidad de datos en un nuacutemero reducido de dimensiones con la menor peacuterdida de informacioacuten posible En este aspecto su objetivo es similar al de los meacutetodos factoriales salvo que en el caso del anaacutelisis de correspondencias el meacutetodo se aplica sobre variables categoacutericas u ordinales

El anaacutelisis de correspondencias simples se utiliza a menudo en la representacioacuten de datos que se pueden presentar en forma de tablas de contingencia de dos variables nominales u ordinales Otras utilizaciones implican el tratamiento de tablas de proximidad o distancia entre elementos y tablas de preferencias

Si nos centramos en una tabla de contingencia de dos variables cualitativas con una variable cuyas categoriacuteas aparecen en filas y la otra variable cuyas categoriacuteas son representadas en columnas el anaacutelisis de correspondencias consiste en resumir la informacioacuten presente en las filas y columnas de manera que pueda proyectarse sobre un subespacio reducido y representarse simultaacuteneamente los puntos fila y los puntos columna pudieacutendose obtener conclusiones sobre relaciones entre las dos variables nominales u ordinales de origen

Asiacute si la variable cualitativa fila representa diferentes productos de mercado (Fanta Zumosol etc) y la variable columna diferentes percepciones de clientes sobre esos productos (sabroso fuerte dulcehellip) el anaacutelisis de correspondencias produce un graacutefico con dos ejes en los cuales cada categoriacutea fila y cada categoriacutea columna estaacuten representadas por puntos distintos Se observa por ejemplo que siguiendo la direccioacuten de un eje a la izquierda estaacuten las categoriacuteas-fila dulce suave empalagoso y a la derecha seco amargo fuerte y se ve tambieacuten que las categoriacuteas-columna Fanta y Coca-cola estaacuten a la izquierda y Champaacuten a la derecha Asiacute se podraacuten establecer relaciones entre variables (en este caso la variable fila) e individuos (variable columna) Igualmente se puede razonar tomando como referencia el otro eje del graacutefico y tambieacuten tener en cuenta el nivel de contribucioacuten o importancia relativa de cada punto o categoriacutea para ayudar a una interpretacioacuten correcta

La extensioacuten del anaacutelisis de correspondencias simples al caso de varias variables nominales (tablas de contingencia multidimensionales) se denomina Anaacutelisis de Correspondencias Muacuteltiples y utiliza los mismos principios generales que la teacutecnica anterior En general se orienta a casos en los cuales una variable representa iacutetems o individuos y el resto son variables cualitativas u ordinales que representan cualidades

3

I ANAacuteLISIS DE CORRESPONDENCIAS (AC)

Es una teacutecnica descriptiva o exploratoria cuyo objetivo es resumir una gran cantidad de datos en un nuacutemero reducido de dimensiones con la menor peacuterdida de informacioacuten posibleEn esta liacutenea su objetivo es similar al de los meacutetodos factoriales salvo que en el caso del anaacutelisis de correspondencias el meacutetodo se aplica sobre variables categoacutericas u ordinales

El anaacutelisis de correspondencias simples se utiliza a menudo en la representacioacuten de datos que se pueden presentar en forma de tablas de contingencia de dos variables nominales u ordinales Otras utilizaciones implican el tratamiento de tablas de proximidad o distancia entre elementos y tablas de preferencias

Si se trata de una tabla de contingencia de dos variables cualitativas una variable cuyas categoriacuteas aparecen en filas y la otra variable cuyas categoriacuteas son representadas en columnas el anaacutelisis de correspondencias consiste en resumir la informacioacuten presente en las filas y columnas de manera que pueda proyectarse sobre un sub-espacio reducido y representarse simultaacuteneamente los puntos fila y los puntos columna pudieacutendose obtener conclusiones sobre relaciones entre las dos variablesnominales u ordinales de origen

La extensioacuten del anaacutelisis de correspondencias simples al caso de varias variables nominales (tablas de contingencia multidimensionales) se denomina Anaacutelisis de Correspondencias Muacuteltiples y utiliza los mismos principios generales que la teacutecnica anterior En general se orienta a casos en los cuales una variable representa iacutetems o individuos y el resto son variables cualitativas u ordinales que representan cualidades

Entre la utilizacioacuten del Anaacutelisis de Correspondencias Simple y Muacuteltiple estudios

Preferencias de consumo en Investigacioacuten de Mercados Posicionamiento de empresas a partir de las preferencias de consumidores Buacutesqueda de tipologiacuteas de individuos respecto a variables cualitativas (patrones de enfermedades en medicina perfiles psicoloacutegicos comportamiento de especies en

biologiacutea etc)

El Anaacutelisis de Correspondencias tiene dos objetivos baacutesicos

Asociacioacuten entre categoriacuteas de columnas o filas Medir la asociacioacuten de solo una fila o columna para ver por ejemplo si las modalidades de una variable pueden ser combinadas

Asociacioacuten entre categoriacuteas de filas y columnas Estudiar si existe relacioacuten entre categoriacuteas de las filas y columnas

El anaacutelisis de correspondencias solo requiere que los datos representen las respuestas a una serie de preguntas y que esteacuten organizadas en categoriacuteas Dependiendo si existen dos o maacutes variables el anaacutelisis seraacute simple o muacuteltipleUn anaacutelisis de correspondencias en SPSS AnalizarReduccioacuten de datosAnaacutelisis de correspondencias

II PLANTEAMIENTO DEL PROBLEMA

4

El Anaacutelisis de Correspondencias es una teacutecnica estadiacutestica que se utiliza para analizar desde un punto de vista graacutefico las relaciones de dependencia e independencia de un conjunto de variables categoacutericas a partir de los datos de una tabla de contingencia

Para ello asocia a cada una de las modalidades de la tabla un punto en el espacio Rn (generalmente n=2) de forma que las relaciones de cercaniacutealejaniacutea entre los puntos calculados reflejen las relaciones de dependencia y semejanza existentes entre ellas

Se comienza analizando el problema bidimensional que es el que analiza el Anaacutelisis de Correspondencias propiamente dicho Posteriormente se trata brevemente del problema n‐dimensional (nge3) que es el problema que analiza el Anaacutelisis de Correspondencias Muacuteltiples

Sea X e Y dos variables categoacutericas respectivamente con valores x1 xk e y1 ym Se observan dichas variables en N elementos de una poblacioacuten La interseccioacuten entre una fila y una columna da lugar a una celda o casilla cuya frecuencia observada es nij

Los PERFILES MARGINALES describen la distribucioacuten marginal de las variables X e Y respectivamente se reflejan en las siguientes tablas

5

Los PERFILES CONDICIONALES describen las distribuciones condicionadas asociadas a la Tabla deCorrespondencias

Los perfiles fila describen las distribuciones condicionadas de la variable Y por las distintas modalidades de la variable X Se obtienen a partir de la Tabla de Correspondencias y el perfil marginal de X mediante las siguientes expresiones

Los perfiles columna describen las distribuciones condicionadas de la variable X por las distintas modalidades de la variable Y Se obtienen a partir de la tabla de correspondencias y el perfil marginal de X mediante las siguientes expresiones

6

Trabajar con perfiles facilita la interpretacioacuten pero tambieacuten puede producir una visioacuten equivocada de la relacioacuten entre variables en la medida que todos los puntos tienen la misma importancia los marginales de los perfiles y columna son iguales a 1 Para evitar este problema el anaacutelisis de correspondencias deberaacute utilizar una distancia que no olvide las diferencias entre los efectivos de cada liacutenea (o columna) La distancia chi‐cuadrado cumple la condicioacuten de ponderar cada perfil por un peso Asiacute cada fila (o columna) estaacute afectada de un peso proporcional a su importancia en el conjunto peso conocido como masa Al considerar cada punto con una masa proporcional a su frecuencia se evita privilegiar las categoriacuteas con pocos efectivos Se trata de hecho de una distancia eucliacutedea ponderada por el inverso de la masa de las columnas cuando se mide la distancia entre filas o por la masa de las filas para la distancia entre las columnas

La distancia chi‐cuadrado cumple el principio de la equivalencia distribucional que postula que si dos categoriacuteas tienen perfiles ideacutenticos pueden ser sustituidas por una sola categoriacutea que sea la suma de sus pesos sin que con ello se modifique la distancia entre las filas o columnas La importancia de esta propiedad estriba en que garantiza la estabilidad en los resultados con independencia de la codificacioacuten en las variables de modo que es posible agrupar categoriacuteas que tienen perfiles coincidentes tanto por filas como por columnas Si el resultado se mantiene estable tras unir categoriacuteas de igual modo estos resultados no mejoran al realizar maacutes subdivisiones de categoriacuteas homogeacuteneas

III DEPENDENCIA E INDEPENDENCIA EN TABLAS DE CORRESPONDENCIAS

La existencia o no de alguacuten tipo de relacioacuten entre las variables X e Y se analiza mediante contrastes de hipoacutetesis sobre la independencia de dichas variables El test de hipoacutetesis habitualmente utilizado es el de la Chi‐cuadrado de PearsonSe contrasta la hipoacutetesis nula que presupone la independencia entre ambas variables mediante el estadiacutestico χ2 de Pearson

El test se basa en comparar los perfiles fila y columna con los perfiles marginales correspondientes considerando que si H0 es cierta todos los perfiles fila (respecto columna) son iguales entre siacute e iguales al perfil marginal de X (respecto de Y)

Se define el estadiacutestico observado

7

Si la hipoacutetesis nula se rechaza las variables X e Y son dependientes En este caso conviene analizar los perfiles condicionales fila y columna asiacute como los residuos del modelo para estudiar queacute tipo de dependencia existe entre ellas Los residuos maacutes utilizados son los llamados residuos tipificados corregidos que vienen dados por la expresioacuten

IV ANAacuteLISIS DE LOS RESIDUOS

Los residuos son las diferencias entre la frecuencia observada y la frecuencia esperada en cada casilla rij =nij minuseij En el caso de que el contraste de χ2 haya resultado significativo estos residuos indicaraacuten queacute casillas contribuyen en mayor grado al valor del estadiacutestico

Cuanto mayor sea el valor de los residuos mayor es la probabilidad de que una determinada combinacioacuten de valores de las variables esto es una casilla sea significativa

Para que el anaacutelisis de los residuos resulte adecuado es necesario que previamente eacutestos hayan sido ajustados y estandarizados para lo cual se suele aplicar la foacutermula propuesta por Haberman (1978) que consiste en dividir el valor del residuo en cada casilla por su error tiacutepico

8

V ANAacuteLISIS DE CORRESPONDENCIA SIMPLE

Con los perfiles de filas y columnas descritos se elabora la matriz de coordenadas (distancias) utilizando la distancia chi‐cuadrado que permitiraacute calibrar la magnitud de las diferencias entre la tabla de datos analizada y una tabla de datos sin relacioacuten entre las variables

El meacutetodo consiste en encontrar la descomposicioacuten en valores singulares de la matriz

Para construir un sistema de coordenadas (generalmente bidimensional) asociado a las filas y columnas de la tabla de contingencia que refleje las relaciones existentes entre dichas filas y columnas

En la representacioacuten tienen un papel importante las llamadas distancias χ2 entre perfiles que son las que el anaacutelisis de correspondencias intenta reproducir en sus representaciones graacuteficas Dichas distancias son distancias pitagoacutericas ponderadas entre perfiles que vienen dadas por las siguientes expresiones

Las distancias no se miden entre dos filas o dos columnas sino con relacioacuten al perfil medio de fila o columna es decir con relacioacuten al promedio de las coordenadas de esa fila (o columna) ponderada por su masa (peso proporcional a su importancia en el conjunto)

Este perfil medio apareceraacute situado en el origen de coordenadas y es conocido como centro de gravedad La media de las distancias al cuadrado de cada punto de fila al centro de gravedad se conoce como inercia de filas o inercia de columnas cuando se trata de las columnas e inercia total de la nube de puntos cuando se consideran todos los elementos de la tabla Una inercia baja significa que todos los productos estaacuten situados muy cerca del centro de gravedad y que en consecuencia son muy similares mientras que altos valores de inercia en determinadas categoriacuteas implican grandes diferencias del perfil medio de las filas o las columnas

Posteriormente se procede a diagonalizar la matriz C de varianza‐covarianza con el fin de obtener los vectores y valores propios que definiraacuten los nuevos ejes sobre los que seraacute proyectada la nube de puntos Cuando la cantidad de inercia explicada con los primeros factores sea alta bastaraacute con seleccionar un pequentildeo nuacutemero de eacutestos (dos o tres) y representar la nube de puntos sobre graacuteficos de dos o tres dimensiones obteniendo asiacute una visioacuten simplificada de las relaciones

9

El anaacutelisis de correspondencias busca encontrar dos matrices (A B) de coordenadas cartesianas

Hay diversas formas de calcular las matrices A y B conocidas como normalizaciones Una forma muy utilizada es la conocida como normalizacioacuten simeacutetrica o canoacutenica (ACC) que busca satisfacer que el producto escalar (ai bj) sea proporcional a los residuos tipificados rij

La normalizacioacuten simeacutetrica o canoacutenica descompone la matriz C = (rij) en valores singulares calculando matrices Ukxh D y Vmxh con H = miacutenimo k‐1 m‐1 tales que C=UDV siendo UU=VV=I D = diagonal μ1 μ2 μH donde μi equiv valores singulares (i = 1 H)

10

11

Se utilizan para analizar las proximidades entre los puntos haciendo hincapieacute en aquellos factores cuyas contribuciones sean maacutes elevadas cuando se desea explicar dichas proximidades

VI ELEMENTOS SUPLEMENTARIOS

Son filas o columnas de la tabla de contingencia no utilizadas en el caacutelculo de los ejes factoriales pero que una vez calculados eacutestos se situacutean en el diagrama cartesiano con el fin de ayudar en la interpretacioacuten de los resultados obtenidos Sus coordenadas se calculan utilizando las relaciones bariceacutentricas existentes entre los puntos fila y columna

12

VII CASO PRAacuteCTICO

Los siguientes datos corresponden a la distribucioacuten del nuacutemero de parados de tres provincias de Castilla‐Leoacuten en el antildeo 2005 clasificados por Sexo Provincia y Nivel de Estudios

PRIMER ANAacuteLISIS DE LA INFORMACIOacuteN Se comienza con un anaacutelisis univariado de las variables consideradas con la finalidad de identificar determinados patrones de comportamiento

Se solicitan los porcentajes de fila y columna

bull Al comparar los porcentajes de fila se observa que un 98 de los Hombres de Avila parados tienen un nivel de estudios primario (cifra que contrasta a la correspondiente distribucioacuten marginal en la que uacutenicamente un 2 de los parados poseen dicho nivel de estudios) mientras que en Mujeres de Soria paradas un 08 tienen estudios primarios

13

bull Al comparar los porcentajes columna por ejemplo se observa que un 169 de los parados con un nivel de estudios primario son Hombres de Aacutevila (cifra mucho maacutes elevada que la correspondiente a la distribucioacuten marginal en la que tan soacutelo un 34 son Hombres de Aacutevila)

Para interpretar el interior de la tabla desde un punto de vista praacutectico es maacutes sencillo utilizar los residuos estandarizados corregidos

En los residuos estandarizados corregidos la mayor parte son mayores que 2 en valor absoluto (a un nivel del 95 de confianza residuos con un valor absoluto mayor que 2 se consideran como valores anormalmente altos)

Observando ademaacutes el patroacuten de los signos

bull Los residuos positivos para los hombres tienden a situarse en los niveles de estudios maacutes bajos (estudios primarios y certificado escolar) y para las mujeres en los niveles de estudios superiores (graduado escolar bachillerato y diplomados en todas las provincias formacioacuten profesional en Burgos y Soria y universitario en Soria)

14

En la parte inferior del cuadro de diaacutelogo aparecen una serie de Restricciones para las categoriacuteas que permiten unir las categoriacuteas o definir una categoriacutea como suplementaria La reduccioacuten del nuacutemero de categoriacuteas activas que se origina al unir categoriacuteas o definir determinadas categoriacuteas como suplementarias estaacute sujeta a ciertas restricciones (a) el nuacutemero maacuteximo de categoriacuteas que pueden unirse equivale al total de categoriacuteas menos 1 (b) el nuacutemero maacuteximo de categoriacuteas suplementarias es el total de categoriacuteas menos 2

15

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

INDICE

INTRODUCCION3

I ANALISIS DE CORRESPONDENCIA4

II PLANTEAMIENTO DEL PROBLEMA5

III DEPENCIA E INDEPENDENCIA EN TABLAS DE CORRESPONDENCIA7

IV ANALISIS DE RESIDUOS8

V ANALISIS DE CORRESPONDENCIA SIMPLE9

VI ELEMENTOS SUPLEMENTARIOShelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12

VII CASO PRACTICOhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip13

VIII CONCLUSIONEShelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23

IX BIBLIOGRAFIAhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24

2

INTRODUCCION

El Anaacutelisis de Correspondencias es una teacutecnica descriptiva o exploratoria cuyo objetivo es resumir una gran cantidad de datos en un nuacutemero reducido de dimensiones con la menor peacuterdida de informacioacuten posible En este aspecto su objetivo es similar al de los meacutetodos factoriales salvo que en el caso del anaacutelisis de correspondencias el meacutetodo se aplica sobre variables categoacutericas u ordinales

El anaacutelisis de correspondencias simples se utiliza a menudo en la representacioacuten de datos que se pueden presentar en forma de tablas de contingencia de dos variables nominales u ordinales Otras utilizaciones implican el tratamiento de tablas de proximidad o distancia entre elementos y tablas de preferencias

Si nos centramos en una tabla de contingencia de dos variables cualitativas con una variable cuyas categoriacuteas aparecen en filas y la otra variable cuyas categoriacuteas son representadas en columnas el anaacutelisis de correspondencias consiste en resumir la informacioacuten presente en las filas y columnas de manera que pueda proyectarse sobre un subespacio reducido y representarse simultaacuteneamente los puntos fila y los puntos columna pudieacutendose obtener conclusiones sobre relaciones entre las dos variables nominales u ordinales de origen

Asiacute si la variable cualitativa fila representa diferentes productos de mercado (Fanta Zumosol etc) y la variable columna diferentes percepciones de clientes sobre esos productos (sabroso fuerte dulcehellip) el anaacutelisis de correspondencias produce un graacutefico con dos ejes en los cuales cada categoriacutea fila y cada categoriacutea columna estaacuten representadas por puntos distintos Se observa por ejemplo que siguiendo la direccioacuten de un eje a la izquierda estaacuten las categoriacuteas-fila dulce suave empalagoso y a la derecha seco amargo fuerte y se ve tambieacuten que las categoriacuteas-columna Fanta y Coca-cola estaacuten a la izquierda y Champaacuten a la derecha Asiacute se podraacuten establecer relaciones entre variables (en este caso la variable fila) e individuos (variable columna) Igualmente se puede razonar tomando como referencia el otro eje del graacutefico y tambieacuten tener en cuenta el nivel de contribucioacuten o importancia relativa de cada punto o categoriacutea para ayudar a una interpretacioacuten correcta

La extensioacuten del anaacutelisis de correspondencias simples al caso de varias variables nominales (tablas de contingencia multidimensionales) se denomina Anaacutelisis de Correspondencias Muacuteltiples y utiliza los mismos principios generales que la teacutecnica anterior En general se orienta a casos en los cuales una variable representa iacutetems o individuos y el resto son variables cualitativas u ordinales que representan cualidades

3

I ANAacuteLISIS DE CORRESPONDENCIAS (AC)

Es una teacutecnica descriptiva o exploratoria cuyo objetivo es resumir una gran cantidad de datos en un nuacutemero reducido de dimensiones con la menor peacuterdida de informacioacuten posibleEn esta liacutenea su objetivo es similar al de los meacutetodos factoriales salvo que en el caso del anaacutelisis de correspondencias el meacutetodo se aplica sobre variables categoacutericas u ordinales

El anaacutelisis de correspondencias simples se utiliza a menudo en la representacioacuten de datos que se pueden presentar en forma de tablas de contingencia de dos variables nominales u ordinales Otras utilizaciones implican el tratamiento de tablas de proximidad o distancia entre elementos y tablas de preferencias

Si se trata de una tabla de contingencia de dos variables cualitativas una variable cuyas categoriacuteas aparecen en filas y la otra variable cuyas categoriacuteas son representadas en columnas el anaacutelisis de correspondencias consiste en resumir la informacioacuten presente en las filas y columnas de manera que pueda proyectarse sobre un sub-espacio reducido y representarse simultaacuteneamente los puntos fila y los puntos columna pudieacutendose obtener conclusiones sobre relaciones entre las dos variablesnominales u ordinales de origen

La extensioacuten del anaacutelisis de correspondencias simples al caso de varias variables nominales (tablas de contingencia multidimensionales) se denomina Anaacutelisis de Correspondencias Muacuteltiples y utiliza los mismos principios generales que la teacutecnica anterior En general se orienta a casos en los cuales una variable representa iacutetems o individuos y el resto son variables cualitativas u ordinales que representan cualidades

Entre la utilizacioacuten del Anaacutelisis de Correspondencias Simple y Muacuteltiple estudios

Preferencias de consumo en Investigacioacuten de Mercados Posicionamiento de empresas a partir de las preferencias de consumidores Buacutesqueda de tipologiacuteas de individuos respecto a variables cualitativas (patrones de enfermedades en medicina perfiles psicoloacutegicos comportamiento de especies en

biologiacutea etc)

El Anaacutelisis de Correspondencias tiene dos objetivos baacutesicos

Asociacioacuten entre categoriacuteas de columnas o filas Medir la asociacioacuten de solo una fila o columna para ver por ejemplo si las modalidades de una variable pueden ser combinadas

Asociacioacuten entre categoriacuteas de filas y columnas Estudiar si existe relacioacuten entre categoriacuteas de las filas y columnas

El anaacutelisis de correspondencias solo requiere que los datos representen las respuestas a una serie de preguntas y que esteacuten organizadas en categoriacuteas Dependiendo si existen dos o maacutes variables el anaacutelisis seraacute simple o muacuteltipleUn anaacutelisis de correspondencias en SPSS AnalizarReduccioacuten de datosAnaacutelisis de correspondencias

II PLANTEAMIENTO DEL PROBLEMA

4

El Anaacutelisis de Correspondencias es una teacutecnica estadiacutestica que se utiliza para analizar desde un punto de vista graacutefico las relaciones de dependencia e independencia de un conjunto de variables categoacutericas a partir de los datos de una tabla de contingencia

Para ello asocia a cada una de las modalidades de la tabla un punto en el espacio Rn (generalmente n=2) de forma que las relaciones de cercaniacutealejaniacutea entre los puntos calculados reflejen las relaciones de dependencia y semejanza existentes entre ellas

Se comienza analizando el problema bidimensional que es el que analiza el Anaacutelisis de Correspondencias propiamente dicho Posteriormente se trata brevemente del problema n‐dimensional (nge3) que es el problema que analiza el Anaacutelisis de Correspondencias Muacuteltiples

Sea X e Y dos variables categoacutericas respectivamente con valores x1 xk e y1 ym Se observan dichas variables en N elementos de una poblacioacuten La interseccioacuten entre una fila y una columna da lugar a una celda o casilla cuya frecuencia observada es nij

Los PERFILES MARGINALES describen la distribucioacuten marginal de las variables X e Y respectivamente se reflejan en las siguientes tablas

5

Los PERFILES CONDICIONALES describen las distribuciones condicionadas asociadas a la Tabla deCorrespondencias

Los perfiles fila describen las distribuciones condicionadas de la variable Y por las distintas modalidades de la variable X Se obtienen a partir de la Tabla de Correspondencias y el perfil marginal de X mediante las siguientes expresiones

Los perfiles columna describen las distribuciones condicionadas de la variable X por las distintas modalidades de la variable Y Se obtienen a partir de la tabla de correspondencias y el perfil marginal de X mediante las siguientes expresiones

6

Trabajar con perfiles facilita la interpretacioacuten pero tambieacuten puede producir una visioacuten equivocada de la relacioacuten entre variables en la medida que todos los puntos tienen la misma importancia los marginales de los perfiles y columna son iguales a 1 Para evitar este problema el anaacutelisis de correspondencias deberaacute utilizar una distancia que no olvide las diferencias entre los efectivos de cada liacutenea (o columna) La distancia chi‐cuadrado cumple la condicioacuten de ponderar cada perfil por un peso Asiacute cada fila (o columna) estaacute afectada de un peso proporcional a su importancia en el conjunto peso conocido como masa Al considerar cada punto con una masa proporcional a su frecuencia se evita privilegiar las categoriacuteas con pocos efectivos Se trata de hecho de una distancia eucliacutedea ponderada por el inverso de la masa de las columnas cuando se mide la distancia entre filas o por la masa de las filas para la distancia entre las columnas

La distancia chi‐cuadrado cumple el principio de la equivalencia distribucional que postula que si dos categoriacuteas tienen perfiles ideacutenticos pueden ser sustituidas por una sola categoriacutea que sea la suma de sus pesos sin que con ello se modifique la distancia entre las filas o columnas La importancia de esta propiedad estriba en que garantiza la estabilidad en los resultados con independencia de la codificacioacuten en las variables de modo que es posible agrupar categoriacuteas que tienen perfiles coincidentes tanto por filas como por columnas Si el resultado se mantiene estable tras unir categoriacuteas de igual modo estos resultados no mejoran al realizar maacutes subdivisiones de categoriacuteas homogeacuteneas

III DEPENDENCIA E INDEPENDENCIA EN TABLAS DE CORRESPONDENCIAS

La existencia o no de alguacuten tipo de relacioacuten entre las variables X e Y se analiza mediante contrastes de hipoacutetesis sobre la independencia de dichas variables El test de hipoacutetesis habitualmente utilizado es el de la Chi‐cuadrado de PearsonSe contrasta la hipoacutetesis nula que presupone la independencia entre ambas variables mediante el estadiacutestico χ2 de Pearson

El test se basa en comparar los perfiles fila y columna con los perfiles marginales correspondientes considerando que si H0 es cierta todos los perfiles fila (respecto columna) son iguales entre siacute e iguales al perfil marginal de X (respecto de Y)

Se define el estadiacutestico observado

7

Si la hipoacutetesis nula se rechaza las variables X e Y son dependientes En este caso conviene analizar los perfiles condicionales fila y columna asiacute como los residuos del modelo para estudiar queacute tipo de dependencia existe entre ellas Los residuos maacutes utilizados son los llamados residuos tipificados corregidos que vienen dados por la expresioacuten

IV ANAacuteLISIS DE LOS RESIDUOS

Los residuos son las diferencias entre la frecuencia observada y la frecuencia esperada en cada casilla rij =nij minuseij En el caso de que el contraste de χ2 haya resultado significativo estos residuos indicaraacuten queacute casillas contribuyen en mayor grado al valor del estadiacutestico

Cuanto mayor sea el valor de los residuos mayor es la probabilidad de que una determinada combinacioacuten de valores de las variables esto es una casilla sea significativa

Para que el anaacutelisis de los residuos resulte adecuado es necesario que previamente eacutestos hayan sido ajustados y estandarizados para lo cual se suele aplicar la foacutermula propuesta por Haberman (1978) que consiste en dividir el valor del residuo en cada casilla por su error tiacutepico

8

V ANAacuteLISIS DE CORRESPONDENCIA SIMPLE

Con los perfiles de filas y columnas descritos se elabora la matriz de coordenadas (distancias) utilizando la distancia chi‐cuadrado que permitiraacute calibrar la magnitud de las diferencias entre la tabla de datos analizada y una tabla de datos sin relacioacuten entre las variables

El meacutetodo consiste en encontrar la descomposicioacuten en valores singulares de la matriz

Para construir un sistema de coordenadas (generalmente bidimensional) asociado a las filas y columnas de la tabla de contingencia que refleje las relaciones existentes entre dichas filas y columnas

En la representacioacuten tienen un papel importante las llamadas distancias χ2 entre perfiles que son las que el anaacutelisis de correspondencias intenta reproducir en sus representaciones graacuteficas Dichas distancias son distancias pitagoacutericas ponderadas entre perfiles que vienen dadas por las siguientes expresiones

Las distancias no se miden entre dos filas o dos columnas sino con relacioacuten al perfil medio de fila o columna es decir con relacioacuten al promedio de las coordenadas de esa fila (o columna) ponderada por su masa (peso proporcional a su importancia en el conjunto)

Este perfil medio apareceraacute situado en el origen de coordenadas y es conocido como centro de gravedad La media de las distancias al cuadrado de cada punto de fila al centro de gravedad se conoce como inercia de filas o inercia de columnas cuando se trata de las columnas e inercia total de la nube de puntos cuando se consideran todos los elementos de la tabla Una inercia baja significa que todos los productos estaacuten situados muy cerca del centro de gravedad y que en consecuencia son muy similares mientras que altos valores de inercia en determinadas categoriacuteas implican grandes diferencias del perfil medio de las filas o las columnas

Posteriormente se procede a diagonalizar la matriz C de varianza‐covarianza con el fin de obtener los vectores y valores propios que definiraacuten los nuevos ejes sobre los que seraacute proyectada la nube de puntos Cuando la cantidad de inercia explicada con los primeros factores sea alta bastaraacute con seleccionar un pequentildeo nuacutemero de eacutestos (dos o tres) y representar la nube de puntos sobre graacuteficos de dos o tres dimensiones obteniendo asiacute una visioacuten simplificada de las relaciones

9

El anaacutelisis de correspondencias busca encontrar dos matrices (A B) de coordenadas cartesianas

Hay diversas formas de calcular las matrices A y B conocidas como normalizaciones Una forma muy utilizada es la conocida como normalizacioacuten simeacutetrica o canoacutenica (ACC) que busca satisfacer que el producto escalar (ai bj) sea proporcional a los residuos tipificados rij

La normalizacioacuten simeacutetrica o canoacutenica descompone la matriz C = (rij) en valores singulares calculando matrices Ukxh D y Vmxh con H = miacutenimo k‐1 m‐1 tales que C=UDV siendo UU=VV=I D = diagonal μ1 μ2 μH donde μi equiv valores singulares (i = 1 H)

10

11

Se utilizan para analizar las proximidades entre los puntos haciendo hincapieacute en aquellos factores cuyas contribuciones sean maacutes elevadas cuando se desea explicar dichas proximidades

VI ELEMENTOS SUPLEMENTARIOS

Son filas o columnas de la tabla de contingencia no utilizadas en el caacutelculo de los ejes factoriales pero que una vez calculados eacutestos se situacutean en el diagrama cartesiano con el fin de ayudar en la interpretacioacuten de los resultados obtenidos Sus coordenadas se calculan utilizando las relaciones bariceacutentricas existentes entre los puntos fila y columna

12

VII CASO PRAacuteCTICO

Los siguientes datos corresponden a la distribucioacuten del nuacutemero de parados de tres provincias de Castilla‐Leoacuten en el antildeo 2005 clasificados por Sexo Provincia y Nivel de Estudios

PRIMER ANAacuteLISIS DE LA INFORMACIOacuteN Se comienza con un anaacutelisis univariado de las variables consideradas con la finalidad de identificar determinados patrones de comportamiento

Se solicitan los porcentajes de fila y columna

bull Al comparar los porcentajes de fila se observa que un 98 de los Hombres de Avila parados tienen un nivel de estudios primario (cifra que contrasta a la correspondiente distribucioacuten marginal en la que uacutenicamente un 2 de los parados poseen dicho nivel de estudios) mientras que en Mujeres de Soria paradas un 08 tienen estudios primarios

13

bull Al comparar los porcentajes columna por ejemplo se observa que un 169 de los parados con un nivel de estudios primario son Hombres de Aacutevila (cifra mucho maacutes elevada que la correspondiente a la distribucioacuten marginal en la que tan soacutelo un 34 son Hombres de Aacutevila)

Para interpretar el interior de la tabla desde un punto de vista praacutectico es maacutes sencillo utilizar los residuos estandarizados corregidos

En los residuos estandarizados corregidos la mayor parte son mayores que 2 en valor absoluto (a un nivel del 95 de confianza residuos con un valor absoluto mayor que 2 se consideran como valores anormalmente altos)

Observando ademaacutes el patroacuten de los signos

bull Los residuos positivos para los hombres tienden a situarse en los niveles de estudios maacutes bajos (estudios primarios y certificado escolar) y para las mujeres en los niveles de estudios superiores (graduado escolar bachillerato y diplomados en todas las provincias formacioacuten profesional en Burgos y Soria y universitario en Soria)

14

En la parte inferior del cuadro de diaacutelogo aparecen una serie de Restricciones para las categoriacuteas que permiten unir las categoriacuteas o definir una categoriacutea como suplementaria La reduccioacuten del nuacutemero de categoriacuteas activas que se origina al unir categoriacuteas o definir determinadas categoriacuteas como suplementarias estaacute sujeta a ciertas restricciones (a) el nuacutemero maacuteximo de categoriacuteas que pueden unirse equivale al total de categoriacuteas menos 1 (b) el nuacutemero maacuteximo de categoriacuteas suplementarias es el total de categoriacuteas menos 2

15

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

INTRODUCCION

El Anaacutelisis de Correspondencias es una teacutecnica descriptiva o exploratoria cuyo objetivo es resumir una gran cantidad de datos en un nuacutemero reducido de dimensiones con la menor peacuterdida de informacioacuten posible En este aspecto su objetivo es similar al de los meacutetodos factoriales salvo que en el caso del anaacutelisis de correspondencias el meacutetodo se aplica sobre variables categoacutericas u ordinales

El anaacutelisis de correspondencias simples se utiliza a menudo en la representacioacuten de datos que se pueden presentar en forma de tablas de contingencia de dos variables nominales u ordinales Otras utilizaciones implican el tratamiento de tablas de proximidad o distancia entre elementos y tablas de preferencias

Si nos centramos en una tabla de contingencia de dos variables cualitativas con una variable cuyas categoriacuteas aparecen en filas y la otra variable cuyas categoriacuteas son representadas en columnas el anaacutelisis de correspondencias consiste en resumir la informacioacuten presente en las filas y columnas de manera que pueda proyectarse sobre un subespacio reducido y representarse simultaacuteneamente los puntos fila y los puntos columna pudieacutendose obtener conclusiones sobre relaciones entre las dos variables nominales u ordinales de origen

Asiacute si la variable cualitativa fila representa diferentes productos de mercado (Fanta Zumosol etc) y la variable columna diferentes percepciones de clientes sobre esos productos (sabroso fuerte dulcehellip) el anaacutelisis de correspondencias produce un graacutefico con dos ejes en los cuales cada categoriacutea fila y cada categoriacutea columna estaacuten representadas por puntos distintos Se observa por ejemplo que siguiendo la direccioacuten de un eje a la izquierda estaacuten las categoriacuteas-fila dulce suave empalagoso y a la derecha seco amargo fuerte y se ve tambieacuten que las categoriacuteas-columna Fanta y Coca-cola estaacuten a la izquierda y Champaacuten a la derecha Asiacute se podraacuten establecer relaciones entre variables (en este caso la variable fila) e individuos (variable columna) Igualmente se puede razonar tomando como referencia el otro eje del graacutefico y tambieacuten tener en cuenta el nivel de contribucioacuten o importancia relativa de cada punto o categoriacutea para ayudar a una interpretacioacuten correcta

La extensioacuten del anaacutelisis de correspondencias simples al caso de varias variables nominales (tablas de contingencia multidimensionales) se denomina Anaacutelisis de Correspondencias Muacuteltiples y utiliza los mismos principios generales que la teacutecnica anterior En general se orienta a casos en los cuales una variable representa iacutetems o individuos y el resto son variables cualitativas u ordinales que representan cualidades

3

I ANAacuteLISIS DE CORRESPONDENCIAS (AC)

Es una teacutecnica descriptiva o exploratoria cuyo objetivo es resumir una gran cantidad de datos en un nuacutemero reducido de dimensiones con la menor peacuterdida de informacioacuten posibleEn esta liacutenea su objetivo es similar al de los meacutetodos factoriales salvo que en el caso del anaacutelisis de correspondencias el meacutetodo se aplica sobre variables categoacutericas u ordinales

El anaacutelisis de correspondencias simples se utiliza a menudo en la representacioacuten de datos que se pueden presentar en forma de tablas de contingencia de dos variables nominales u ordinales Otras utilizaciones implican el tratamiento de tablas de proximidad o distancia entre elementos y tablas de preferencias

Si se trata de una tabla de contingencia de dos variables cualitativas una variable cuyas categoriacuteas aparecen en filas y la otra variable cuyas categoriacuteas son representadas en columnas el anaacutelisis de correspondencias consiste en resumir la informacioacuten presente en las filas y columnas de manera que pueda proyectarse sobre un sub-espacio reducido y representarse simultaacuteneamente los puntos fila y los puntos columna pudieacutendose obtener conclusiones sobre relaciones entre las dos variablesnominales u ordinales de origen

La extensioacuten del anaacutelisis de correspondencias simples al caso de varias variables nominales (tablas de contingencia multidimensionales) se denomina Anaacutelisis de Correspondencias Muacuteltiples y utiliza los mismos principios generales que la teacutecnica anterior En general se orienta a casos en los cuales una variable representa iacutetems o individuos y el resto son variables cualitativas u ordinales que representan cualidades

Entre la utilizacioacuten del Anaacutelisis de Correspondencias Simple y Muacuteltiple estudios

Preferencias de consumo en Investigacioacuten de Mercados Posicionamiento de empresas a partir de las preferencias de consumidores Buacutesqueda de tipologiacuteas de individuos respecto a variables cualitativas (patrones de enfermedades en medicina perfiles psicoloacutegicos comportamiento de especies en

biologiacutea etc)

El Anaacutelisis de Correspondencias tiene dos objetivos baacutesicos

Asociacioacuten entre categoriacuteas de columnas o filas Medir la asociacioacuten de solo una fila o columna para ver por ejemplo si las modalidades de una variable pueden ser combinadas

Asociacioacuten entre categoriacuteas de filas y columnas Estudiar si existe relacioacuten entre categoriacuteas de las filas y columnas

El anaacutelisis de correspondencias solo requiere que los datos representen las respuestas a una serie de preguntas y que esteacuten organizadas en categoriacuteas Dependiendo si existen dos o maacutes variables el anaacutelisis seraacute simple o muacuteltipleUn anaacutelisis de correspondencias en SPSS AnalizarReduccioacuten de datosAnaacutelisis de correspondencias

II PLANTEAMIENTO DEL PROBLEMA

4

El Anaacutelisis de Correspondencias es una teacutecnica estadiacutestica que se utiliza para analizar desde un punto de vista graacutefico las relaciones de dependencia e independencia de un conjunto de variables categoacutericas a partir de los datos de una tabla de contingencia

Para ello asocia a cada una de las modalidades de la tabla un punto en el espacio Rn (generalmente n=2) de forma que las relaciones de cercaniacutealejaniacutea entre los puntos calculados reflejen las relaciones de dependencia y semejanza existentes entre ellas

Se comienza analizando el problema bidimensional que es el que analiza el Anaacutelisis de Correspondencias propiamente dicho Posteriormente se trata brevemente del problema n‐dimensional (nge3) que es el problema que analiza el Anaacutelisis de Correspondencias Muacuteltiples

Sea X e Y dos variables categoacutericas respectivamente con valores x1 xk e y1 ym Se observan dichas variables en N elementos de una poblacioacuten La interseccioacuten entre una fila y una columna da lugar a una celda o casilla cuya frecuencia observada es nij

Los PERFILES MARGINALES describen la distribucioacuten marginal de las variables X e Y respectivamente se reflejan en las siguientes tablas

5

Los PERFILES CONDICIONALES describen las distribuciones condicionadas asociadas a la Tabla deCorrespondencias

Los perfiles fila describen las distribuciones condicionadas de la variable Y por las distintas modalidades de la variable X Se obtienen a partir de la Tabla de Correspondencias y el perfil marginal de X mediante las siguientes expresiones

Los perfiles columna describen las distribuciones condicionadas de la variable X por las distintas modalidades de la variable Y Se obtienen a partir de la tabla de correspondencias y el perfil marginal de X mediante las siguientes expresiones

6

Trabajar con perfiles facilita la interpretacioacuten pero tambieacuten puede producir una visioacuten equivocada de la relacioacuten entre variables en la medida que todos los puntos tienen la misma importancia los marginales de los perfiles y columna son iguales a 1 Para evitar este problema el anaacutelisis de correspondencias deberaacute utilizar una distancia que no olvide las diferencias entre los efectivos de cada liacutenea (o columna) La distancia chi‐cuadrado cumple la condicioacuten de ponderar cada perfil por un peso Asiacute cada fila (o columna) estaacute afectada de un peso proporcional a su importancia en el conjunto peso conocido como masa Al considerar cada punto con una masa proporcional a su frecuencia se evita privilegiar las categoriacuteas con pocos efectivos Se trata de hecho de una distancia eucliacutedea ponderada por el inverso de la masa de las columnas cuando se mide la distancia entre filas o por la masa de las filas para la distancia entre las columnas

La distancia chi‐cuadrado cumple el principio de la equivalencia distribucional que postula que si dos categoriacuteas tienen perfiles ideacutenticos pueden ser sustituidas por una sola categoriacutea que sea la suma de sus pesos sin que con ello se modifique la distancia entre las filas o columnas La importancia de esta propiedad estriba en que garantiza la estabilidad en los resultados con independencia de la codificacioacuten en las variables de modo que es posible agrupar categoriacuteas que tienen perfiles coincidentes tanto por filas como por columnas Si el resultado se mantiene estable tras unir categoriacuteas de igual modo estos resultados no mejoran al realizar maacutes subdivisiones de categoriacuteas homogeacuteneas

III DEPENDENCIA E INDEPENDENCIA EN TABLAS DE CORRESPONDENCIAS

La existencia o no de alguacuten tipo de relacioacuten entre las variables X e Y se analiza mediante contrastes de hipoacutetesis sobre la independencia de dichas variables El test de hipoacutetesis habitualmente utilizado es el de la Chi‐cuadrado de PearsonSe contrasta la hipoacutetesis nula que presupone la independencia entre ambas variables mediante el estadiacutestico χ2 de Pearson

El test se basa en comparar los perfiles fila y columna con los perfiles marginales correspondientes considerando que si H0 es cierta todos los perfiles fila (respecto columna) son iguales entre siacute e iguales al perfil marginal de X (respecto de Y)

Se define el estadiacutestico observado

7

Si la hipoacutetesis nula se rechaza las variables X e Y son dependientes En este caso conviene analizar los perfiles condicionales fila y columna asiacute como los residuos del modelo para estudiar queacute tipo de dependencia existe entre ellas Los residuos maacutes utilizados son los llamados residuos tipificados corregidos que vienen dados por la expresioacuten

IV ANAacuteLISIS DE LOS RESIDUOS

Los residuos son las diferencias entre la frecuencia observada y la frecuencia esperada en cada casilla rij =nij minuseij En el caso de que el contraste de χ2 haya resultado significativo estos residuos indicaraacuten queacute casillas contribuyen en mayor grado al valor del estadiacutestico

Cuanto mayor sea el valor de los residuos mayor es la probabilidad de que una determinada combinacioacuten de valores de las variables esto es una casilla sea significativa

Para que el anaacutelisis de los residuos resulte adecuado es necesario que previamente eacutestos hayan sido ajustados y estandarizados para lo cual se suele aplicar la foacutermula propuesta por Haberman (1978) que consiste en dividir el valor del residuo en cada casilla por su error tiacutepico

8

V ANAacuteLISIS DE CORRESPONDENCIA SIMPLE

Con los perfiles de filas y columnas descritos se elabora la matriz de coordenadas (distancias) utilizando la distancia chi‐cuadrado que permitiraacute calibrar la magnitud de las diferencias entre la tabla de datos analizada y una tabla de datos sin relacioacuten entre las variables

El meacutetodo consiste en encontrar la descomposicioacuten en valores singulares de la matriz

Para construir un sistema de coordenadas (generalmente bidimensional) asociado a las filas y columnas de la tabla de contingencia que refleje las relaciones existentes entre dichas filas y columnas

En la representacioacuten tienen un papel importante las llamadas distancias χ2 entre perfiles que son las que el anaacutelisis de correspondencias intenta reproducir en sus representaciones graacuteficas Dichas distancias son distancias pitagoacutericas ponderadas entre perfiles que vienen dadas por las siguientes expresiones

Las distancias no se miden entre dos filas o dos columnas sino con relacioacuten al perfil medio de fila o columna es decir con relacioacuten al promedio de las coordenadas de esa fila (o columna) ponderada por su masa (peso proporcional a su importancia en el conjunto)

Este perfil medio apareceraacute situado en el origen de coordenadas y es conocido como centro de gravedad La media de las distancias al cuadrado de cada punto de fila al centro de gravedad se conoce como inercia de filas o inercia de columnas cuando se trata de las columnas e inercia total de la nube de puntos cuando se consideran todos los elementos de la tabla Una inercia baja significa que todos los productos estaacuten situados muy cerca del centro de gravedad y que en consecuencia son muy similares mientras que altos valores de inercia en determinadas categoriacuteas implican grandes diferencias del perfil medio de las filas o las columnas

Posteriormente se procede a diagonalizar la matriz C de varianza‐covarianza con el fin de obtener los vectores y valores propios que definiraacuten los nuevos ejes sobre los que seraacute proyectada la nube de puntos Cuando la cantidad de inercia explicada con los primeros factores sea alta bastaraacute con seleccionar un pequentildeo nuacutemero de eacutestos (dos o tres) y representar la nube de puntos sobre graacuteficos de dos o tres dimensiones obteniendo asiacute una visioacuten simplificada de las relaciones

9

El anaacutelisis de correspondencias busca encontrar dos matrices (A B) de coordenadas cartesianas

Hay diversas formas de calcular las matrices A y B conocidas como normalizaciones Una forma muy utilizada es la conocida como normalizacioacuten simeacutetrica o canoacutenica (ACC) que busca satisfacer que el producto escalar (ai bj) sea proporcional a los residuos tipificados rij

La normalizacioacuten simeacutetrica o canoacutenica descompone la matriz C = (rij) en valores singulares calculando matrices Ukxh D y Vmxh con H = miacutenimo k‐1 m‐1 tales que C=UDV siendo UU=VV=I D = diagonal μ1 μ2 μH donde μi equiv valores singulares (i = 1 H)

10

11

Se utilizan para analizar las proximidades entre los puntos haciendo hincapieacute en aquellos factores cuyas contribuciones sean maacutes elevadas cuando se desea explicar dichas proximidades

VI ELEMENTOS SUPLEMENTARIOS

Son filas o columnas de la tabla de contingencia no utilizadas en el caacutelculo de los ejes factoriales pero que una vez calculados eacutestos se situacutean en el diagrama cartesiano con el fin de ayudar en la interpretacioacuten de los resultados obtenidos Sus coordenadas se calculan utilizando las relaciones bariceacutentricas existentes entre los puntos fila y columna

12

VII CASO PRAacuteCTICO

Los siguientes datos corresponden a la distribucioacuten del nuacutemero de parados de tres provincias de Castilla‐Leoacuten en el antildeo 2005 clasificados por Sexo Provincia y Nivel de Estudios

PRIMER ANAacuteLISIS DE LA INFORMACIOacuteN Se comienza con un anaacutelisis univariado de las variables consideradas con la finalidad de identificar determinados patrones de comportamiento

Se solicitan los porcentajes de fila y columna

bull Al comparar los porcentajes de fila se observa que un 98 de los Hombres de Avila parados tienen un nivel de estudios primario (cifra que contrasta a la correspondiente distribucioacuten marginal en la que uacutenicamente un 2 de los parados poseen dicho nivel de estudios) mientras que en Mujeres de Soria paradas un 08 tienen estudios primarios

13

bull Al comparar los porcentajes columna por ejemplo se observa que un 169 de los parados con un nivel de estudios primario son Hombres de Aacutevila (cifra mucho maacutes elevada que la correspondiente a la distribucioacuten marginal en la que tan soacutelo un 34 son Hombres de Aacutevila)

Para interpretar el interior de la tabla desde un punto de vista praacutectico es maacutes sencillo utilizar los residuos estandarizados corregidos

En los residuos estandarizados corregidos la mayor parte son mayores que 2 en valor absoluto (a un nivel del 95 de confianza residuos con un valor absoluto mayor que 2 se consideran como valores anormalmente altos)

Observando ademaacutes el patroacuten de los signos

bull Los residuos positivos para los hombres tienden a situarse en los niveles de estudios maacutes bajos (estudios primarios y certificado escolar) y para las mujeres en los niveles de estudios superiores (graduado escolar bachillerato y diplomados en todas las provincias formacioacuten profesional en Burgos y Soria y universitario en Soria)

14

En la parte inferior del cuadro de diaacutelogo aparecen una serie de Restricciones para las categoriacuteas que permiten unir las categoriacuteas o definir una categoriacutea como suplementaria La reduccioacuten del nuacutemero de categoriacuteas activas que se origina al unir categoriacuteas o definir determinadas categoriacuteas como suplementarias estaacute sujeta a ciertas restricciones (a) el nuacutemero maacuteximo de categoriacuteas que pueden unirse equivale al total de categoriacuteas menos 1 (b) el nuacutemero maacuteximo de categoriacuteas suplementarias es el total de categoriacuteas menos 2

15

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

I ANAacuteLISIS DE CORRESPONDENCIAS (AC)

Es una teacutecnica descriptiva o exploratoria cuyo objetivo es resumir una gran cantidad de datos en un nuacutemero reducido de dimensiones con la menor peacuterdida de informacioacuten posibleEn esta liacutenea su objetivo es similar al de los meacutetodos factoriales salvo que en el caso del anaacutelisis de correspondencias el meacutetodo se aplica sobre variables categoacutericas u ordinales

El anaacutelisis de correspondencias simples se utiliza a menudo en la representacioacuten de datos que se pueden presentar en forma de tablas de contingencia de dos variables nominales u ordinales Otras utilizaciones implican el tratamiento de tablas de proximidad o distancia entre elementos y tablas de preferencias

Si se trata de una tabla de contingencia de dos variables cualitativas una variable cuyas categoriacuteas aparecen en filas y la otra variable cuyas categoriacuteas son representadas en columnas el anaacutelisis de correspondencias consiste en resumir la informacioacuten presente en las filas y columnas de manera que pueda proyectarse sobre un sub-espacio reducido y representarse simultaacuteneamente los puntos fila y los puntos columna pudieacutendose obtener conclusiones sobre relaciones entre las dos variablesnominales u ordinales de origen

La extensioacuten del anaacutelisis de correspondencias simples al caso de varias variables nominales (tablas de contingencia multidimensionales) se denomina Anaacutelisis de Correspondencias Muacuteltiples y utiliza los mismos principios generales que la teacutecnica anterior En general se orienta a casos en los cuales una variable representa iacutetems o individuos y el resto son variables cualitativas u ordinales que representan cualidades

Entre la utilizacioacuten del Anaacutelisis de Correspondencias Simple y Muacuteltiple estudios

Preferencias de consumo en Investigacioacuten de Mercados Posicionamiento de empresas a partir de las preferencias de consumidores Buacutesqueda de tipologiacuteas de individuos respecto a variables cualitativas (patrones de enfermedades en medicina perfiles psicoloacutegicos comportamiento de especies en

biologiacutea etc)

El Anaacutelisis de Correspondencias tiene dos objetivos baacutesicos

Asociacioacuten entre categoriacuteas de columnas o filas Medir la asociacioacuten de solo una fila o columna para ver por ejemplo si las modalidades de una variable pueden ser combinadas

Asociacioacuten entre categoriacuteas de filas y columnas Estudiar si existe relacioacuten entre categoriacuteas de las filas y columnas

El anaacutelisis de correspondencias solo requiere que los datos representen las respuestas a una serie de preguntas y que esteacuten organizadas en categoriacuteas Dependiendo si existen dos o maacutes variables el anaacutelisis seraacute simple o muacuteltipleUn anaacutelisis de correspondencias en SPSS AnalizarReduccioacuten de datosAnaacutelisis de correspondencias

II PLANTEAMIENTO DEL PROBLEMA

4

El Anaacutelisis de Correspondencias es una teacutecnica estadiacutestica que se utiliza para analizar desde un punto de vista graacutefico las relaciones de dependencia e independencia de un conjunto de variables categoacutericas a partir de los datos de una tabla de contingencia

Para ello asocia a cada una de las modalidades de la tabla un punto en el espacio Rn (generalmente n=2) de forma que las relaciones de cercaniacutealejaniacutea entre los puntos calculados reflejen las relaciones de dependencia y semejanza existentes entre ellas

Se comienza analizando el problema bidimensional que es el que analiza el Anaacutelisis de Correspondencias propiamente dicho Posteriormente se trata brevemente del problema n‐dimensional (nge3) que es el problema que analiza el Anaacutelisis de Correspondencias Muacuteltiples

Sea X e Y dos variables categoacutericas respectivamente con valores x1 xk e y1 ym Se observan dichas variables en N elementos de una poblacioacuten La interseccioacuten entre una fila y una columna da lugar a una celda o casilla cuya frecuencia observada es nij

Los PERFILES MARGINALES describen la distribucioacuten marginal de las variables X e Y respectivamente se reflejan en las siguientes tablas

5

Los PERFILES CONDICIONALES describen las distribuciones condicionadas asociadas a la Tabla deCorrespondencias

Los perfiles fila describen las distribuciones condicionadas de la variable Y por las distintas modalidades de la variable X Se obtienen a partir de la Tabla de Correspondencias y el perfil marginal de X mediante las siguientes expresiones

Los perfiles columna describen las distribuciones condicionadas de la variable X por las distintas modalidades de la variable Y Se obtienen a partir de la tabla de correspondencias y el perfil marginal de X mediante las siguientes expresiones

6

Trabajar con perfiles facilita la interpretacioacuten pero tambieacuten puede producir una visioacuten equivocada de la relacioacuten entre variables en la medida que todos los puntos tienen la misma importancia los marginales de los perfiles y columna son iguales a 1 Para evitar este problema el anaacutelisis de correspondencias deberaacute utilizar una distancia que no olvide las diferencias entre los efectivos de cada liacutenea (o columna) La distancia chi‐cuadrado cumple la condicioacuten de ponderar cada perfil por un peso Asiacute cada fila (o columna) estaacute afectada de un peso proporcional a su importancia en el conjunto peso conocido como masa Al considerar cada punto con una masa proporcional a su frecuencia se evita privilegiar las categoriacuteas con pocos efectivos Se trata de hecho de una distancia eucliacutedea ponderada por el inverso de la masa de las columnas cuando se mide la distancia entre filas o por la masa de las filas para la distancia entre las columnas

La distancia chi‐cuadrado cumple el principio de la equivalencia distribucional que postula que si dos categoriacuteas tienen perfiles ideacutenticos pueden ser sustituidas por una sola categoriacutea que sea la suma de sus pesos sin que con ello se modifique la distancia entre las filas o columnas La importancia de esta propiedad estriba en que garantiza la estabilidad en los resultados con independencia de la codificacioacuten en las variables de modo que es posible agrupar categoriacuteas que tienen perfiles coincidentes tanto por filas como por columnas Si el resultado se mantiene estable tras unir categoriacuteas de igual modo estos resultados no mejoran al realizar maacutes subdivisiones de categoriacuteas homogeacuteneas

III DEPENDENCIA E INDEPENDENCIA EN TABLAS DE CORRESPONDENCIAS

La existencia o no de alguacuten tipo de relacioacuten entre las variables X e Y se analiza mediante contrastes de hipoacutetesis sobre la independencia de dichas variables El test de hipoacutetesis habitualmente utilizado es el de la Chi‐cuadrado de PearsonSe contrasta la hipoacutetesis nula que presupone la independencia entre ambas variables mediante el estadiacutestico χ2 de Pearson

El test se basa en comparar los perfiles fila y columna con los perfiles marginales correspondientes considerando que si H0 es cierta todos los perfiles fila (respecto columna) son iguales entre siacute e iguales al perfil marginal de X (respecto de Y)

Se define el estadiacutestico observado

7

Si la hipoacutetesis nula se rechaza las variables X e Y son dependientes En este caso conviene analizar los perfiles condicionales fila y columna asiacute como los residuos del modelo para estudiar queacute tipo de dependencia existe entre ellas Los residuos maacutes utilizados son los llamados residuos tipificados corregidos que vienen dados por la expresioacuten

IV ANAacuteLISIS DE LOS RESIDUOS

Los residuos son las diferencias entre la frecuencia observada y la frecuencia esperada en cada casilla rij =nij minuseij En el caso de que el contraste de χ2 haya resultado significativo estos residuos indicaraacuten queacute casillas contribuyen en mayor grado al valor del estadiacutestico

Cuanto mayor sea el valor de los residuos mayor es la probabilidad de que una determinada combinacioacuten de valores de las variables esto es una casilla sea significativa

Para que el anaacutelisis de los residuos resulte adecuado es necesario que previamente eacutestos hayan sido ajustados y estandarizados para lo cual se suele aplicar la foacutermula propuesta por Haberman (1978) que consiste en dividir el valor del residuo en cada casilla por su error tiacutepico

8

V ANAacuteLISIS DE CORRESPONDENCIA SIMPLE

Con los perfiles de filas y columnas descritos se elabora la matriz de coordenadas (distancias) utilizando la distancia chi‐cuadrado que permitiraacute calibrar la magnitud de las diferencias entre la tabla de datos analizada y una tabla de datos sin relacioacuten entre las variables

El meacutetodo consiste en encontrar la descomposicioacuten en valores singulares de la matriz

Para construir un sistema de coordenadas (generalmente bidimensional) asociado a las filas y columnas de la tabla de contingencia que refleje las relaciones existentes entre dichas filas y columnas

En la representacioacuten tienen un papel importante las llamadas distancias χ2 entre perfiles que son las que el anaacutelisis de correspondencias intenta reproducir en sus representaciones graacuteficas Dichas distancias son distancias pitagoacutericas ponderadas entre perfiles que vienen dadas por las siguientes expresiones

Las distancias no se miden entre dos filas o dos columnas sino con relacioacuten al perfil medio de fila o columna es decir con relacioacuten al promedio de las coordenadas de esa fila (o columna) ponderada por su masa (peso proporcional a su importancia en el conjunto)

Este perfil medio apareceraacute situado en el origen de coordenadas y es conocido como centro de gravedad La media de las distancias al cuadrado de cada punto de fila al centro de gravedad se conoce como inercia de filas o inercia de columnas cuando se trata de las columnas e inercia total de la nube de puntos cuando se consideran todos los elementos de la tabla Una inercia baja significa que todos los productos estaacuten situados muy cerca del centro de gravedad y que en consecuencia son muy similares mientras que altos valores de inercia en determinadas categoriacuteas implican grandes diferencias del perfil medio de las filas o las columnas

Posteriormente se procede a diagonalizar la matriz C de varianza‐covarianza con el fin de obtener los vectores y valores propios que definiraacuten los nuevos ejes sobre los que seraacute proyectada la nube de puntos Cuando la cantidad de inercia explicada con los primeros factores sea alta bastaraacute con seleccionar un pequentildeo nuacutemero de eacutestos (dos o tres) y representar la nube de puntos sobre graacuteficos de dos o tres dimensiones obteniendo asiacute una visioacuten simplificada de las relaciones

9

El anaacutelisis de correspondencias busca encontrar dos matrices (A B) de coordenadas cartesianas

Hay diversas formas de calcular las matrices A y B conocidas como normalizaciones Una forma muy utilizada es la conocida como normalizacioacuten simeacutetrica o canoacutenica (ACC) que busca satisfacer que el producto escalar (ai bj) sea proporcional a los residuos tipificados rij

La normalizacioacuten simeacutetrica o canoacutenica descompone la matriz C = (rij) en valores singulares calculando matrices Ukxh D y Vmxh con H = miacutenimo k‐1 m‐1 tales que C=UDV siendo UU=VV=I D = diagonal μ1 μ2 μH donde μi equiv valores singulares (i = 1 H)

10

11

Se utilizan para analizar las proximidades entre los puntos haciendo hincapieacute en aquellos factores cuyas contribuciones sean maacutes elevadas cuando se desea explicar dichas proximidades

VI ELEMENTOS SUPLEMENTARIOS

Son filas o columnas de la tabla de contingencia no utilizadas en el caacutelculo de los ejes factoriales pero que una vez calculados eacutestos se situacutean en el diagrama cartesiano con el fin de ayudar en la interpretacioacuten de los resultados obtenidos Sus coordenadas se calculan utilizando las relaciones bariceacutentricas existentes entre los puntos fila y columna

12

VII CASO PRAacuteCTICO

Los siguientes datos corresponden a la distribucioacuten del nuacutemero de parados de tres provincias de Castilla‐Leoacuten en el antildeo 2005 clasificados por Sexo Provincia y Nivel de Estudios

PRIMER ANAacuteLISIS DE LA INFORMACIOacuteN Se comienza con un anaacutelisis univariado de las variables consideradas con la finalidad de identificar determinados patrones de comportamiento

Se solicitan los porcentajes de fila y columna

bull Al comparar los porcentajes de fila se observa que un 98 de los Hombres de Avila parados tienen un nivel de estudios primario (cifra que contrasta a la correspondiente distribucioacuten marginal en la que uacutenicamente un 2 de los parados poseen dicho nivel de estudios) mientras que en Mujeres de Soria paradas un 08 tienen estudios primarios

13

bull Al comparar los porcentajes columna por ejemplo se observa que un 169 de los parados con un nivel de estudios primario son Hombres de Aacutevila (cifra mucho maacutes elevada que la correspondiente a la distribucioacuten marginal en la que tan soacutelo un 34 son Hombres de Aacutevila)

Para interpretar el interior de la tabla desde un punto de vista praacutectico es maacutes sencillo utilizar los residuos estandarizados corregidos

En los residuos estandarizados corregidos la mayor parte son mayores que 2 en valor absoluto (a un nivel del 95 de confianza residuos con un valor absoluto mayor que 2 se consideran como valores anormalmente altos)

Observando ademaacutes el patroacuten de los signos

bull Los residuos positivos para los hombres tienden a situarse en los niveles de estudios maacutes bajos (estudios primarios y certificado escolar) y para las mujeres en los niveles de estudios superiores (graduado escolar bachillerato y diplomados en todas las provincias formacioacuten profesional en Burgos y Soria y universitario en Soria)

14

En la parte inferior del cuadro de diaacutelogo aparecen una serie de Restricciones para las categoriacuteas que permiten unir las categoriacuteas o definir una categoriacutea como suplementaria La reduccioacuten del nuacutemero de categoriacuteas activas que se origina al unir categoriacuteas o definir determinadas categoriacuteas como suplementarias estaacute sujeta a ciertas restricciones (a) el nuacutemero maacuteximo de categoriacuteas que pueden unirse equivale al total de categoriacuteas menos 1 (b) el nuacutemero maacuteximo de categoriacuteas suplementarias es el total de categoriacuteas menos 2

15

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

El Anaacutelisis de Correspondencias es una teacutecnica estadiacutestica que se utiliza para analizar desde un punto de vista graacutefico las relaciones de dependencia e independencia de un conjunto de variables categoacutericas a partir de los datos de una tabla de contingencia

Para ello asocia a cada una de las modalidades de la tabla un punto en el espacio Rn (generalmente n=2) de forma que las relaciones de cercaniacutealejaniacutea entre los puntos calculados reflejen las relaciones de dependencia y semejanza existentes entre ellas

Se comienza analizando el problema bidimensional que es el que analiza el Anaacutelisis de Correspondencias propiamente dicho Posteriormente se trata brevemente del problema n‐dimensional (nge3) que es el problema que analiza el Anaacutelisis de Correspondencias Muacuteltiples

Sea X e Y dos variables categoacutericas respectivamente con valores x1 xk e y1 ym Se observan dichas variables en N elementos de una poblacioacuten La interseccioacuten entre una fila y una columna da lugar a una celda o casilla cuya frecuencia observada es nij

Los PERFILES MARGINALES describen la distribucioacuten marginal de las variables X e Y respectivamente se reflejan en las siguientes tablas

5

Los PERFILES CONDICIONALES describen las distribuciones condicionadas asociadas a la Tabla deCorrespondencias

Los perfiles fila describen las distribuciones condicionadas de la variable Y por las distintas modalidades de la variable X Se obtienen a partir de la Tabla de Correspondencias y el perfil marginal de X mediante las siguientes expresiones

Los perfiles columna describen las distribuciones condicionadas de la variable X por las distintas modalidades de la variable Y Se obtienen a partir de la tabla de correspondencias y el perfil marginal de X mediante las siguientes expresiones

6

Trabajar con perfiles facilita la interpretacioacuten pero tambieacuten puede producir una visioacuten equivocada de la relacioacuten entre variables en la medida que todos los puntos tienen la misma importancia los marginales de los perfiles y columna son iguales a 1 Para evitar este problema el anaacutelisis de correspondencias deberaacute utilizar una distancia que no olvide las diferencias entre los efectivos de cada liacutenea (o columna) La distancia chi‐cuadrado cumple la condicioacuten de ponderar cada perfil por un peso Asiacute cada fila (o columna) estaacute afectada de un peso proporcional a su importancia en el conjunto peso conocido como masa Al considerar cada punto con una masa proporcional a su frecuencia se evita privilegiar las categoriacuteas con pocos efectivos Se trata de hecho de una distancia eucliacutedea ponderada por el inverso de la masa de las columnas cuando se mide la distancia entre filas o por la masa de las filas para la distancia entre las columnas

La distancia chi‐cuadrado cumple el principio de la equivalencia distribucional que postula que si dos categoriacuteas tienen perfiles ideacutenticos pueden ser sustituidas por una sola categoriacutea que sea la suma de sus pesos sin que con ello se modifique la distancia entre las filas o columnas La importancia de esta propiedad estriba en que garantiza la estabilidad en los resultados con independencia de la codificacioacuten en las variables de modo que es posible agrupar categoriacuteas que tienen perfiles coincidentes tanto por filas como por columnas Si el resultado se mantiene estable tras unir categoriacuteas de igual modo estos resultados no mejoran al realizar maacutes subdivisiones de categoriacuteas homogeacuteneas

III DEPENDENCIA E INDEPENDENCIA EN TABLAS DE CORRESPONDENCIAS

La existencia o no de alguacuten tipo de relacioacuten entre las variables X e Y se analiza mediante contrastes de hipoacutetesis sobre la independencia de dichas variables El test de hipoacutetesis habitualmente utilizado es el de la Chi‐cuadrado de PearsonSe contrasta la hipoacutetesis nula que presupone la independencia entre ambas variables mediante el estadiacutestico χ2 de Pearson

El test se basa en comparar los perfiles fila y columna con los perfiles marginales correspondientes considerando que si H0 es cierta todos los perfiles fila (respecto columna) son iguales entre siacute e iguales al perfil marginal de X (respecto de Y)

Se define el estadiacutestico observado

7

Si la hipoacutetesis nula se rechaza las variables X e Y son dependientes En este caso conviene analizar los perfiles condicionales fila y columna asiacute como los residuos del modelo para estudiar queacute tipo de dependencia existe entre ellas Los residuos maacutes utilizados son los llamados residuos tipificados corregidos que vienen dados por la expresioacuten

IV ANAacuteLISIS DE LOS RESIDUOS

Los residuos son las diferencias entre la frecuencia observada y la frecuencia esperada en cada casilla rij =nij minuseij En el caso de que el contraste de χ2 haya resultado significativo estos residuos indicaraacuten queacute casillas contribuyen en mayor grado al valor del estadiacutestico

Cuanto mayor sea el valor de los residuos mayor es la probabilidad de que una determinada combinacioacuten de valores de las variables esto es una casilla sea significativa

Para que el anaacutelisis de los residuos resulte adecuado es necesario que previamente eacutestos hayan sido ajustados y estandarizados para lo cual se suele aplicar la foacutermula propuesta por Haberman (1978) que consiste en dividir el valor del residuo en cada casilla por su error tiacutepico

8

V ANAacuteLISIS DE CORRESPONDENCIA SIMPLE

Con los perfiles de filas y columnas descritos se elabora la matriz de coordenadas (distancias) utilizando la distancia chi‐cuadrado que permitiraacute calibrar la magnitud de las diferencias entre la tabla de datos analizada y una tabla de datos sin relacioacuten entre las variables

El meacutetodo consiste en encontrar la descomposicioacuten en valores singulares de la matriz

Para construir un sistema de coordenadas (generalmente bidimensional) asociado a las filas y columnas de la tabla de contingencia que refleje las relaciones existentes entre dichas filas y columnas

En la representacioacuten tienen un papel importante las llamadas distancias χ2 entre perfiles que son las que el anaacutelisis de correspondencias intenta reproducir en sus representaciones graacuteficas Dichas distancias son distancias pitagoacutericas ponderadas entre perfiles que vienen dadas por las siguientes expresiones

Las distancias no se miden entre dos filas o dos columnas sino con relacioacuten al perfil medio de fila o columna es decir con relacioacuten al promedio de las coordenadas de esa fila (o columna) ponderada por su masa (peso proporcional a su importancia en el conjunto)

Este perfil medio apareceraacute situado en el origen de coordenadas y es conocido como centro de gravedad La media de las distancias al cuadrado de cada punto de fila al centro de gravedad se conoce como inercia de filas o inercia de columnas cuando se trata de las columnas e inercia total de la nube de puntos cuando se consideran todos los elementos de la tabla Una inercia baja significa que todos los productos estaacuten situados muy cerca del centro de gravedad y que en consecuencia son muy similares mientras que altos valores de inercia en determinadas categoriacuteas implican grandes diferencias del perfil medio de las filas o las columnas

Posteriormente se procede a diagonalizar la matriz C de varianza‐covarianza con el fin de obtener los vectores y valores propios que definiraacuten los nuevos ejes sobre los que seraacute proyectada la nube de puntos Cuando la cantidad de inercia explicada con los primeros factores sea alta bastaraacute con seleccionar un pequentildeo nuacutemero de eacutestos (dos o tres) y representar la nube de puntos sobre graacuteficos de dos o tres dimensiones obteniendo asiacute una visioacuten simplificada de las relaciones

9

El anaacutelisis de correspondencias busca encontrar dos matrices (A B) de coordenadas cartesianas

Hay diversas formas de calcular las matrices A y B conocidas como normalizaciones Una forma muy utilizada es la conocida como normalizacioacuten simeacutetrica o canoacutenica (ACC) que busca satisfacer que el producto escalar (ai bj) sea proporcional a los residuos tipificados rij

La normalizacioacuten simeacutetrica o canoacutenica descompone la matriz C = (rij) en valores singulares calculando matrices Ukxh D y Vmxh con H = miacutenimo k‐1 m‐1 tales que C=UDV siendo UU=VV=I D = diagonal μ1 μ2 μH donde μi equiv valores singulares (i = 1 H)

10

11

Se utilizan para analizar las proximidades entre los puntos haciendo hincapieacute en aquellos factores cuyas contribuciones sean maacutes elevadas cuando se desea explicar dichas proximidades

VI ELEMENTOS SUPLEMENTARIOS

Son filas o columnas de la tabla de contingencia no utilizadas en el caacutelculo de los ejes factoriales pero que una vez calculados eacutestos se situacutean en el diagrama cartesiano con el fin de ayudar en la interpretacioacuten de los resultados obtenidos Sus coordenadas se calculan utilizando las relaciones bariceacutentricas existentes entre los puntos fila y columna

12

VII CASO PRAacuteCTICO

Los siguientes datos corresponden a la distribucioacuten del nuacutemero de parados de tres provincias de Castilla‐Leoacuten en el antildeo 2005 clasificados por Sexo Provincia y Nivel de Estudios

PRIMER ANAacuteLISIS DE LA INFORMACIOacuteN Se comienza con un anaacutelisis univariado de las variables consideradas con la finalidad de identificar determinados patrones de comportamiento

Se solicitan los porcentajes de fila y columna

bull Al comparar los porcentajes de fila se observa que un 98 de los Hombres de Avila parados tienen un nivel de estudios primario (cifra que contrasta a la correspondiente distribucioacuten marginal en la que uacutenicamente un 2 de los parados poseen dicho nivel de estudios) mientras que en Mujeres de Soria paradas un 08 tienen estudios primarios

13

bull Al comparar los porcentajes columna por ejemplo se observa que un 169 de los parados con un nivel de estudios primario son Hombres de Aacutevila (cifra mucho maacutes elevada que la correspondiente a la distribucioacuten marginal en la que tan soacutelo un 34 son Hombres de Aacutevila)

Para interpretar el interior de la tabla desde un punto de vista praacutectico es maacutes sencillo utilizar los residuos estandarizados corregidos

En los residuos estandarizados corregidos la mayor parte son mayores que 2 en valor absoluto (a un nivel del 95 de confianza residuos con un valor absoluto mayor que 2 se consideran como valores anormalmente altos)

Observando ademaacutes el patroacuten de los signos

bull Los residuos positivos para los hombres tienden a situarse en los niveles de estudios maacutes bajos (estudios primarios y certificado escolar) y para las mujeres en los niveles de estudios superiores (graduado escolar bachillerato y diplomados en todas las provincias formacioacuten profesional en Burgos y Soria y universitario en Soria)

14

En la parte inferior del cuadro de diaacutelogo aparecen una serie de Restricciones para las categoriacuteas que permiten unir las categoriacuteas o definir una categoriacutea como suplementaria La reduccioacuten del nuacutemero de categoriacuteas activas que se origina al unir categoriacuteas o definir determinadas categoriacuteas como suplementarias estaacute sujeta a ciertas restricciones (a) el nuacutemero maacuteximo de categoriacuteas que pueden unirse equivale al total de categoriacuteas menos 1 (b) el nuacutemero maacuteximo de categoriacuteas suplementarias es el total de categoriacuteas menos 2

15

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

Los PERFILES CONDICIONALES describen las distribuciones condicionadas asociadas a la Tabla deCorrespondencias

Los perfiles fila describen las distribuciones condicionadas de la variable Y por las distintas modalidades de la variable X Se obtienen a partir de la Tabla de Correspondencias y el perfil marginal de X mediante las siguientes expresiones

Los perfiles columna describen las distribuciones condicionadas de la variable X por las distintas modalidades de la variable Y Se obtienen a partir de la tabla de correspondencias y el perfil marginal de X mediante las siguientes expresiones

6

Trabajar con perfiles facilita la interpretacioacuten pero tambieacuten puede producir una visioacuten equivocada de la relacioacuten entre variables en la medida que todos los puntos tienen la misma importancia los marginales de los perfiles y columna son iguales a 1 Para evitar este problema el anaacutelisis de correspondencias deberaacute utilizar una distancia que no olvide las diferencias entre los efectivos de cada liacutenea (o columna) La distancia chi‐cuadrado cumple la condicioacuten de ponderar cada perfil por un peso Asiacute cada fila (o columna) estaacute afectada de un peso proporcional a su importancia en el conjunto peso conocido como masa Al considerar cada punto con una masa proporcional a su frecuencia se evita privilegiar las categoriacuteas con pocos efectivos Se trata de hecho de una distancia eucliacutedea ponderada por el inverso de la masa de las columnas cuando se mide la distancia entre filas o por la masa de las filas para la distancia entre las columnas

La distancia chi‐cuadrado cumple el principio de la equivalencia distribucional que postula que si dos categoriacuteas tienen perfiles ideacutenticos pueden ser sustituidas por una sola categoriacutea que sea la suma de sus pesos sin que con ello se modifique la distancia entre las filas o columnas La importancia de esta propiedad estriba en que garantiza la estabilidad en los resultados con independencia de la codificacioacuten en las variables de modo que es posible agrupar categoriacuteas que tienen perfiles coincidentes tanto por filas como por columnas Si el resultado se mantiene estable tras unir categoriacuteas de igual modo estos resultados no mejoran al realizar maacutes subdivisiones de categoriacuteas homogeacuteneas

III DEPENDENCIA E INDEPENDENCIA EN TABLAS DE CORRESPONDENCIAS

La existencia o no de alguacuten tipo de relacioacuten entre las variables X e Y se analiza mediante contrastes de hipoacutetesis sobre la independencia de dichas variables El test de hipoacutetesis habitualmente utilizado es el de la Chi‐cuadrado de PearsonSe contrasta la hipoacutetesis nula que presupone la independencia entre ambas variables mediante el estadiacutestico χ2 de Pearson

El test se basa en comparar los perfiles fila y columna con los perfiles marginales correspondientes considerando que si H0 es cierta todos los perfiles fila (respecto columna) son iguales entre siacute e iguales al perfil marginal de X (respecto de Y)

Se define el estadiacutestico observado

7

Si la hipoacutetesis nula se rechaza las variables X e Y son dependientes En este caso conviene analizar los perfiles condicionales fila y columna asiacute como los residuos del modelo para estudiar queacute tipo de dependencia existe entre ellas Los residuos maacutes utilizados son los llamados residuos tipificados corregidos que vienen dados por la expresioacuten

IV ANAacuteLISIS DE LOS RESIDUOS

Los residuos son las diferencias entre la frecuencia observada y la frecuencia esperada en cada casilla rij =nij minuseij En el caso de que el contraste de χ2 haya resultado significativo estos residuos indicaraacuten queacute casillas contribuyen en mayor grado al valor del estadiacutestico

Cuanto mayor sea el valor de los residuos mayor es la probabilidad de que una determinada combinacioacuten de valores de las variables esto es una casilla sea significativa

Para que el anaacutelisis de los residuos resulte adecuado es necesario que previamente eacutestos hayan sido ajustados y estandarizados para lo cual se suele aplicar la foacutermula propuesta por Haberman (1978) que consiste en dividir el valor del residuo en cada casilla por su error tiacutepico

8

V ANAacuteLISIS DE CORRESPONDENCIA SIMPLE

Con los perfiles de filas y columnas descritos se elabora la matriz de coordenadas (distancias) utilizando la distancia chi‐cuadrado que permitiraacute calibrar la magnitud de las diferencias entre la tabla de datos analizada y una tabla de datos sin relacioacuten entre las variables

El meacutetodo consiste en encontrar la descomposicioacuten en valores singulares de la matriz

Para construir un sistema de coordenadas (generalmente bidimensional) asociado a las filas y columnas de la tabla de contingencia que refleje las relaciones existentes entre dichas filas y columnas

En la representacioacuten tienen un papel importante las llamadas distancias χ2 entre perfiles que son las que el anaacutelisis de correspondencias intenta reproducir en sus representaciones graacuteficas Dichas distancias son distancias pitagoacutericas ponderadas entre perfiles que vienen dadas por las siguientes expresiones

Las distancias no se miden entre dos filas o dos columnas sino con relacioacuten al perfil medio de fila o columna es decir con relacioacuten al promedio de las coordenadas de esa fila (o columna) ponderada por su masa (peso proporcional a su importancia en el conjunto)

Este perfil medio apareceraacute situado en el origen de coordenadas y es conocido como centro de gravedad La media de las distancias al cuadrado de cada punto de fila al centro de gravedad se conoce como inercia de filas o inercia de columnas cuando se trata de las columnas e inercia total de la nube de puntos cuando se consideran todos los elementos de la tabla Una inercia baja significa que todos los productos estaacuten situados muy cerca del centro de gravedad y que en consecuencia son muy similares mientras que altos valores de inercia en determinadas categoriacuteas implican grandes diferencias del perfil medio de las filas o las columnas

Posteriormente se procede a diagonalizar la matriz C de varianza‐covarianza con el fin de obtener los vectores y valores propios que definiraacuten los nuevos ejes sobre los que seraacute proyectada la nube de puntos Cuando la cantidad de inercia explicada con los primeros factores sea alta bastaraacute con seleccionar un pequentildeo nuacutemero de eacutestos (dos o tres) y representar la nube de puntos sobre graacuteficos de dos o tres dimensiones obteniendo asiacute una visioacuten simplificada de las relaciones

9

El anaacutelisis de correspondencias busca encontrar dos matrices (A B) de coordenadas cartesianas

Hay diversas formas de calcular las matrices A y B conocidas como normalizaciones Una forma muy utilizada es la conocida como normalizacioacuten simeacutetrica o canoacutenica (ACC) que busca satisfacer que el producto escalar (ai bj) sea proporcional a los residuos tipificados rij

La normalizacioacuten simeacutetrica o canoacutenica descompone la matriz C = (rij) en valores singulares calculando matrices Ukxh D y Vmxh con H = miacutenimo k‐1 m‐1 tales que C=UDV siendo UU=VV=I D = diagonal μ1 μ2 μH donde μi equiv valores singulares (i = 1 H)

10

11

Se utilizan para analizar las proximidades entre los puntos haciendo hincapieacute en aquellos factores cuyas contribuciones sean maacutes elevadas cuando se desea explicar dichas proximidades

VI ELEMENTOS SUPLEMENTARIOS

Son filas o columnas de la tabla de contingencia no utilizadas en el caacutelculo de los ejes factoriales pero que una vez calculados eacutestos se situacutean en el diagrama cartesiano con el fin de ayudar en la interpretacioacuten de los resultados obtenidos Sus coordenadas se calculan utilizando las relaciones bariceacutentricas existentes entre los puntos fila y columna

12

VII CASO PRAacuteCTICO

Los siguientes datos corresponden a la distribucioacuten del nuacutemero de parados de tres provincias de Castilla‐Leoacuten en el antildeo 2005 clasificados por Sexo Provincia y Nivel de Estudios

PRIMER ANAacuteLISIS DE LA INFORMACIOacuteN Se comienza con un anaacutelisis univariado de las variables consideradas con la finalidad de identificar determinados patrones de comportamiento

Se solicitan los porcentajes de fila y columna

bull Al comparar los porcentajes de fila se observa que un 98 de los Hombres de Avila parados tienen un nivel de estudios primario (cifra que contrasta a la correspondiente distribucioacuten marginal en la que uacutenicamente un 2 de los parados poseen dicho nivel de estudios) mientras que en Mujeres de Soria paradas un 08 tienen estudios primarios

13

bull Al comparar los porcentajes columna por ejemplo se observa que un 169 de los parados con un nivel de estudios primario son Hombres de Aacutevila (cifra mucho maacutes elevada que la correspondiente a la distribucioacuten marginal en la que tan soacutelo un 34 son Hombres de Aacutevila)

Para interpretar el interior de la tabla desde un punto de vista praacutectico es maacutes sencillo utilizar los residuos estandarizados corregidos

En los residuos estandarizados corregidos la mayor parte son mayores que 2 en valor absoluto (a un nivel del 95 de confianza residuos con un valor absoluto mayor que 2 se consideran como valores anormalmente altos)

Observando ademaacutes el patroacuten de los signos

bull Los residuos positivos para los hombres tienden a situarse en los niveles de estudios maacutes bajos (estudios primarios y certificado escolar) y para las mujeres en los niveles de estudios superiores (graduado escolar bachillerato y diplomados en todas las provincias formacioacuten profesional en Burgos y Soria y universitario en Soria)

14

En la parte inferior del cuadro de diaacutelogo aparecen una serie de Restricciones para las categoriacuteas que permiten unir las categoriacuteas o definir una categoriacutea como suplementaria La reduccioacuten del nuacutemero de categoriacuteas activas que se origina al unir categoriacuteas o definir determinadas categoriacuteas como suplementarias estaacute sujeta a ciertas restricciones (a) el nuacutemero maacuteximo de categoriacuteas que pueden unirse equivale al total de categoriacuteas menos 1 (b) el nuacutemero maacuteximo de categoriacuteas suplementarias es el total de categoriacuteas menos 2

15

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

Trabajar con perfiles facilita la interpretacioacuten pero tambieacuten puede producir una visioacuten equivocada de la relacioacuten entre variables en la medida que todos los puntos tienen la misma importancia los marginales de los perfiles y columna son iguales a 1 Para evitar este problema el anaacutelisis de correspondencias deberaacute utilizar una distancia que no olvide las diferencias entre los efectivos de cada liacutenea (o columna) La distancia chi‐cuadrado cumple la condicioacuten de ponderar cada perfil por un peso Asiacute cada fila (o columna) estaacute afectada de un peso proporcional a su importancia en el conjunto peso conocido como masa Al considerar cada punto con una masa proporcional a su frecuencia se evita privilegiar las categoriacuteas con pocos efectivos Se trata de hecho de una distancia eucliacutedea ponderada por el inverso de la masa de las columnas cuando se mide la distancia entre filas o por la masa de las filas para la distancia entre las columnas

La distancia chi‐cuadrado cumple el principio de la equivalencia distribucional que postula que si dos categoriacuteas tienen perfiles ideacutenticos pueden ser sustituidas por una sola categoriacutea que sea la suma de sus pesos sin que con ello se modifique la distancia entre las filas o columnas La importancia de esta propiedad estriba en que garantiza la estabilidad en los resultados con independencia de la codificacioacuten en las variables de modo que es posible agrupar categoriacuteas que tienen perfiles coincidentes tanto por filas como por columnas Si el resultado se mantiene estable tras unir categoriacuteas de igual modo estos resultados no mejoran al realizar maacutes subdivisiones de categoriacuteas homogeacuteneas

III DEPENDENCIA E INDEPENDENCIA EN TABLAS DE CORRESPONDENCIAS

La existencia o no de alguacuten tipo de relacioacuten entre las variables X e Y se analiza mediante contrastes de hipoacutetesis sobre la independencia de dichas variables El test de hipoacutetesis habitualmente utilizado es el de la Chi‐cuadrado de PearsonSe contrasta la hipoacutetesis nula que presupone la independencia entre ambas variables mediante el estadiacutestico χ2 de Pearson

El test se basa en comparar los perfiles fila y columna con los perfiles marginales correspondientes considerando que si H0 es cierta todos los perfiles fila (respecto columna) son iguales entre siacute e iguales al perfil marginal de X (respecto de Y)

Se define el estadiacutestico observado

7

Si la hipoacutetesis nula se rechaza las variables X e Y son dependientes En este caso conviene analizar los perfiles condicionales fila y columna asiacute como los residuos del modelo para estudiar queacute tipo de dependencia existe entre ellas Los residuos maacutes utilizados son los llamados residuos tipificados corregidos que vienen dados por la expresioacuten

IV ANAacuteLISIS DE LOS RESIDUOS

Los residuos son las diferencias entre la frecuencia observada y la frecuencia esperada en cada casilla rij =nij minuseij En el caso de que el contraste de χ2 haya resultado significativo estos residuos indicaraacuten queacute casillas contribuyen en mayor grado al valor del estadiacutestico

Cuanto mayor sea el valor de los residuos mayor es la probabilidad de que una determinada combinacioacuten de valores de las variables esto es una casilla sea significativa

Para que el anaacutelisis de los residuos resulte adecuado es necesario que previamente eacutestos hayan sido ajustados y estandarizados para lo cual se suele aplicar la foacutermula propuesta por Haberman (1978) que consiste en dividir el valor del residuo en cada casilla por su error tiacutepico

8

V ANAacuteLISIS DE CORRESPONDENCIA SIMPLE

Con los perfiles de filas y columnas descritos se elabora la matriz de coordenadas (distancias) utilizando la distancia chi‐cuadrado que permitiraacute calibrar la magnitud de las diferencias entre la tabla de datos analizada y una tabla de datos sin relacioacuten entre las variables

El meacutetodo consiste en encontrar la descomposicioacuten en valores singulares de la matriz

Para construir un sistema de coordenadas (generalmente bidimensional) asociado a las filas y columnas de la tabla de contingencia que refleje las relaciones existentes entre dichas filas y columnas

En la representacioacuten tienen un papel importante las llamadas distancias χ2 entre perfiles que son las que el anaacutelisis de correspondencias intenta reproducir en sus representaciones graacuteficas Dichas distancias son distancias pitagoacutericas ponderadas entre perfiles que vienen dadas por las siguientes expresiones

Las distancias no se miden entre dos filas o dos columnas sino con relacioacuten al perfil medio de fila o columna es decir con relacioacuten al promedio de las coordenadas de esa fila (o columna) ponderada por su masa (peso proporcional a su importancia en el conjunto)

Este perfil medio apareceraacute situado en el origen de coordenadas y es conocido como centro de gravedad La media de las distancias al cuadrado de cada punto de fila al centro de gravedad se conoce como inercia de filas o inercia de columnas cuando se trata de las columnas e inercia total de la nube de puntos cuando se consideran todos los elementos de la tabla Una inercia baja significa que todos los productos estaacuten situados muy cerca del centro de gravedad y que en consecuencia son muy similares mientras que altos valores de inercia en determinadas categoriacuteas implican grandes diferencias del perfil medio de las filas o las columnas

Posteriormente se procede a diagonalizar la matriz C de varianza‐covarianza con el fin de obtener los vectores y valores propios que definiraacuten los nuevos ejes sobre los que seraacute proyectada la nube de puntos Cuando la cantidad de inercia explicada con los primeros factores sea alta bastaraacute con seleccionar un pequentildeo nuacutemero de eacutestos (dos o tres) y representar la nube de puntos sobre graacuteficos de dos o tres dimensiones obteniendo asiacute una visioacuten simplificada de las relaciones

9

El anaacutelisis de correspondencias busca encontrar dos matrices (A B) de coordenadas cartesianas

Hay diversas formas de calcular las matrices A y B conocidas como normalizaciones Una forma muy utilizada es la conocida como normalizacioacuten simeacutetrica o canoacutenica (ACC) que busca satisfacer que el producto escalar (ai bj) sea proporcional a los residuos tipificados rij

La normalizacioacuten simeacutetrica o canoacutenica descompone la matriz C = (rij) en valores singulares calculando matrices Ukxh D y Vmxh con H = miacutenimo k‐1 m‐1 tales que C=UDV siendo UU=VV=I D = diagonal μ1 μ2 μH donde μi equiv valores singulares (i = 1 H)

10

11

Se utilizan para analizar las proximidades entre los puntos haciendo hincapieacute en aquellos factores cuyas contribuciones sean maacutes elevadas cuando se desea explicar dichas proximidades

VI ELEMENTOS SUPLEMENTARIOS

Son filas o columnas de la tabla de contingencia no utilizadas en el caacutelculo de los ejes factoriales pero que una vez calculados eacutestos se situacutean en el diagrama cartesiano con el fin de ayudar en la interpretacioacuten de los resultados obtenidos Sus coordenadas se calculan utilizando las relaciones bariceacutentricas existentes entre los puntos fila y columna

12

VII CASO PRAacuteCTICO

Los siguientes datos corresponden a la distribucioacuten del nuacutemero de parados de tres provincias de Castilla‐Leoacuten en el antildeo 2005 clasificados por Sexo Provincia y Nivel de Estudios

PRIMER ANAacuteLISIS DE LA INFORMACIOacuteN Se comienza con un anaacutelisis univariado de las variables consideradas con la finalidad de identificar determinados patrones de comportamiento

Se solicitan los porcentajes de fila y columna

bull Al comparar los porcentajes de fila se observa que un 98 de los Hombres de Avila parados tienen un nivel de estudios primario (cifra que contrasta a la correspondiente distribucioacuten marginal en la que uacutenicamente un 2 de los parados poseen dicho nivel de estudios) mientras que en Mujeres de Soria paradas un 08 tienen estudios primarios

13

bull Al comparar los porcentajes columna por ejemplo se observa que un 169 de los parados con un nivel de estudios primario son Hombres de Aacutevila (cifra mucho maacutes elevada que la correspondiente a la distribucioacuten marginal en la que tan soacutelo un 34 son Hombres de Aacutevila)

Para interpretar el interior de la tabla desde un punto de vista praacutectico es maacutes sencillo utilizar los residuos estandarizados corregidos

En los residuos estandarizados corregidos la mayor parte son mayores que 2 en valor absoluto (a un nivel del 95 de confianza residuos con un valor absoluto mayor que 2 se consideran como valores anormalmente altos)

Observando ademaacutes el patroacuten de los signos

bull Los residuos positivos para los hombres tienden a situarse en los niveles de estudios maacutes bajos (estudios primarios y certificado escolar) y para las mujeres en los niveles de estudios superiores (graduado escolar bachillerato y diplomados en todas las provincias formacioacuten profesional en Burgos y Soria y universitario en Soria)

14

En la parte inferior del cuadro de diaacutelogo aparecen una serie de Restricciones para las categoriacuteas que permiten unir las categoriacuteas o definir una categoriacutea como suplementaria La reduccioacuten del nuacutemero de categoriacuteas activas que se origina al unir categoriacuteas o definir determinadas categoriacuteas como suplementarias estaacute sujeta a ciertas restricciones (a) el nuacutemero maacuteximo de categoriacuteas que pueden unirse equivale al total de categoriacuteas menos 1 (b) el nuacutemero maacuteximo de categoriacuteas suplementarias es el total de categoriacuteas menos 2

15

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

Si la hipoacutetesis nula se rechaza las variables X e Y son dependientes En este caso conviene analizar los perfiles condicionales fila y columna asiacute como los residuos del modelo para estudiar queacute tipo de dependencia existe entre ellas Los residuos maacutes utilizados son los llamados residuos tipificados corregidos que vienen dados por la expresioacuten

IV ANAacuteLISIS DE LOS RESIDUOS

Los residuos son las diferencias entre la frecuencia observada y la frecuencia esperada en cada casilla rij =nij minuseij En el caso de que el contraste de χ2 haya resultado significativo estos residuos indicaraacuten queacute casillas contribuyen en mayor grado al valor del estadiacutestico

Cuanto mayor sea el valor de los residuos mayor es la probabilidad de que una determinada combinacioacuten de valores de las variables esto es una casilla sea significativa

Para que el anaacutelisis de los residuos resulte adecuado es necesario que previamente eacutestos hayan sido ajustados y estandarizados para lo cual se suele aplicar la foacutermula propuesta por Haberman (1978) que consiste en dividir el valor del residuo en cada casilla por su error tiacutepico

8

V ANAacuteLISIS DE CORRESPONDENCIA SIMPLE

Con los perfiles de filas y columnas descritos se elabora la matriz de coordenadas (distancias) utilizando la distancia chi‐cuadrado que permitiraacute calibrar la magnitud de las diferencias entre la tabla de datos analizada y una tabla de datos sin relacioacuten entre las variables

El meacutetodo consiste en encontrar la descomposicioacuten en valores singulares de la matriz

Para construir un sistema de coordenadas (generalmente bidimensional) asociado a las filas y columnas de la tabla de contingencia que refleje las relaciones existentes entre dichas filas y columnas

En la representacioacuten tienen un papel importante las llamadas distancias χ2 entre perfiles que son las que el anaacutelisis de correspondencias intenta reproducir en sus representaciones graacuteficas Dichas distancias son distancias pitagoacutericas ponderadas entre perfiles que vienen dadas por las siguientes expresiones

Las distancias no se miden entre dos filas o dos columnas sino con relacioacuten al perfil medio de fila o columna es decir con relacioacuten al promedio de las coordenadas de esa fila (o columna) ponderada por su masa (peso proporcional a su importancia en el conjunto)

Este perfil medio apareceraacute situado en el origen de coordenadas y es conocido como centro de gravedad La media de las distancias al cuadrado de cada punto de fila al centro de gravedad se conoce como inercia de filas o inercia de columnas cuando se trata de las columnas e inercia total de la nube de puntos cuando se consideran todos los elementos de la tabla Una inercia baja significa que todos los productos estaacuten situados muy cerca del centro de gravedad y que en consecuencia son muy similares mientras que altos valores de inercia en determinadas categoriacuteas implican grandes diferencias del perfil medio de las filas o las columnas

Posteriormente se procede a diagonalizar la matriz C de varianza‐covarianza con el fin de obtener los vectores y valores propios que definiraacuten los nuevos ejes sobre los que seraacute proyectada la nube de puntos Cuando la cantidad de inercia explicada con los primeros factores sea alta bastaraacute con seleccionar un pequentildeo nuacutemero de eacutestos (dos o tres) y representar la nube de puntos sobre graacuteficos de dos o tres dimensiones obteniendo asiacute una visioacuten simplificada de las relaciones

9

El anaacutelisis de correspondencias busca encontrar dos matrices (A B) de coordenadas cartesianas

Hay diversas formas de calcular las matrices A y B conocidas como normalizaciones Una forma muy utilizada es la conocida como normalizacioacuten simeacutetrica o canoacutenica (ACC) que busca satisfacer que el producto escalar (ai bj) sea proporcional a los residuos tipificados rij

La normalizacioacuten simeacutetrica o canoacutenica descompone la matriz C = (rij) en valores singulares calculando matrices Ukxh D y Vmxh con H = miacutenimo k‐1 m‐1 tales que C=UDV siendo UU=VV=I D = diagonal μ1 μ2 μH donde μi equiv valores singulares (i = 1 H)

10

11

Se utilizan para analizar las proximidades entre los puntos haciendo hincapieacute en aquellos factores cuyas contribuciones sean maacutes elevadas cuando se desea explicar dichas proximidades

VI ELEMENTOS SUPLEMENTARIOS

Son filas o columnas de la tabla de contingencia no utilizadas en el caacutelculo de los ejes factoriales pero que una vez calculados eacutestos se situacutean en el diagrama cartesiano con el fin de ayudar en la interpretacioacuten de los resultados obtenidos Sus coordenadas se calculan utilizando las relaciones bariceacutentricas existentes entre los puntos fila y columna

12

VII CASO PRAacuteCTICO

Los siguientes datos corresponden a la distribucioacuten del nuacutemero de parados de tres provincias de Castilla‐Leoacuten en el antildeo 2005 clasificados por Sexo Provincia y Nivel de Estudios

PRIMER ANAacuteLISIS DE LA INFORMACIOacuteN Se comienza con un anaacutelisis univariado de las variables consideradas con la finalidad de identificar determinados patrones de comportamiento

Se solicitan los porcentajes de fila y columna

bull Al comparar los porcentajes de fila se observa que un 98 de los Hombres de Avila parados tienen un nivel de estudios primario (cifra que contrasta a la correspondiente distribucioacuten marginal en la que uacutenicamente un 2 de los parados poseen dicho nivel de estudios) mientras que en Mujeres de Soria paradas un 08 tienen estudios primarios

13

bull Al comparar los porcentajes columna por ejemplo se observa que un 169 de los parados con un nivel de estudios primario son Hombres de Aacutevila (cifra mucho maacutes elevada que la correspondiente a la distribucioacuten marginal en la que tan soacutelo un 34 son Hombres de Aacutevila)

Para interpretar el interior de la tabla desde un punto de vista praacutectico es maacutes sencillo utilizar los residuos estandarizados corregidos

En los residuos estandarizados corregidos la mayor parte son mayores que 2 en valor absoluto (a un nivel del 95 de confianza residuos con un valor absoluto mayor que 2 se consideran como valores anormalmente altos)

Observando ademaacutes el patroacuten de los signos

bull Los residuos positivos para los hombres tienden a situarse en los niveles de estudios maacutes bajos (estudios primarios y certificado escolar) y para las mujeres en los niveles de estudios superiores (graduado escolar bachillerato y diplomados en todas las provincias formacioacuten profesional en Burgos y Soria y universitario en Soria)

14

En la parte inferior del cuadro de diaacutelogo aparecen una serie de Restricciones para las categoriacuteas que permiten unir las categoriacuteas o definir una categoriacutea como suplementaria La reduccioacuten del nuacutemero de categoriacuteas activas que se origina al unir categoriacuteas o definir determinadas categoriacuteas como suplementarias estaacute sujeta a ciertas restricciones (a) el nuacutemero maacuteximo de categoriacuteas que pueden unirse equivale al total de categoriacuteas menos 1 (b) el nuacutemero maacuteximo de categoriacuteas suplementarias es el total de categoriacuteas menos 2

15

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

V ANAacuteLISIS DE CORRESPONDENCIA SIMPLE

Con los perfiles de filas y columnas descritos se elabora la matriz de coordenadas (distancias) utilizando la distancia chi‐cuadrado que permitiraacute calibrar la magnitud de las diferencias entre la tabla de datos analizada y una tabla de datos sin relacioacuten entre las variables

El meacutetodo consiste en encontrar la descomposicioacuten en valores singulares de la matriz

Para construir un sistema de coordenadas (generalmente bidimensional) asociado a las filas y columnas de la tabla de contingencia que refleje las relaciones existentes entre dichas filas y columnas

En la representacioacuten tienen un papel importante las llamadas distancias χ2 entre perfiles que son las que el anaacutelisis de correspondencias intenta reproducir en sus representaciones graacuteficas Dichas distancias son distancias pitagoacutericas ponderadas entre perfiles que vienen dadas por las siguientes expresiones

Las distancias no se miden entre dos filas o dos columnas sino con relacioacuten al perfil medio de fila o columna es decir con relacioacuten al promedio de las coordenadas de esa fila (o columna) ponderada por su masa (peso proporcional a su importancia en el conjunto)

Este perfil medio apareceraacute situado en el origen de coordenadas y es conocido como centro de gravedad La media de las distancias al cuadrado de cada punto de fila al centro de gravedad se conoce como inercia de filas o inercia de columnas cuando se trata de las columnas e inercia total de la nube de puntos cuando se consideran todos los elementos de la tabla Una inercia baja significa que todos los productos estaacuten situados muy cerca del centro de gravedad y que en consecuencia son muy similares mientras que altos valores de inercia en determinadas categoriacuteas implican grandes diferencias del perfil medio de las filas o las columnas

Posteriormente se procede a diagonalizar la matriz C de varianza‐covarianza con el fin de obtener los vectores y valores propios que definiraacuten los nuevos ejes sobre los que seraacute proyectada la nube de puntos Cuando la cantidad de inercia explicada con los primeros factores sea alta bastaraacute con seleccionar un pequentildeo nuacutemero de eacutestos (dos o tres) y representar la nube de puntos sobre graacuteficos de dos o tres dimensiones obteniendo asiacute una visioacuten simplificada de las relaciones

9

El anaacutelisis de correspondencias busca encontrar dos matrices (A B) de coordenadas cartesianas

Hay diversas formas de calcular las matrices A y B conocidas como normalizaciones Una forma muy utilizada es la conocida como normalizacioacuten simeacutetrica o canoacutenica (ACC) que busca satisfacer que el producto escalar (ai bj) sea proporcional a los residuos tipificados rij

La normalizacioacuten simeacutetrica o canoacutenica descompone la matriz C = (rij) en valores singulares calculando matrices Ukxh D y Vmxh con H = miacutenimo k‐1 m‐1 tales que C=UDV siendo UU=VV=I D = diagonal μ1 μ2 μH donde μi equiv valores singulares (i = 1 H)

10

11

Se utilizan para analizar las proximidades entre los puntos haciendo hincapieacute en aquellos factores cuyas contribuciones sean maacutes elevadas cuando se desea explicar dichas proximidades

VI ELEMENTOS SUPLEMENTARIOS

Son filas o columnas de la tabla de contingencia no utilizadas en el caacutelculo de los ejes factoriales pero que una vez calculados eacutestos se situacutean en el diagrama cartesiano con el fin de ayudar en la interpretacioacuten de los resultados obtenidos Sus coordenadas se calculan utilizando las relaciones bariceacutentricas existentes entre los puntos fila y columna

12

VII CASO PRAacuteCTICO

Los siguientes datos corresponden a la distribucioacuten del nuacutemero de parados de tres provincias de Castilla‐Leoacuten en el antildeo 2005 clasificados por Sexo Provincia y Nivel de Estudios

PRIMER ANAacuteLISIS DE LA INFORMACIOacuteN Se comienza con un anaacutelisis univariado de las variables consideradas con la finalidad de identificar determinados patrones de comportamiento

Se solicitan los porcentajes de fila y columna

bull Al comparar los porcentajes de fila se observa que un 98 de los Hombres de Avila parados tienen un nivel de estudios primario (cifra que contrasta a la correspondiente distribucioacuten marginal en la que uacutenicamente un 2 de los parados poseen dicho nivel de estudios) mientras que en Mujeres de Soria paradas un 08 tienen estudios primarios

13

bull Al comparar los porcentajes columna por ejemplo se observa que un 169 de los parados con un nivel de estudios primario son Hombres de Aacutevila (cifra mucho maacutes elevada que la correspondiente a la distribucioacuten marginal en la que tan soacutelo un 34 son Hombres de Aacutevila)

Para interpretar el interior de la tabla desde un punto de vista praacutectico es maacutes sencillo utilizar los residuos estandarizados corregidos

En los residuos estandarizados corregidos la mayor parte son mayores que 2 en valor absoluto (a un nivel del 95 de confianza residuos con un valor absoluto mayor que 2 se consideran como valores anormalmente altos)

Observando ademaacutes el patroacuten de los signos

bull Los residuos positivos para los hombres tienden a situarse en los niveles de estudios maacutes bajos (estudios primarios y certificado escolar) y para las mujeres en los niveles de estudios superiores (graduado escolar bachillerato y diplomados en todas las provincias formacioacuten profesional en Burgos y Soria y universitario en Soria)

14

En la parte inferior del cuadro de diaacutelogo aparecen una serie de Restricciones para las categoriacuteas que permiten unir las categoriacuteas o definir una categoriacutea como suplementaria La reduccioacuten del nuacutemero de categoriacuteas activas que se origina al unir categoriacuteas o definir determinadas categoriacuteas como suplementarias estaacute sujeta a ciertas restricciones (a) el nuacutemero maacuteximo de categoriacuteas que pueden unirse equivale al total de categoriacuteas menos 1 (b) el nuacutemero maacuteximo de categoriacuteas suplementarias es el total de categoriacuteas menos 2

15

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

El anaacutelisis de correspondencias busca encontrar dos matrices (A B) de coordenadas cartesianas

Hay diversas formas de calcular las matrices A y B conocidas como normalizaciones Una forma muy utilizada es la conocida como normalizacioacuten simeacutetrica o canoacutenica (ACC) que busca satisfacer que el producto escalar (ai bj) sea proporcional a los residuos tipificados rij

La normalizacioacuten simeacutetrica o canoacutenica descompone la matriz C = (rij) en valores singulares calculando matrices Ukxh D y Vmxh con H = miacutenimo k‐1 m‐1 tales que C=UDV siendo UU=VV=I D = diagonal μ1 μ2 μH donde μi equiv valores singulares (i = 1 H)

10

11

Se utilizan para analizar las proximidades entre los puntos haciendo hincapieacute en aquellos factores cuyas contribuciones sean maacutes elevadas cuando se desea explicar dichas proximidades

VI ELEMENTOS SUPLEMENTARIOS

Son filas o columnas de la tabla de contingencia no utilizadas en el caacutelculo de los ejes factoriales pero que una vez calculados eacutestos se situacutean en el diagrama cartesiano con el fin de ayudar en la interpretacioacuten de los resultados obtenidos Sus coordenadas se calculan utilizando las relaciones bariceacutentricas existentes entre los puntos fila y columna

12

VII CASO PRAacuteCTICO

Los siguientes datos corresponden a la distribucioacuten del nuacutemero de parados de tres provincias de Castilla‐Leoacuten en el antildeo 2005 clasificados por Sexo Provincia y Nivel de Estudios

PRIMER ANAacuteLISIS DE LA INFORMACIOacuteN Se comienza con un anaacutelisis univariado de las variables consideradas con la finalidad de identificar determinados patrones de comportamiento

Se solicitan los porcentajes de fila y columna

bull Al comparar los porcentajes de fila se observa que un 98 de los Hombres de Avila parados tienen un nivel de estudios primario (cifra que contrasta a la correspondiente distribucioacuten marginal en la que uacutenicamente un 2 de los parados poseen dicho nivel de estudios) mientras que en Mujeres de Soria paradas un 08 tienen estudios primarios

13

bull Al comparar los porcentajes columna por ejemplo se observa que un 169 de los parados con un nivel de estudios primario son Hombres de Aacutevila (cifra mucho maacutes elevada que la correspondiente a la distribucioacuten marginal en la que tan soacutelo un 34 son Hombres de Aacutevila)

Para interpretar el interior de la tabla desde un punto de vista praacutectico es maacutes sencillo utilizar los residuos estandarizados corregidos

En los residuos estandarizados corregidos la mayor parte son mayores que 2 en valor absoluto (a un nivel del 95 de confianza residuos con un valor absoluto mayor que 2 se consideran como valores anormalmente altos)

Observando ademaacutes el patroacuten de los signos

bull Los residuos positivos para los hombres tienden a situarse en los niveles de estudios maacutes bajos (estudios primarios y certificado escolar) y para las mujeres en los niveles de estudios superiores (graduado escolar bachillerato y diplomados en todas las provincias formacioacuten profesional en Burgos y Soria y universitario en Soria)

14

En la parte inferior del cuadro de diaacutelogo aparecen una serie de Restricciones para las categoriacuteas que permiten unir las categoriacuteas o definir una categoriacutea como suplementaria La reduccioacuten del nuacutemero de categoriacuteas activas que se origina al unir categoriacuteas o definir determinadas categoriacuteas como suplementarias estaacute sujeta a ciertas restricciones (a) el nuacutemero maacuteximo de categoriacuteas que pueden unirse equivale al total de categoriacuteas menos 1 (b) el nuacutemero maacuteximo de categoriacuteas suplementarias es el total de categoriacuteas menos 2

15

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

11

Se utilizan para analizar las proximidades entre los puntos haciendo hincapieacute en aquellos factores cuyas contribuciones sean maacutes elevadas cuando se desea explicar dichas proximidades

VI ELEMENTOS SUPLEMENTARIOS

Son filas o columnas de la tabla de contingencia no utilizadas en el caacutelculo de los ejes factoriales pero que una vez calculados eacutestos se situacutean en el diagrama cartesiano con el fin de ayudar en la interpretacioacuten de los resultados obtenidos Sus coordenadas se calculan utilizando las relaciones bariceacutentricas existentes entre los puntos fila y columna

12

VII CASO PRAacuteCTICO

Los siguientes datos corresponden a la distribucioacuten del nuacutemero de parados de tres provincias de Castilla‐Leoacuten en el antildeo 2005 clasificados por Sexo Provincia y Nivel de Estudios

PRIMER ANAacuteLISIS DE LA INFORMACIOacuteN Se comienza con un anaacutelisis univariado de las variables consideradas con la finalidad de identificar determinados patrones de comportamiento

Se solicitan los porcentajes de fila y columna

bull Al comparar los porcentajes de fila se observa que un 98 de los Hombres de Avila parados tienen un nivel de estudios primario (cifra que contrasta a la correspondiente distribucioacuten marginal en la que uacutenicamente un 2 de los parados poseen dicho nivel de estudios) mientras que en Mujeres de Soria paradas un 08 tienen estudios primarios

13

bull Al comparar los porcentajes columna por ejemplo se observa que un 169 de los parados con un nivel de estudios primario son Hombres de Aacutevila (cifra mucho maacutes elevada que la correspondiente a la distribucioacuten marginal en la que tan soacutelo un 34 son Hombres de Aacutevila)

Para interpretar el interior de la tabla desde un punto de vista praacutectico es maacutes sencillo utilizar los residuos estandarizados corregidos

En los residuos estandarizados corregidos la mayor parte son mayores que 2 en valor absoluto (a un nivel del 95 de confianza residuos con un valor absoluto mayor que 2 se consideran como valores anormalmente altos)

Observando ademaacutes el patroacuten de los signos

bull Los residuos positivos para los hombres tienden a situarse en los niveles de estudios maacutes bajos (estudios primarios y certificado escolar) y para las mujeres en los niveles de estudios superiores (graduado escolar bachillerato y diplomados en todas las provincias formacioacuten profesional en Burgos y Soria y universitario en Soria)

14

En la parte inferior del cuadro de diaacutelogo aparecen una serie de Restricciones para las categoriacuteas que permiten unir las categoriacuteas o definir una categoriacutea como suplementaria La reduccioacuten del nuacutemero de categoriacuteas activas que se origina al unir categoriacuteas o definir determinadas categoriacuteas como suplementarias estaacute sujeta a ciertas restricciones (a) el nuacutemero maacuteximo de categoriacuteas que pueden unirse equivale al total de categoriacuteas menos 1 (b) el nuacutemero maacuteximo de categoriacuteas suplementarias es el total de categoriacuteas menos 2

15

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

Se utilizan para analizar las proximidades entre los puntos haciendo hincapieacute en aquellos factores cuyas contribuciones sean maacutes elevadas cuando se desea explicar dichas proximidades

VI ELEMENTOS SUPLEMENTARIOS

Son filas o columnas de la tabla de contingencia no utilizadas en el caacutelculo de los ejes factoriales pero que una vez calculados eacutestos se situacutean en el diagrama cartesiano con el fin de ayudar en la interpretacioacuten de los resultados obtenidos Sus coordenadas se calculan utilizando las relaciones bariceacutentricas existentes entre los puntos fila y columna

12

VII CASO PRAacuteCTICO

Los siguientes datos corresponden a la distribucioacuten del nuacutemero de parados de tres provincias de Castilla‐Leoacuten en el antildeo 2005 clasificados por Sexo Provincia y Nivel de Estudios

PRIMER ANAacuteLISIS DE LA INFORMACIOacuteN Se comienza con un anaacutelisis univariado de las variables consideradas con la finalidad de identificar determinados patrones de comportamiento

Se solicitan los porcentajes de fila y columna

bull Al comparar los porcentajes de fila se observa que un 98 de los Hombres de Avila parados tienen un nivel de estudios primario (cifra que contrasta a la correspondiente distribucioacuten marginal en la que uacutenicamente un 2 de los parados poseen dicho nivel de estudios) mientras que en Mujeres de Soria paradas un 08 tienen estudios primarios

13

bull Al comparar los porcentajes columna por ejemplo se observa que un 169 de los parados con un nivel de estudios primario son Hombres de Aacutevila (cifra mucho maacutes elevada que la correspondiente a la distribucioacuten marginal en la que tan soacutelo un 34 son Hombres de Aacutevila)

Para interpretar el interior de la tabla desde un punto de vista praacutectico es maacutes sencillo utilizar los residuos estandarizados corregidos

En los residuos estandarizados corregidos la mayor parte son mayores que 2 en valor absoluto (a un nivel del 95 de confianza residuos con un valor absoluto mayor que 2 se consideran como valores anormalmente altos)

Observando ademaacutes el patroacuten de los signos

bull Los residuos positivos para los hombres tienden a situarse en los niveles de estudios maacutes bajos (estudios primarios y certificado escolar) y para las mujeres en los niveles de estudios superiores (graduado escolar bachillerato y diplomados en todas las provincias formacioacuten profesional en Burgos y Soria y universitario en Soria)

14

En la parte inferior del cuadro de diaacutelogo aparecen una serie de Restricciones para las categoriacuteas que permiten unir las categoriacuteas o definir una categoriacutea como suplementaria La reduccioacuten del nuacutemero de categoriacuteas activas que se origina al unir categoriacuteas o definir determinadas categoriacuteas como suplementarias estaacute sujeta a ciertas restricciones (a) el nuacutemero maacuteximo de categoriacuteas que pueden unirse equivale al total de categoriacuteas menos 1 (b) el nuacutemero maacuteximo de categoriacuteas suplementarias es el total de categoriacuteas menos 2

15

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

VII CASO PRAacuteCTICO

Los siguientes datos corresponden a la distribucioacuten del nuacutemero de parados de tres provincias de Castilla‐Leoacuten en el antildeo 2005 clasificados por Sexo Provincia y Nivel de Estudios

PRIMER ANAacuteLISIS DE LA INFORMACIOacuteN Se comienza con un anaacutelisis univariado de las variables consideradas con la finalidad de identificar determinados patrones de comportamiento

Se solicitan los porcentajes de fila y columna

bull Al comparar los porcentajes de fila se observa que un 98 de los Hombres de Avila parados tienen un nivel de estudios primario (cifra que contrasta a la correspondiente distribucioacuten marginal en la que uacutenicamente un 2 de los parados poseen dicho nivel de estudios) mientras que en Mujeres de Soria paradas un 08 tienen estudios primarios

13

bull Al comparar los porcentajes columna por ejemplo se observa que un 169 de los parados con un nivel de estudios primario son Hombres de Aacutevila (cifra mucho maacutes elevada que la correspondiente a la distribucioacuten marginal en la que tan soacutelo un 34 son Hombres de Aacutevila)

Para interpretar el interior de la tabla desde un punto de vista praacutectico es maacutes sencillo utilizar los residuos estandarizados corregidos

En los residuos estandarizados corregidos la mayor parte son mayores que 2 en valor absoluto (a un nivel del 95 de confianza residuos con un valor absoluto mayor que 2 se consideran como valores anormalmente altos)

Observando ademaacutes el patroacuten de los signos

bull Los residuos positivos para los hombres tienden a situarse en los niveles de estudios maacutes bajos (estudios primarios y certificado escolar) y para las mujeres en los niveles de estudios superiores (graduado escolar bachillerato y diplomados en todas las provincias formacioacuten profesional en Burgos y Soria y universitario en Soria)

14

En la parte inferior del cuadro de diaacutelogo aparecen una serie de Restricciones para las categoriacuteas que permiten unir las categoriacuteas o definir una categoriacutea como suplementaria La reduccioacuten del nuacutemero de categoriacuteas activas que se origina al unir categoriacuteas o definir determinadas categoriacuteas como suplementarias estaacute sujeta a ciertas restricciones (a) el nuacutemero maacuteximo de categoriacuteas que pueden unirse equivale al total de categoriacuteas menos 1 (b) el nuacutemero maacuteximo de categoriacuteas suplementarias es el total de categoriacuteas menos 2

15

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

bull Al comparar los porcentajes columna por ejemplo se observa que un 169 de los parados con un nivel de estudios primario son Hombres de Aacutevila (cifra mucho maacutes elevada que la correspondiente a la distribucioacuten marginal en la que tan soacutelo un 34 son Hombres de Aacutevila)

Para interpretar el interior de la tabla desde un punto de vista praacutectico es maacutes sencillo utilizar los residuos estandarizados corregidos

En los residuos estandarizados corregidos la mayor parte son mayores que 2 en valor absoluto (a un nivel del 95 de confianza residuos con un valor absoluto mayor que 2 se consideran como valores anormalmente altos)

Observando ademaacutes el patroacuten de los signos

bull Los residuos positivos para los hombres tienden a situarse en los niveles de estudios maacutes bajos (estudios primarios y certificado escolar) y para las mujeres en los niveles de estudios superiores (graduado escolar bachillerato y diplomados en todas las provincias formacioacuten profesional en Burgos y Soria y universitario en Soria)

14

En la parte inferior del cuadro de diaacutelogo aparecen una serie de Restricciones para las categoriacuteas que permiten unir las categoriacuteas o definir una categoriacutea como suplementaria La reduccioacuten del nuacutemero de categoriacuteas activas que se origina al unir categoriacuteas o definir determinadas categoriacuteas como suplementarias estaacute sujeta a ciertas restricciones (a) el nuacutemero maacuteximo de categoriacuteas que pueden unirse equivale al total de categoriacuteas menos 1 (b) el nuacutemero maacuteximo de categoriacuteas suplementarias es el total de categoriacuteas menos 2

15

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

En la parte inferior del cuadro de diaacutelogo aparecen una serie de Restricciones para las categoriacuteas que permiten unir las categoriacuteas o definir una categoriacutea como suplementaria La reduccioacuten del nuacutemero de categoriacuteas activas que se origina al unir categoriacuteas o definir determinadas categoriacuteas como suplementarias estaacute sujeta a ciertas restricciones (a) el nuacutemero maacuteximo de categoriacuteas que pueden unirse equivale al total de categoriacuteas menos 1 (b) el nuacutemero maacuteximo de categoriacuteas suplementarias es el total de categoriacuteas menos 2

15

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

Dimensiones en la solucioacuten Nuacutemero de dimensiones necesarias para explicar la mayor parte de la variacioacuten El nuacutemero maacuteximo de factores es igual al nuacutemero de filas menos 1 (o al de columnas menos 1) el que sea menor En este ejemplo con dos variables respectivamente con 6 y 7 categoriacuteas cada variable el nuacutemero maacuteximo seraacute (6‐1=5) Sin embargo el investigador deberaacute especificar el menor nuacutemero de factores para explicar el maacuteximo de inercia buscando siempre el equilibrio entre parsimonia e interpretabilidad

Aunque por defecto el programa selecciona 2 dimensiones cuando se realiza el primer anaacutelisis de un conjunto de datos es conveniente solicitar un nuacutemero elevado de dimensiones con el fin de explicar un alto porcentaje de inercia y disponer asiacute de la maacutexima informacioacuten para decidir la dimensionalidad adecuada

Medidas de distancia Entre las filas y las columnas se pueden medir entre dos medidas

1048707 Distancia chi‐cuadrado Las modalidades se ponderan en funcioacuten de la masa de las filas o columnas Utilizada para el anaacutelisis de correspondencias estaacutendar

1048707 Distancia eucliacutedea Raiacutez cuadrada de la suma cuadraacutetica de las diferencias entre pares de filas y entre pares de columnas Joaristi y Lizasoain desaconsejan la utilizacioacuten de esta diferencia porque considera a todos los elementos con el mismo peso llegando a desvirtuar el anaacutelisis de correspondencias

1048707 Meacutetodo de estandarizacioacuten Cuando se realiza la distancia chi‐cuadrado el programa centra las filas y las columnas al presentar uacutenicamente la opcioacuten Se eliminan las medias de filas y columnas Con la distancia eucliacutedea se activan todas las opciones disponibles

1048707 Meacutetodo de normalizacioacuten La normalizacioacuten se utiliza para distribuir la inercia de la tabla por filas yo columnas de modo que el meacutetodo elegido uacutenicamente afectaraacute a las puntuaciones y a las varianzas de las filas y columnas El resto de resultados no cambian (autovalores inercia explicada por cada factor y el porcentaje de inercia explicada) El SPSS contempla cinco meacutetodos de distribucioacuten de inercia

1048707 Simeacutetrico (canoacutenico) En cada dimensioacuten las puntuaciones de fila son el promedio ponderado de las puntuaciones de columna divididas por el autovalor correspondiente mientras que las puntuaciones de columna son el promedio ponderado de las puntuaciones de fila divididas por el autovalor Se aconseja utilizar este meacutetodo cuando se desean examinar las diferencias (o similitudes) entre las dos variables Es el meacutetodo elegido para nuestro ejemplo

16

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

1048707 Principal por fila Las puntuaciones de la fila son la media ponderada de la puntuacioacuten de las columnas maximizando asiacute las distancias entre las categoriacuteas de la variable fila Meacutetodo aconsejable cuando el objetivo es analizar las diferencias entre las categoriacuteas de la variable situada en las filas

1048707 Principal por columna Cuando el objetivo es analizar las diferencias o similitudes entre las categoriacuteas de la variable columna se utiliza este meacutetodo que considera las puntuaciones de las columnas como la media ponderada de la puntuacioacuten de las filas llegando asiacute a maximizar las distancias entre las columnas

1048707 Principal Las distancias obtenidas con este meacutetodo representan la distancia existente entre cada fila (o columna) a la distancia promedio del perfil fila (o columnas) Este meacutetodo se utiliza cuando se desean examinar las diferencias entre las categoriacuteas de la variable fila y las diferencias entre las categoriacuteas de la variable columna pero no las diferencias entre variables Con este meacutetodo no es posible representar el Diagrama de dispersioacuten biespacial (submenuacute Estadiacutesticos)

1048707 Personalizado Introduciendo un valor entre ndash1 y 1 en la ventana situada a la derecha de esta opcioacuten El valor ndash1 realiza un anaacutelisis principal por columna el 1 un anaacutelisis principal por fila y el 0 un anaacutelisis simeacutetrico Dentro de estos limites el valor elegido dispersaraacute la inercia sobre las puntuaciones de fila o columna en grados diversos Una de las ventajas de este meacutetodo es que permite crear diagramas de dispersioacuten biespaciales a medida

1048707 Tabla de correspondencias Muestra una tabla de contingencia de las variables de entrada (fichero de datos) incluyendo el nuacutemero de casos en cada celda y los totales marginales de fila y columna

1048707 Inspeccioacuten de los puntos de la fila Para cada categoriacutea de la variable fila se muestran las masas puntuaciones inercia contribucioacuten absoluta (contribucioacuten de la dimensioacuten a la inercia) y relativa (contribucioacuten de la dimensioacuten a la inercia del punto)

1048707 Inspeccioacuten de los puntos de columna Masas puntuaciones inercia contribucioacuten de la dimensioacuten a la inercia (contribucioacuten absoluta) y contribucioacuten de la dimensioacuten a la inercia del punto (contribucioacuten relativa) para cada categoriacutea de la variable situada en la columna

1048707 Permutaciones de la tabla de correspondencias Realiza una ordenacioacuten de la tabla de correspondencias situando las filas y las columnas en orden ascendente en funcioacuten de las puntuaciones de la primera dimensioacuten Es posible representar el resto de dimensiones colocando un nuacutemero en la ventana Dimensioacuten maacutexima para las permutaciones al realizarlo se genera una tabla permutada para cada dimensioacuten desde la primera hasta el nuacutemero especificado

1048707 Perfiles de fila Proporcioacuten de cada categoriacutea con relacioacuten al marginal de fila

17

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

1048707 Perfiles de columna Proporcioacuten de cada categoriacutea con relacioacuten al marginal de columna

1048707 Estadiacutesticos de confianza para puntos de fila Desviacioacuten tiacutepica y correlaciones para los puntos de fila activos

1048707 Estadiacutesticos de confianza para puntos de columna Desviacioacuten tiacutepica y correlaciones para los puntos de columna activos

1048707 Graacuteficos de liacutenea Generan un graacutefico para cada dimensioacuten de la variable seleccionada

1048707 Categoriacutea de filas transformadas Representacioacuten graacutefica de las coordenadas de la variable fila

1048707 Categoriacutea de columnas transformadas Representa los valores de la variable colocada en la columna

Todas las soluciones graacuteficas permiten delimitar el nuacutemero de caracteres de las etiquetas de valor que seraacuten utilizadas en la representacioacuten graacutefica (Ancho de etiqueta de ID para diagramas de dispersioacuten o para graacuteficos de liacuteneas) Aunque el programa permite utilizar hasta 20 caracteres se aconseja utilizar cuatro o cinco para facilitar la claridad e interpretacioacuten del graacutefico

18

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

En la tabla se muestran las contribuciones de cada una de las H = miacutenimo 6‐1 7‐1 dimensiones calculadas a la inercia totalLa primera dimensioacuten contribuye con 0825 (825) a dicha inercia y las dos primeras dimensiones contribuyen con un 969 mientras que las tres primeras dimensiones contribuyen a un 989 por lo que se concluye que las dependencias observadas en la tabla vienen adecuadamente capturadas por las 2 primeras dimensiones

El anaacutelisis de las contribuciones relativa del examen de los puntos de fila refleja una elevada representatividad con valores cercanos a la unidad en la uacuteltima columna de las categoriacuteas en los factores

En la tabla de examen de los puntos fila (primer factor) Hombres de Burgos tiene una puntuacioacuten de (‐0781) y Hombres de Aacutevila (‐1235) respectivamente contribuyen a su inercia con una puntuacioacuten de (0143) y (0236) En la parte positiva del primer factor se encuentran las mujeres es decir el primer factor discrimina por sexos

En el examen de los puntos fila (segundo factor) discrimina separando esencialmente a Hombres de Aacutevila con una puntuacioacuten de (1082) y a Hombres de Soria (‐0290) Los puntos que maacutes contribuyen a su inercia son consecuentemente los puntos fila de Hombres Aacutevila (0433) y Hombres Soria (0295)

Por otra parte el segundo factor tiene una contribucioacuten relativa a la inercia nada despreciable de los puntos fila de Aacutevila (hombres y mujeres) Mujeres de Burgos y Hombres de Soria

19

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

En la figura adjunta se observa que la primera dimensioacuten discrimina por sexos La segunda dimensioacuten discrimina por provincias separando especialmente a Aacutevila de Soria

20

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

En la tabla se muestra la masa (peso proporcional a su importancia en el conjunto) de cada columna las coordenadas de las columnas en los factores la contribucioacuten de cada columna a la inercia total las contribuciones absolutas y relativas

El primer factor discrimina los niveles de estudio maacutes bajos ‐ primaria (0253) y certificado escolar (0398) ‐ frente al resto siendo eacutestas modalidades junto a la de diplomados (0178) las que maacutes contribuyen a su inercia De otra parte el primer factor es el que maacutes contribuye a la inercia de todos los perfiles de columna

El segundo factor separa el perfil correspondiente al nivel de estudios de primaria (0600) del resto de los niveles Destacar que el segundo factor tiene una contribucioacuten relativa nada despreciable a la inercia de los que tienen estudios de primaria (0291) y estudios de formacioacuten profesional (0235)

21

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

Por uacuteltimo se presenta un graacutefico conjunto de los puntos correspondientes a los perfiles condicionales de fila y columna

Se observa que la primera dimensioacuten discrimina entre sexos debido a la tendencia a haber maacutes parados varones en los niveles de estudios maacutes bajos (estudios primarios y certificado escolaridad) y maacutes parados mujeres en el resto de los niveles Este hecho de manifiesto analizando las relaciones de proximidad y alejamiento de los puntos fila y columna

Asiacute por ejemplo la cercaniacutea entre los puntos fila Hombres de Aacutevila y columna Estudios Primarios es debida a la tendencia en ambos perfiles a tener mayor nuacutemero de parados de la modalidad representada por el otro perfil

Tambieacuten se observa que la segunda dimensioacuten pone de manifiesto la asociacioacuten positiva existente entre las categoriacuteas (Mujer de Burgos y Mujer de Aacutevila y Diplomado) y las de (Mujer de Soria y Universitario) mostrando una especializacioacuten en el tipo de paro existente en las mujeres de Castilla‐Leoacuten

En Mujeres de Burgos y Aacutevila tiende a haber mayores niveles de paro relativo en Diplomado mientras que en Mujeres de Soria hay mayor nivel de paro relativo en Universitario

22

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

VIII CONCLUSIONES

Hoy en diacutea el uso de las computadoras juegan un papel importante como ayuda del investigador es importante indicar que al hablar de confiabilidad y de objetividad de los resultados obtenidos se debe tomar cuenta la calidad del dato mismo (de la informacioacuten obtenida y plasmada en la base de datos) la cual garantizaraacute el eacutexito de la investigacioacuten

El anaacutelisis de correspondencias baacutesicamente es un doble anaacutelisis de componentes principales uno realizado sobre las filas y el segundo sobre las columnas de la matriz de partida Es una herramienta orientada como ayuda en la generacioacuten de teoriacuteas facilitando la eleccioacuten previa de las caracteriacutesticas o modalidades maacutes significativas frente a otros criterios de tipo teoacuterico Basandose la teacutecnica maacutes en las caracteriacutesticas de anaacutelisis generales e intuitivos frente a otro tipo de anaacutelisis maacutes detallados

23

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24

IX BIBLIOGRAFIA

Anaacutelisis estadiacutestico con SPSS de Magdalena Ferran Aranez 2001 Editorial Osborne ndash McGraw-Hill Anaacutelisis Multivariante de Hair ndash Anderson ndash Tatham ndash Black 1999 Prentice- Hall

24