MetEstMulInvSocialParte2_AC.pdf

download MetEstMulInvSocialParte2_AC.pdf

of 25

Transcript of MetEstMulInvSocialParte2_AC.pdf

  • Simposio de Estadstica 2001 i

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    2. ANLISIS DE CORRESPONDENCIAS SIMPLES .....................................................................31 2.1. Dominio de aplicacin ................................................................................................................31 2.2. Fundamentos del mtodo............................................................................................................32

    2.2.1. Tabla de frecuencias relativas ............................................................................................32 2.2.2. Tablas de perfiles fila y columna .......................................................................................33

    2.3. Nubes de perfiles fila y columna ................................................................................................35 2.3.1. La distancia ji-cuadrado entre perfiles ...............................................................................36 2.3.2. Centro de gravedad de la nube de perfiles fila (en Rp).......................................................37 2.3.3. Inercia de la nube de puntos...............................................................................................37

    2.4. Solucin del anlisis de correspondencias simples - ACS..........................................................38 2.5. Relaciones cuasi-bibaricentricas.................................................................................................39 2.6. Proyeccin de elementos suplementarios ...................................................................................41 2.7. Ayudas a la interpretacin ..........................................................................................................41

    2.7.1. Contribucin absoluta del punto i en el eje , ca(i)..........................................................42 2.7.2. Contribucin relativa del eje a la posicin de un punto i, cr(i) .....................................42

    2.8. Un ejemplo de aplicacin: estudio de la situacin regional de la educacin media en Colombia (1997-1998). ............................................................................................................................................43

    2.8.1. Presentacin .......................................................................................................................43 2.8.2. Anlisis de tablas y grficos...............................................................................................43 2.8.3. Conclusiones. .....................................................................................................................46

    2.9. Ejercicio: Estudio de la situacin regional de la educacin media en Colombia (1997-1998). Desagregando educacin oficial y educacin privada en cada departamento. ........................................49

    2.9.1. Presentacin. ......................................................................................................................49 2.9.2. Gua para el anlisis. ..........................................................................................................49

    TABLAS Y GRAFICOS Tabla 2-1: Tabla de contingencia: razones x mtodo...................................................................................31 Tabla 2-2: tabla de frecuencias relativas (%) ...............................................................................................32 Tabla 2-3: perfiles fila ..................................................................................................................................34 Tabla 2-4: perfiles columna..........................................................................................................................34 Grfico 2-1: distancia jicuadrado .................................................................................................................36 Grfico 2-2: primer plano factorial con razones de abandono .....................................................................38 Grfico 2-3: primer plano factorial con mtodos anticonceptivos ...............................................................38 Tabla 2-5: Resultados del ejemplo razones x mtodos ................................................................................40 Grfico 2-4: representacin simultnea para el ejemplo razones x mtodos ...............................................41 Grfico 2-5: coseno cuadrado ......................................................................................................................42

  • Simposio de Estadstica 2001 ii

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    Tabla 2-6: Clasificacin de los planteles de educacin media por departamentos. Segn resultados obtenidos por los estudiantes de grado 11 en los exmenes de Estado. Agosto 1997 y Marzo 1998 ......... 44 Tabla 2-7: Histograma de los 4 primeros valores propios.......................................................................... 44 Tabla 2-8: coordenadas, contribuciones y cosenos cuadrados .................................................................... 45 Grfico 2-6: Primer Plano Factorial. Proyeccin conjunta de los perfiles filas y los perfiles columnas.... 46 Grfico 2-7: Agrupamiento aproximado de los Departamentos................................................................. 46 Grfico 2-8: Perfiles de los Departamentos Reordenados.......................................................................... 48 Tabla 2-9: Departamentos (Educacin Oficial Educacin Privada) contra Categora ............................. 51 Tabla 2-10: Resultados del ejercicio ........................................................................................................... 52 Grfico 2-9: Proyeccin de los Puntos-Departamentos sobre el primer plano factorial.............................. 53 Grfico 2-10: Proyeccin conjunta de los puntos-departamentos y los puntos-categoras sobre el primer plano factorial.............................................................................................................................................. 53

  • Simposio de Estadstica 2001 31

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    2. ANLISIS DE CORRESPONDENCIAS SIMPLES 2.1. Dominio de aplicacin El anlisis de correspondencias simples es el mtodo factorial apropiado para la lectura de tablas de contingencia y se extiende a otras tablas de frecuencia. El ejemplo de aplicacin es una tabla de contingencia que cruza los departamentos de Colombia con la calificacin de sus colegios (instituciones de enseanza secundaria, Tabla 2-6).. El ejercicio que se propone tambin corresponde a la clasificacin de planteles por parte del icfes, pero en este caso en cada departamento se han separado los planteles de educacin oficial de los privados (Tabla 2-9). Una tabla de contingencia cruza dos variables cualitativas. En las filas se representan las modalidades de una variable y en las columnas la de la otra variable. El subndice i denota las filas y el subndice j las columnas. Cada celda (i,j) de la tabla contiene el nmero de individuos (unidades estadsticas) que asumieron simultneamente las categoras o modalidades i y j. Al sumar sobre una fila se obtiene el total de individuos que asumieron esa modalidad fila y hacindolo para todas las filas de obtiene una columna que es la marginal de la variable representada en las filas. El mismo proceso se puede hacer para las columnas para obtener la marginal de la variable representada en las columnas. Para ilustrar tomemos un ejemplo reducido: a una muestra de 4402 mujeres que abandonaron el ltimo mtodo anticonceptivo que usaban regularmente, se les pregunt las razones para hacerlo. Para este ejemplo se agruparon los mtodos en tres modalidades: mtodos fuertes (pldora, diu e inyeccin), otros (vaginales, abstinencia peridica, retiro y otros menos usados) y condn. Estos se etiquetan en la tabla como FUER, OTRO y COND, respectivamente. Las razones de abandono se agruparon en cuatro modalidades: EMBA, qued embarazada o busca un mtodo ms seguro; DEEM, desea embarazo, tiene relaciones poco frecuentes, por creencias fatalistas y otros; NONE, no necesita o no tiene acceso; SALU, problemas de salud, efectos secundarios o costo. La tabla de contingencia que cruza estas dos variables, mtodos anticonceptivos y razones para abandonarlos, es la Tabla 2-1, en la cual aparecen tambin las marginales y el total. La ltima columna representa la reparticin de las 4402 mujeres entre las cuatro causas por las que abandonaron el ltimo mtodo anticonceptivo que venan usando, por ejemplo, 1157 lo hicieron por razones de salud o efectos secundarios. La ltima fila representa la distribucin de las mujeres entre las tres clases de mtodos anticonceptivos: 2908 usaban mtodos fuertes, 1242 otros mtodos y 252 condn. Cualquier nmero interior de la tabla representa el nmero de mujeres que usaban el mtodo indicado por la columna y la razn indicada por la fila. Por ejemplo 1106 mujeres usaban mtodos fuertes y los abandonaron por razones de salud.

    Tabla 2-1: Tabla de contingencia: razones x mtodo

    FUER OTRO COND Tot.fila EMBA 431 632 71 1134 DEEM 1166 425 92 1683 NONE 205 142 81 428 SALU 1106 43 8 1157

    Tot.columna 2908 1242 252 4402

    Conviene tener una notacin generalizada para cualquier tabla de contingencia: sea K la tabla de contingencia, k el nmero total de individuos, ki. la marginal de la fila i, k.j la marginal de la columna j.

  • Simposio de Estadstica 2001 32

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    =

    = ===

    =

    =

    ===

    =

    =

    n

    iijj

    n

    i

    p

    jji

    p

    jij

    n

    ipj

    p

    jiji

    n

    i

    npnjn

    ij

    pj

    kk

    kkkkkkkk

    kk

    k

    k

    k

    kkk

    k

    kkk

    K

    1

    1 1111

    1

    1

    1

    1111

    .

    .......

    .

    .

    .

    .

    LL

    M

    M

    LL

    MMM

    LLLL

    MMM

    LL

    En la Tabla 2-1: k21 =1166, k22 =425, k23 =92 y k2o =1166+425+92 =1683. Sumando la ltima columna o la ultima fila se obtiene el total de mujeres de la muestra: k

    =4402.

    2.2. Fundamentos del mtodo Lo que interesa en el anlisis de una tabla de contingencia es el estudio de las asociaciones entre las modalidades de las dos variables. Estas se pueden ver mediante la comparacin de los distribuciones condicionales (perfiles) de las modalidades fila por un lado y de las columnas por el otro. No es entonces la tabla de contingencia la que se representa geomtricamente sino dos tablas de perfiles en dos espacios diferentes pero que estn relacionados. Es decir que el mtodo requiere de transformaciones de las tabla de contingencia inicial.

    2.2.1. Tabla de frecuencias relativas Si la Tabla 2-1 se hubiera construido con una muestra de otro nmero de mujeres y suponiendo que las reparticiones fueran exactamente las mismas, los nmeros de la tabla seran todos diferentes a pesar de tener la misma estructura de interrelaciones. Para eliminar este inconveniente basta dividir todas las celdas de la tabla por el total, k

    =4402, con lo cual se obtiene una tabla de frecuencias relativas, la que se presenta en la Tabla 2-2. Si se multiplican todos los nmeros de la tabla por 100, se tiene la misma informacin pero expresada en porcentajes.

    Tabla 2-2: Frecuencias relativas razones x mtodo (%) FUER OTRO COND Tot.fila

    OCO EMBA 9.8 14.4 1.6 25.8 DEEM 26.5 9.7 2.1 38.2 NONE 4.7 3.2 1.8 9.7 SALU 25.1 1.0 0.2 26.3

    Tot.col.OFI

    66.1 28.2 5.7 100.0

    El total de la tabla suma 100%, al interior de la tabla se tiene la distribucin de frecuencias conjunta entre las dos variables (mtodos y razones). Por ejemplo el 3.2% del total de mujeres usaban otro mtodo y lo

  • Simposio de Estadstica 2001 33

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    abandonaron porque no lo necesitaban; el 25.1% de las mujeres de la muestra, usaban mtodos fuertes y los abandonaron por razones de salud. La ltima columna de la Tabla 2-2 es la distribucin marginal de la variable razones: 25.8% de las mujeres abandonaron el mtodo que usaban (cualquiera) por que quedaron embarazadas o porque buscaban un mtodo ms seguro; 38.2% por que deseaban embarazo; 9.7% porque no lo necesitaban y 26.3% por razones de salud. La ltima fila de la Tabla 2-2 es la distribucin marginal de los mtodos: de las mujeres de la muestra el 66.1% usaba mtodos fuertes, el 28.2% otros mtodos y el 5.5% usaba condn. Una notacin generalizada de una tabla de frecuencias, calculada a partir de una tabla de contingencias es la siguiente:

    =

    = ===

    =

    =

    ===

    =

    =

    ===

    n

    iijj

    n

    i

    p

    jji

    p

    jij

    n

    ipj

    p

    jiji

    n

    i

    npnjn

    ij

    pj

    jj

    ii

    ijij

    ff

    ffffff

    ff

    f

    f

    f

    fff

    f

    fff

    F

    kkf

    kkf

    kkf

    1

    1 1111

    1

    1

    1

    1111

    .

    ..11...

    .

    .

    .

    .

    .

    .,

    .

    .,

    LL

    M

    M

    LL

    MMM

    LLLL

    MMM

    LL

    2.2.2. Tablas de perfiles fila y columna La lectura interesante de la informacin contenida en una tabla de contingencia es la comparacin entre filas y entre columnas. En la tabla de frecuencias relativas las filas y las columnas estn influenciadas por el peso relativo de sus marginales. La comparacin se facilita obteniendo las distribuciones condicionales o perfiles de cada una de las filas y de cada una de las columnas. Para obtener la distribucin condicional de la fila i, se dividen todas las celdas de esa fila por el valor total de la fila. De manera anloga se obtienen las condicionales de las columnas. Se llega entonces a dos tablas: una de perfiles fila y otra de perfiles columna. A partir de la Tabla 2-1 o de la Tabla 2-2 se obtienen la Tabla 2-3, de perfiles fila: por ejemplo para la fila 2, 26.5/38.2 = 0.6928 9.7/38.2= 0.2525 y 2.1/38.2 = 0.547 y expresados en porcentaje: 69.28, 25.25 y 5.47.

  • Simposio de Estadstica 2001 34

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    Tabla 2-3: Perfiles fila, razones de abandono segn mtodos

    FUER OTRO COND Tot.fila

    EMBA 38.01 55.73 6.26 100.00

    DEEM 69.28 25.25 5.47 100.00

    NONE 47.90 33.18 18.93 100.00

    SALU 95.59 3.72 0.69 100.00

    0.00 50.00 100.00

    EMBA

    DEEM

    NONE

    SALU

    CONDOTROFUER

    Tanto en la tabla como en grfico se pueden comparar fcilmente los perfiles fila: el abandono del mtodo por embarazo o por buscar uno ms seguro se da ms en los otros mtodos (58%), luego en los mtodos fuertes (38%) y finalmente en el condn (6%). Los abandonos por salud ocurren en los mtodos fuertes (96%). Los perfiles desea embarazo y no necesita son los ms parecidos en su forma. En ambos los mtodos se ordenan segn frecuencia as: lo mtodos fuertes, en otros y en condn. La Tabla 2-4 contiene los perfiles columna expresados en porcentaje, calculados a partir de la Tabla 2-1 o de la Tabla 2-2, dividiendo la celda en cada columna por la marginal, por ejemplo para la columna 3: 1.6/5.7 = 0.2817 = 28.17% 2.1/5.7 = 0.3651 = 36.51% 1.8/5.7 = 0.3214 = 32.14% 0.2/5.7 = 0.0317 = 3.17%

    Tabla 2-4: Perfiles columna, mtodos segn razone de abandono

    FUER OTRO COND

    EMBA 14.82 50.89 28.17

    DEEM 40.10 34.22 36.51

    NONE 7.05 11.43 32.14

    SALU 38.03 3.46 3.17

    Tot.col. 100.00 100.00 100.00

    0.00

    10.00

    20.00

    30.00

    40.00

    50.00

    60.00

    FUER OTRO COND

    EMBADEEMNONESALU

    A partir de la Tabla 2-4 y su grfico asociado se pueden comparar los tres perfiles columna: lo que diferencia a los tres mtodos son los abandonos por salud y por no necesidad, siendo ms abandonado por salud el grupo de mtodos fuertes y por no necesidad el condn.

  • Simposio de Estadstica 2001 35

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    De los perfiles filas y columnas en conjunto se puede concluir principalmente que hay una correspondencia entre los mtodos fuertes y el abandono por salud y efectos secundarios. Tambin se puede observar una correspondencia entre los otros mtodos y el abandono por embarazo y por buscar un mtodo ms seguro. En trminos generalizados los perfiles se pueden representar de la siguiente forma, si se obtienen a partir de la tabla de frecuencias relativas:

    perfiles fila ff perfiles columnaff

    ij

    i

    ij

    j.

    .

    . .

    .

    . . ..

    L L L

    L L

    L L L

    M M M

    M M

    M M M

    111

    1 1 1

    En el anlisis de correspondencias simples (ACS) se busca una representacin ms adecuada para analizar simultneamente los perfiles fila y columna obtenidos a partir de una tabla de contingencia. Cuando se tienen tablas de contingencia de gran tamao es muy difcil obtener una sntesis apropiada de forma como se hizo en el ejemplo. Para el ACS se parte de la representacin de los perfiles fila en un espacio multidimensional, donde las columnas son los ejes y simtricamente de otra nube de perfiles columna, donde las lneas son los ejes. Para ello se requiere del uso de una distancia apropiada: la distancia ji-cuadrado entre distribuciones.

    2.3. Nubes de perfiles fila y columna En el ejemplo se tienen cuatro puntos fila que se pueden representar haciendo corresponder a cada una de las tres columnas un eje, es decir que cada punto necesita tres coordenadas para poderlo ubicar en el espacio de tres dimensiones. Para cada una de las filas las coordenadas se pueden leer en la Tabla 2-3. A cada punto se le asocia como peso la marginal de la fila que representa y que se puede leer en la Tabla 2-2. Las coordenada de los puntos fila y sus pesos se transcriben a continuacin:

    Coordenadas Pesos EMBA: [38.01 55.73 6.26] 0.258 DEEM: [69.28 25.25 5.47] 0.382 NONE: [47.90 33.18 18.93] 0.097 SALU: [95.59 3.72 0.69] 0.263

    La representacin de estos cuatro perfiles se hace mediante 4 puntos en el espacio de tres dimensiones y adems a cada punto se le asocia una masa o peso que es igual a la marginal de la fila de la tabla de frecuencias (ltima columna de la Tabla 2-2). Pero la distancia que se utiliza no es la euclidiana convencional sino la distancia ji-cuadrado, la cual se presenta ms adelante. Para los perfiles columna la situacin en simtrica: hay tres puntos representados en un espacio de cuatro dimensiones, FUER, OTRO, COND. A continuacin se hace la descripcin de los perfiles en forma generalizada.

    Nube de perfiles fila En el espacio Rp se representan los n perfiles fila, dotados del peso pi = fi.

  • Simposio de Estadstica 2001 36

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    .......2,1,.....2,1,.

    iii

    ij fpconnipjff

    ==

    =

    Nube de perfiles columna En el espacio Rn cada punto representa un perfil columna y esta dotado de un peso igual a la marginal la respectiva columna.

    jjj

    ij fpconpjniff

    .......2,1,.....2,1,.

    ==

    =

    2.3.1. La distancia ji-cuadrado entre perfiles La distancia ji-cuadrado entre dos perfiles fila i e i viene dada por:

    d i i fff

    ffj

    ij

    i

    ij

    ij

    p2

    2

    1

    1( , ). . .

    =

    =

    Para el caso de dos lneas, esta distancia, es la suma de la diferencia de cada una de las respectivas componentes de los dos perfiles, ponderadas por el inverso de las frecuencias marginales de las columnas respectivas. Con este peso las diferencias se amplifican cuando se deben a columnas de baja frecuencia, es decir tiende a destacar los casos raros. El Grfico 2-1 se presenta para facilitar la comprensin de los elementos de la distancia ji-cuadrado.

    Grfico 2-1: distancia jicuadrado

    Perfil i:

    Pesos de las columnas f.j

    ( )jiij

    ff

    Perfil l:

    ( )jllj

    ff

    (i )

    (l)

    (j)

    .

    En el ejemplo las frecuencias marginales de las columnas son: 0.661, 0.282 y 0.057. La distancia ji-cuadrado entre la fila 1 y la fila 2 es: (0.3801-0.6928)2 /0.661 + (0.5573-0.2525)2 /0.282 + (0.0626-0.0547)2 /0.057 = 0.09778129/0.661 + 0.09290304/0.282 + 0.00006241/0.057 = 0.1479 + 0.3294 + 0.0011 = 0.4784

  • Simposio de Estadstica 2001 37

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    De manera simtrica, la distancia entre perfiles columna es:

    =

    =

    n

    i k

    ik

    j

    ij

    i ff

    ff

    fkjd 1

    2

    .

    2 1),(

    La distancia ji-cuadrado confiere al anlisis de correspondencias dos propiedades muy tiles: la equivalencia distribucional y las relaciones de transicin.

    La equivalencia distribucional de la distancia ji-cuadrado Dos perfiles fila idnticos estn representados por el mismo punto en Rp. Si se reemplazan los dos puntos por un punto comn, cuyo peso sea la suma de los pesos (fi. + fl.), entonces las distancias de los dems puntos, tanto en Rp como en Rn permanecen inalteradas. Igual resultado se obtiene para dos perfiles idnticos en Rn.. En Crivisqui (1993) hay una descripcin bastante pedaggica de esta propiedad y en Lebart et al. (1995) se encuentra la demostracin. Con la distancia ji-cuadrado los resultados son robustos respecto a la determinacin arbitraria del nmero de categoras filas y categoras columna. Esto permite unir modalidades antes y despus de un anlisis de correspondencias. Antes, cuando hay modalidades de baja frecuencia que se pueden asimilar a otra modalidad, por ejemplo muy bueno a bueno. Despus, para presentar los resultados del ACS con tablas reducidas, uniendo filas y columnas de perfiles parecidos.

    2.3.2. Centro de gravedad de la nube de perfiles fila (en Rp) Sea rg el vector de p componentes, centro de gravedad de la nube de perfiles fila, la componente j es:

    j

    n

    i i

    iji

    i

    ijn

    iij ff

    ffff

    pg

    =

    =

    =

    =

    =

    11

    es decir que [ ]pj fffg = LLr 1 En el ejemplo el centro de gravedad es: (0.6606, 0.2821, 0.0572), que es la distribucin marginal de la variable que esta en columna, es decir la distribucin de los mtodos anticonceptivos usados por las mujeres de la muestra. Esta es la distribucin promedio con la cual se comparan las distribuciones condicionales de las razones de abandono. Esta distribucin se coloca en el centro de representacin.

    2.3.3. Inercia de la nube de puntos La inercia de la nube de puntos respecto al centro de gravedad es:

    ( ) ( )kff

    ffff

    fffffgidpI

    n

    i

    p

    j ji

    jiijn

    i

    p

    j i

    jiij

    ji

    n

    ii

    2

    1 1

    22

    1 11

    2 1,

    =

    =

    ==

    = == == oo

    oo

    o

    oo

    o

    o

    donde 2 es la estadstica ji-cuadrado, de la prueba de independencia, calculada para la tabla de contingencia K y k es el nmero total de individuos en la tabla. Crivisqui (1993) ilustra el hecho de que la nube de puntos perfiles es una hiperesfera en el caso de independencia en la tabla de contingencia. La inercia es un ndice de deformacin de la nube y se puede descomponer en los diferentes ejes de la representacin. Lo que se tiene hasta ahora son dos representaciones que contienen la informacin de la tabla de contingencia: la nube de perfiles fila y la nube de perfiles columna, con puntos ponderados, centradas y con una inercia asociada. Esta informacin es apta para llevar a cabo dos anlisis de componentes principales con ponderacin. La solucin tiene propiedades particulares derivadas de la propiedades de las tablas de perfiles y de las propiedades de la distancia ji-cuadrado.

  • Simposio de Estadstica 2001 38

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    2.4. Solucin del anlisis de correspondencias simples - ACS Encontrar el subespacio (plano cuando son dos dimensiones) que se aproxime lo mejor posible a la nube de n puntos (perfiles fila i), dotados de los pesos fi., equivale a hacer un anlisis de en componentes principales sobre la tabla de los perfiles fila, cada uno ponderado por su frecuencia marginal y utilizando la distancia ji-cuadrado entre perfiles. Los planos factoriales de los individuos permiten comparar los perfiles fila entre s y con el perfil marginal (promedio). El perfil marginal esta ubicado en el centro de las grficas y por lo tanto la ubicacin de los puntos perfiles indican el parecido (cerca) o la diferencia (lejos) de la distribucin de la muestra o poblacin segn las modalidades de la variable que est en columna. El Grfico 2-2 es el primer plano factorial de razones de abandono. Las razones de SALUD y EMBARAZO tienen las distribuciones ms opuestas. La razn DESEA EMBARAZO es la ms parecida a la distribucin promedio de los mtodos utilizados. En este caso la representacin en el plano contiene toda la informacin pues, para cada perfil fila (razones de abandono), se necesitan tres coordenadas (mtodo), pero como cada perfil suma uno, se pierde una dimensin: una de las coordenadas se puede encontrar restando de uno las dems.

    Grfico 2-2: primer plano factorial con razones de abandono

    De manera similar se obtiene la representacin para la nube de perfiles columna: puntos perfiles columna, ponderados por sus marginales y con la distancia ji-cuadrado (ponderacin por el inverso de las marginales fila). El Grfico 2-3 presenta los puntos perfiles columna que representan las distribuciones de los mtodos anticonceptivos segn sus razones de abandono. Las ms opuestas son mtodos fuertes y otros mtodos.

  • Simposio de Estadstica 2001 39

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    2.5. Relaciones cuasi-bibaricentricas Los ejes factoriales de los anlisis de las dos nubes de perfiles estas relacionadas puesto que provienen de la misma tabla de contingencia. En Lebart et al. (1995) y otros textos se pueden ver las denominadas relaciones entre los dos espacios. Las ms importantes desde el punto de vista de la interpretacin de las grficas son las denominadas relaciones cuasi-bibaricentricas, propiedad derivada de utilizar la distancia ji-cuadrado.

    Grfico 2-3: primer plano factorial con mtodos anticonceptivos

    La coordenada sobre un eje factorial de una modalidad fila (perfil) se puede calcular as:

    iij

    ij

    p

    jff=

    =

    1

    1 o

    Esta frmula significa que la coordenada de un perfil fila es igual al promedio aritmtico de las coordenadas de los perfiles columna pero cada una ponderada por el valor de la coordenada del perfil fila que se est considerando y adems dilatado por el inverso del la raz del valor propio. Para entender mejor esta propiedad se procede a calcular la coordenada de EMBA (-0.60) en funcin de las coordenadas de mtodos:

    ( )60.0)275.0(1848.2)0326.03678.01254.0(1848.2

    .52)0.0626x(-0 66).5573x(-0.0 30.3801x0.32095.01

    1,

    ===

    ++=EMBA

    Las ponderaciones se toman de la Tabla 2-3, el valor propio y las coordenadas de la Tabla 2-5. La media ponderada es 0.275, este es un baricentro de las coordenadas de las modalidades columna. Como la

  • Simposio de Estadstica 2001 40

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    modalidad otros mtodos es la de mayor frecuencia (55.73%) en el perfil de embarazo, otros mtodos va a atraer a la modalidad embarazo y grficamente se va a observar una cercana, dando cuenta de este hecho. Desde luego hay una dilatacin (alejamiento) de la coordenada de 2.1848, la cual generalmente hace destacar esa asociacin. La dilatacin (por la que se introduce la palabra cuasi) es la que permite la representacin simultnea de las proyecciones de los dos espacios.(Grfico 2-4). De manera simtrica, la coordenada de un perfil columna se calcula como el promedio ponderado por su perfil de las coordenadas de los perfiles propios y dilatada por el inverso de la raz del valor propio:

    in

    i j

    ijj f

    f

    =

    =

    1

    1o

    Exceptuando el coeficiente 1 , la coordenada de un punto es el baricentro de los puntos de la otra nube, con pesos iguales a los elementos del perfil. Haciendo la dilatacin apropiada las dos nubes se pueden representar simultneamente sobre el mismo plano.

    Tabla 2-5: Resultados del ejemplo razones x mtodos HISTOGRAMA DE LOS 2 PRIMEROS VALORES PROPIOS +--------+------------+----------+----------+------------------------------------------+

    | NUMERO | VALOR | PORCENTA.| PORCENTA.| | | | PROPIO | | ACUMU. | | +--------+------------+----------+----------+------------------------------------------+

    | 1 | .2095 | 87.55 | 87.55 | **************************************** | | 2 | .0298 | 12.45 | 100.00 | ***** | +--------+------------+----------+----------+------------------------------------------+

    COORDENADAS , CONTRIBUCIONES Y COSENOS CUADRADOS DE LAS FRECUENCIAS EN LOS EJES 1 A 2 +------------------------------------------+---------------+-------------+------------+

    | FRECUENCIAS | COORDENADAS |CONTRIBUCIONE|COSENOS CUA.| |------------------------------------------+---------------+-------------+------------| | IDEN - ETIQUETA CORTA PESO R DIST | 1 2 | 1 2 | 1 2 | +------------------------------------------+---------------+-------------+------------+

    | FRECUENCIAS ACTIVAS | | fuer - Metodos fuertes 66.06 .11 | .33 .01 | 33.8 .2 | 1.00 .00 | | otro - Otros metodos 28.21 .45 | -.66 .12 | 58.8 13.0 | .97 .03 | | cond - Condon 5.72 .72 | -.52 -.67 | 7.4 86.9 | .38 .62 | |------------------------------------------+---------------+-------------+------------|

    COORDENADAS, CONTRIBUCIONES Y COSENOS CUADRADOS DE LOS INDIVIDUOS EN LOS EJES 1 A 2 +---------------------------------------+---------------+-------------+------------+

    | INDIVIDUOS | COORDENADAS |CONTRIBUCIONE|COSENOS CUA.| |---------------------------------------+---------------+-------------+------------| | IDENTIFICADOR P.REL DIST. | 1 2 | 1 2 | 1 2 | +---------------------------------------+---------------+-------------+------------+

    | EMBA 25.76 .39 | -.60 .15 | 44.8 20.1 | .94 .06 | | DEEM 38.23 .00 | .07 -.01 | .9 .1 | .98 .02 | | NONE 9.72 .36 | -.35 -.49 | 5.7 78.1 | .34 .66 | | SALU 26.28 .39 | .62 .04 | 48.5 1.7 | 1.00 .00 | +---------------------------------------+---------------+-------------+------------+

    La lectura simultnea apoyada en las relaciones cuasi-bibaricntricas pone en evidencia las correspondencias ms destacadas entre las dos variables. En el Grfico 2-4 se observa la asociacin entre las modalidades EMBARAZO y otro mtodo, NO NECESITA y condn, SALUD y mtodos fuertes. El abandono de los mtodos fuertes se debe a razones de SALUD y a DESEA EMBARAZO. Esto es exactamente lo mismo que se puede leer fcilmente en las tablas y e histogramas de los perfiles (Tabla 2-3

  • Simposio de Estadstica 2001 41

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    y Tabla 2-4). Obviamente el mtodo es til en grandes tablas de contingencia en donde un observador se puede perder en la gran cantidad de cifras. Porqu SALUD est ms alejada que la modalidad fuerte?. En la distribucin de las mujeres que abandonaron el mtodo que usaban por razones de SALUD (ver Tabla 2-3) casi el 96% estaba usando mtodos fuertes. En cambio para el grupo que usaba mtodos fuertes el 38% lo abandonaron por razones de SALUD y el 40% porque deseaban quedar embarazadas, es decir que los mtodos fuertes tambin estn atrados por DEEM (ver Tabla 2-4).

    Grfico 2-4: representacin simultnea para el ejemplo razones x mtodos

    2.6. Proyeccin de elementos suplementarios Al igual que en ACP sobre los ejes factoriales se pueden proyectar filas y columnas que no hayan participando en el anlisis. Se hace mediante las relaciones cuasi-bibaricntricas y por lo tanto se interpreta de la misma forma, pero debe hacerse por cada modalidad ilustrativa con respecto a las modalidades activas. No es apropiado interpretar modalidades ilustrativas entre s pues no han participado en la construccin de los ejes. Esto se ilustrar en los ejemplos de ms adelante.

    2.7. Ayudas a la interpretacin En un ACS las modalidades aparecen repartidas a ambos lados de los ejes, lo que conlleva a la lectura de las contraposiciones ms importantes entre modalidades. En el ejemplo de mtodos x razones, en el eje uno se contraponen los mtodos otros con fuertes y las razones EMBARAZO con SALUD (ver Grfico 2-4). En una tabla de contingencia de gran tamao se puede buscar las modalidades ms importantes sobre cada eje recurriendo a las denominadas contribuciones absolutas. En el ejemplo se leen en la Tabla 2-5.

  • Simposio de Estadstica 2001 42

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    Las proyecciones sobre los ejes y sobre los planos factoriales sern muy buenas para algunos puntos pero tambin pueden ser de mala calidad para otros puntos. Se requiere entonces de un ndice que ponga en evidencia este hecho, que se denomina coseno cuadrado o contribucin relativa. Los cosenos cuadrados para el ejemplo se pueden leer en la Tabla 2-5. A continuacin se presentan las expresiones de las contribuciones absolutas y relativas para las modalidades fila. Las expresiones para las modalidades columna tienen la misma forma y la misma interpretacin.

    2.7.1. Contribucin absoluta del punto i en el eje , ca(i)

    ( )ca i f i i

    =o

    2

    Es la proporcin con que cada punto contribuye a la inercia del eje. Los puntos que tengan contribucin absoluta alta son los que fijan la posicin del eje. La suma de las contribuciones es 1, por comodidad se expresan en porcentaje. La contribucin absoluta depende tanto del peso de la modalidad como del valor de la proyeccin, y la combinacin de estos dos valores da origen a distintas situaciones: una modalidad no tan alejada del origen puede ser muy contributiva si tiene una frecuencia alta. No necesariamente los puntos ms alejados del origen son los ms contributivos.

    2.7.2. Contribucin relativa del eje a la posicin de un punto i, cr(i)

    ( ) ( )Gidicri

    ,2

    2

    =

    Estos valores son el cociente de las longitudes al cuadrado de la proyeccin sobre el eje, sobre la distancia del punto al centro de gravedad (centro de la representacin). Es el valor del coseno al cuadrado del ngulo que forman las rectas que unen el origen con cada uno de los dos puntos (el punto perfil y su proyeccin sobre el eje). El coseno cuadrado tiene valores entre 0 y 1 y la suma de los cosenos cuadrados de un punto sobre cada uno de los ejes da uno, hechos estos que facilitan su interpretacin. Un coseno cuadrado cercano al 100% indica buena calidad de la proyeccin, es decir, buena representacin de la distancia original del punto al origen sobre un eje. Valores cercanos a 0 indican mala calidad de representacin y por lo tanto los puntos que los posean no deben leerse sobre ese eje (ver Grfico 2-5). El coseno cuadrado sobre un plano se obtiene sumando los cosenos cuadrados de los ejes que los conforman.

    Grfico 2-5: coseno cuadrado

    G

    Cos2(i)0

    i

    Cos2(i)1

    G

    i

    i. bien representado sobre el eje i. mal representado sobre el eje

    (Tomado de Lebart (1995))

  • Simposio de Estadstica 2001 43

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    2.8. Un ejemplo de aplicacin: estudio de la situacin regional de la educacin media en Colombia (1997-1998). 2.8.1. Presentacin Para este estudio se parte de informacin aportada por el ICFES. El instituto clasifica los planteles educativos teniendo en cuenta los resultados obtenidos por los estudiantes que egresan de los mismos. Cada colegio es clasificado en una de 7 categoras, desde Muy Inferior hasta Muy Superior. El criterio de clasificacin es el promedio de los puntajes obtenidos por sus egresados en la prueba que el Icfes aplica a todos los egresados de la educacin media. La Tabla 2-6 es una tabla de contingencia: cada celda contiene el nmero de planteles clasificados en una categora y departamento especificado. Es decir, en Antioquia 14 planteles fueron clasificados en la categora Muy Superior, mientras que en Bolvar 20 fueron clasificados en Alto. Frente a esta tabla cabe preguntarse si la distribucin de los planteles educativos en cuanto a su calidad es aproximadamente igual para todos los departamentos, o si por el contrario, es posible encontrar tipologas de departamentos, es decir, grupos de departamentos con una distribucin similar entre ellos que los diferencia, a su vez, de otros grupos de departamentos. Despus de una primera exploracin se decidi eliminar los departamentos con una muy baja cobertura (se restringi la tabla a aquellos departamentos cuyo nmero de planteles supera el 1 % del total nacional), al departamento del Choc por tener una distribucin muy atpica, y juntar Bogot y Cundinamarca en una sola categora. Las preguntas ms importantes son: Cuales son las distribuciones que se apartan del perfil promedio? Qu tipologas de Departamentos podran ser establecidas?. Para responder a estos interrogantes una de las tcnicas mas adecuadas es el Anlisis de Correspondencia Simples o Binarias. Se proceder a continuacin a explicar como hacer dicho anlisis en este caso particular.

    2.8.2. Anlisis de tablas y grficos.

    Descomposicin de la Inercia total. Despus de una primera exploracin de la tabla usando el anlisis de correspondencias se convino en juntar las categoras extremas Muy Inferior e Inferior en una sola categora que llamamos Infer, y Muy Superior y Superior en una sola categora Super. En consecuencia, solo quedaron cinco columnas, y por esa razn, el histograma de valores propios solo muestra cuatro valores propios, de los cuales los dos primeros recogen ms del 91 % de la inercia total. Por esta razn, podemos concentrar la atencin en el anlisis del primer plano factorial.

  • Simposio de Estadstica 2001 44

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    Tabla 2-6: Clasificacin de los planteles de educacin media por departamentos. Segn resultados obtenidos por los estudiantes de grado 11 en los exmenes de Estado. Agosto 1997 y Marzo 1998

    Departamento Muy

    Superior

    Superior

    Alto

    Medio

    Bajo

    Inferior Muy

    Inferior

    Total Amazonas 0 0 0 0 3 2 0 5 Antioquia 14 15 52 100 343 89 1 614 Arauca 0 0 3 12 12 3 0 30 Atlantico 8 13 26 42 183 130 1 403 Bolivar 5 4 20 42 130 75 0 276 Bogota 62 58 222 363 277 2 0 984 Boyaca 1 10 33 130 60 5 0 239 Caldas 2 10 14 61 91 23 0 201 Caqueta 0 0 1 10 32 12 0 55 Casanare 0 0 4 16 12 1 0 32 Cauca 3 3 13 50 60 37 0 166 Cesar 2 2 6 15 76 61 0 162 Cordoba 1 2 5 15 87 36 0 146 Cundinamarca 2 12 40 155 148 11 0 368 Choco 0 0 0 7 16 34 9 66 Guainia 0 0 0 1 1 0 0 2 Guaviare 0 0 0 1 3 0 0 4 Huila 3 3 13 69 56 12 0 156 La Guajira 1 2 1 8 42 30 1 85 Magdalena 0 2 6 18 76 78 1 181 Meta 0 2 14 44 57 11 0 128 Nario 3 6 27 93 64 29 0 222 N. de Santander 4 5 24 69 106 16 0 224 Putumayo 0 0 2 10 17 2 0 31 Quindio 1 2 8 23 43 1 0 78 Risaralda 3 2 18 24 79 8 0 134 San Andres 0 0 0 3 4 4 0 11 Santander 9 12 41 113 116 11 0 302 Sucre 0 2 7 18 60 18 0 105 Tolima 2 3 11 82 140 28 0 266 Valle 13 24 61 131 275 91 0 595 Vaupes 0 0 0 1 1 1 0 3 Vichada 0 0 0 3 1 0 0 4

    Total 139 194 672 1729 2671 861 13 6279 (Fuente: ICFES)

    Tabla 2-7: Histograma de los 4 primeros valores propios APRECIACION DE LA PRECISION DE LOS CALCULOS : TRAZA ANTES DE LA DIAGONALIZACION .................... 0.2235 SUMA DE LOS VALORES PROPIOS .......................... 0.2235 +--------+------------+----------+----------+----------------------------------------------------------------------------------+

    | NUMERO | VALOR | PORCENTA.| PORCENTA.| | | | PROPIO | | ACUMUL. | | +--------+------------+----------+----------+----------------------------------------------------------------------------------+

    | 1 | 0.1817 | 81.28 | 81.28 | ******************************************************************************** | | 2 | 0.0239 | 10.70 | 91.98 | *********** | | 3 | 0.0164 | 7.36 | 99.34 | ******** | | 4 | 0.0015 | 0.66 | 100.00 | * | +--------+------------+----------+----------+----------------------------------------------------------------------------------+

  • Simposio de Estadstica 2001 45

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    Anlisis del primer plano factorial. Proyeccin de los puntos perfiles columnas (categoras). En el Grfico 2-6 se puede observar que a lo largo del primer eje se enfrentan las categoras Infer y Bajo a Alto, Medio y Super , sin embargo, al examinar las contribuciones y cosenos cuadrados en la Tabla 2-8 vemos que Bajo, con un peso relativo grande del 42.7% tiene una pequea contribucin a la inercia en el primer eje. Esto significa que este perfil es muy cercano al perfil promedio; de otra parte, Super, con un peso relativamente pequeo, es poco contributivo al primer eje, pero tambin es el ms mal representado en el primer plano factorial (suma de cosenos =.52) . De lo anterior se sigue que los perfiles que definen el primer eje son Infer de un lado y Alto y Medio por el otro. De una manera similar se puede ver que el segundo eje factorial enfrenta principalmente la categora Infer a Bajo. Proyeccin de los puntos perfiles filas (Departamentos). Examinando conjuntamente el Grfico 2-6 y la Tabla 2-8, que recoge las coordenadas, contribuciones y cosenos cuadrados de los perfiles de los departamentos podemos decir que el primer eje factorial enfrenta a departamentos como Magdalena, Atlntico, Cesar, Guajira en un extremo a Boyac y Bog+Cund por el otro. El segundo eje factorial enfrenta a los departamentos como Magdalena, Cauca, Nario y Boyac a Antioquia, Risaralda y Quindo. Es de advertir que la nube de puntos de los departamentos tiende a formar una especie de arco parablico que tiene como foco al departamento del Cauca que parece aislado del resto.

    Tabla 2-8: Coordenadas, contribuciones y cosenos cuadrados COORDENADAS, CONTRIBUCIONES DE LAS FRECUENCIAS SOBRE LOS EJES 1 A 4 FRECUENCIAS ACTIVAS +------------------------------------------+-------------------------------+--------------------------+--------------------------+

    | FRECUENCIAS | COORDENADAS | CONTRIBUCIONES | COSENOS CUADRADOS | |------------------------------------------+-------------------------------+--------------------------+--------------------------| | IDEN ETIQUETA P.REL DISTO | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0 | +------------------------------------------+-------------------------------+--------------------------+--------------------------+

    | ALTO - Alto 10.89 0.25 | -0.44 -0.06 0.21 0.08 0.00 | 11.4 1.5 30.2 46.0 0.0 | 0.78 0.01 0.19 0.03 0.00 | | MEDI - Medio 27.50 0.20 | -0.41 -0.11 -0.14 -0.01 0.00 | 25.8 13.2 32.1 1.3 0.0 | 0.85 0.06 0.10 0.00 0.00 | | BAJO - Bajo 42.71 0.05 | 0.16 0.17 -0.01 0.00 0.00 | 5.8 51.0 0.5 0.0 0.0 | 0.46 0.53 0.00 0.00 0.00 | | SUPE - Super 5.47 0.26 | -0.36 -0.07 0.33 -0.12 0.00 | 3.9 1.1 37.1 52.5 0.0 | 0.50 0.02 0.43 0.05 0.00 | | INFE - Infer 13.43 0.78 | 0.85 -0.24 0.02 0.00 0.00 | 53.0 33.2 0.2 0.2 0.0 | 0.92 0.08 0.00 0.00 0.00 | +------------------------------------------+-------------------------------+--------------------------+--------------------------+

    COORDENADAS, CONTRIBUCIONES Y COSENOS CUADRADOS DE LOS INDIVIDUOS EJES 1 A 4 +---------------------------------------+-------------------------------+--------------------------+--------------------------+

    | INDIVIDUOS | COORDENADAS | CONTRIBUCIONES | COSENOS CUADRADOS | |---------------------------------------+-------------------------------+--------------------------+--------------------------| | IDENTIFICADOR P.REL DISTO | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0 | +---------------------------------------+-------------------------------+--------------------------+--------------------------+

    | ANTQ 10.08 0.09 | 0.21 0.21 0.05 0.00 0.00 | 2.5 19.4 1.5 0.1 0.0 | 0.48 0.49 0.03 0.00 0.00 | | ATLA 6.62 0.40 | 0.60 -0.13 0.13 -0.02 0.00 | 13.2 5.0 6.4 2.6 0.0 | 0.91 0.05 0.04 0.00 0.00 | | BOLI 4.53 0.22 | 0.46 -0.06 0.03 0.04 0.00 | 5.4 0.7 0.2 3.9 0.0 | 0.97 0.02 0.00 0.01 0.00 | | BOYA 3.92 0.44 | -0.57 -0.21 -0.26 0.02 0.00 | 7.1 7.1 16.2 0.9 0.0 | 0.75 0.10 0.15 0.00 0.00 | | CALD 3.30 0.02 | -0.02 0.05 -0.09 -0.11 0.00 | 0.0 0.4 1.6 24.8 0.0 | 0.02 0.12 0.35 0.50 0.00 | | CAQE 0.90 0.27 | 0.45 0.16 -0.20 0.01 0.00 | 1.0 1.0 2.1 0.1 0.0 | 0.76 0.09 0.14 0.00 0.00 | | CAUC 2.73 0.09 | 0.17 -0.21 -0.11 0.00 0.00 | 0.5 5.0 2.0 0.0 0.0 | 0.35 0.51 0.14 0.00 0.00 | | CESA 2.66 0.63 | 0.77 -0.17 0.03 0.01 0.00 | 8.7 3.1 0.1 0.3 0.0 | 0.95 0.05 0.00 0.00 0.00 | | CORD 2.40 0.34 | 0.56 0.17 -0.03 0.00 0.00 | 4.1 2.9 0.1 0.0 0.0 | 0.91 0.09 0.00 0.00 0.00 | | HUIL 2.56 0.15 | -0.26 -0.08 -0.27 -0.04 0.00 | 1.0 0.7 11.0 3.4 0.0 | 0.46 0.05 0.48 0.01 0.00 | | GUAJ 1.40 0.62 | 0.77 -0.12 0.01 -0.07 0.00 | 4.6 0.8 0.0 5.3 0.0 | 0.97 0.02 0.00 0.01 0.00 | | MADG 2.97 0.88 | 0.88 -0.31 -0.01 0.05 0.00 | 12.7 12.2 0.0 5.7 0.0 | 0.89 0.11 0.00 0.00 0.00 | | META 2.10 0.06 | -0.12 0.07 -0.18 0.10 0.00 | 0.2 0.4 4.3 14.5 0.0 | 0.24 0.07 0.53 0.16 0.00 | | NARI 3.65 0.13 | -0.20 -0.24 -0.16 0.04 0.00 | 0.8 9.1 5.5 4.1 0.0 | 0.32 0.47 0.20 0.01 0.00 | | NORT 3.68 0.04 | -0.13 0.13 -0.09 0.03 0.00 | 0.3 2.7 1.8 1.7 0.0 | 0.37 0.42 0.19 0.02 0.00 | | QUIN 1.28 0.15 | -0.19 0.32 -0.10 0.02 0.00 | 0.3 5.6 0.8 0.2 0.0 | 0.25 0.68 0.07 0.00 0.00 | | RISA 2.20 0.15 | -0.01 0.36 0.07 0.12 0.00 | 0.0 11.9 0.7 19.8 0.0 | 0.00 0.87 0.04 0.09 0.00 | | SANT 4.96 0.12 | -0.35 0.02 -0.03 -0.02 0.00 | 3.3 0.1 0.3 1.8 0.0 | 0.98 0.00 0.01 0.00 0.00 | | SUCR 1.72 0.14 | 0.30 0.20 -0.06 0.05 0.00 | 0.9 3.0 0.4 2.7 0.0 | 0.66 0.30 0.03 0.02 0.00 | | TOLI 4.37 0.10 | 0.05 0.17 -0.26 -0.04 0.00 | 0.1 5.4 17.4 4.8 0.0 | 0.02 0.30 0.66 0.02 0.00 | | VALL 9.77 0.02 | 0.10 0.05 0.07 -0.02 0.00 | 0.6 0.9 2.7 3.4 0.0 | 0.60 0.12 0.25 0.03 0.00 | | BO+CU 22.20 0.29 | -0.52 -0.05 0.14 0.00 0.00 | 32.9 2.7 24.9 0.0 0.0 | 0.93 0.01 0.06 0.00 0.00 | +---------------------------------------+-------------------------------+--------------------------+--------------------------+

  • Simposio de Estadstica 2001 46

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    Grfico 2-6: Primer Plano Factorial. Proyeccin conjunta de los perfiles filas y los perfiles columnas

    Proyeccin Conjunta de los puntos perfiles categoras y los perfiles - departamentos. La proyeccin conjunta permite observar aproximadamente tres centros de gravedad constituidos por las categoras, en torno a los cuales se agrupan los departamentos. En un extremo est la Categora Infer que parece ser el centro de gravedad de los departamentos encerrados en el circulo en el Grfico 2-7. En ese mismo grfico se han trazado crculos para definir aproximadamente los otros dos agrupamientos. Naturalmente quedan por fuera de esos crculos algunos puntos cuya ubicacin en uno u otros agrupamiento no est precisada. Esta situacin puede ser resuelta usando los mtodos de clasificacin.

    2.8.3. Conclusiones. Siguiendo el arco formado por los departamentos en el primer plano factorial es posible reordenar los perfiles de los departamentos y verificar el parecido de dichos perfiles entre s. Esta situacin se puede apreciar en el Grfico 2-8. Lo que se observa en el plano factorial (Grfico 2-6), se puede ahora verificar aqu: los departamentos ubicados en el circulo de la derecha del plano factorial son los mismos ubicados en la parte inferior del grfico, caracterizados por el gran peso que tiene en ellos la categora Infer. Los del circulo inferior son los mismos departamentos ubicados en la mitad de la tabla y caracterizados por la categora Bajo. Y los del circulo izquierdo estn ubicados en la parte superior de la tabla, en el peso relativo de las categoras Infer y Bajo en pequeo al tiempo que tienen un mayor peso las categoras Medio, Alto y Super . El departamento del Cauca, que aparece ubicado en el plano en el foco del arco parablico que arman los dems departamentos se ubica hacia el centro de la tabla y es el que muestra un perfil en el cual estn ms equilibradas las cinco categoras.

  • Simposio de Estadstica 2001 47

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    Grfico 2-7: Agrupamiento aproximado de los Departamentos

  • Simposio de Estadstica 2001 48

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    Grfico 2-8: Perfiles de los Departamentos Reordenados.

    0% 20% 40% 60% 80% 100%

    Magdalena

    Cesar

    GuajiraAtlantico

    Bolivar

    Cordoba

    Caqueta

    Sucre

    Antioquia

    Cauca

    Valle

    Tolima

    Quindio

    Risaralda

    Caldas

    Meta

    Norte

    Santander

    Huila

    Narino

    Bog+Cun

    Boyaca

    Super Alto Medio Bajo Infer

  • Simposio de Estadstica 2001 49

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    2.9. Ejercicio: Estudio de la situacin regional de la educacin media en Colombia (1997-1998). Desagregando educacin oficial y educacin privada en cada departamento.

    2.9.1. Presentacin. A continuacin se muestra una tabla de contingencia (Tabla 2-9), que contiene la informacin correspondiente al nmero de planteles educativos clasificados por el Icfes en cada una de las cinco categoras usadas en el ejemplo anterior, pero ahora en cada departamento se han separado los colegios pertenecientes a la educacin oficial de la privada. Los primeros estn identificados con una letra O y los otros con una P. El objetivo es el mismo del ejemplo: estudiar la configuracin de las nubes de puntos-departamentos y puntos-categoras. Como elementos necesarios para realizar el anlisis se incluye en la informacin: la Tabla 2-10 que contiene la informacin acerca de los valores propios, las coordenadas, contribuciones y cosenos cuadrados para las frecuencias (Categoras) y para los individuos (Departamentos), y dos grficos: Grfico 2-9, la proyeccin de la nube de puntos-departamentos sobre el primer plano factorial y Grfico 2-10, la proyeccin conjunta de las dos nubes de puntos: departamentos y categoras sobre el primer plano factorial. A continuacin encuentra una serie de interrogantes para orientar el anlisis.

    2.9.2. Gua para el anlisis. 1. Que porcentaje de la inercia total es recogida por el primer eje factorial, por el segundo eje

    factorial y por el primer plano factorial. Que se puede concluir de esta constatacin? 2. Anlisis de la proyeccin de la nube de puntos-categoras sobre el primer plano factorial.

    a. Cules son las dos categoras ms contributivas al primer eje factorial? Cules son sus coordenadas y cules sus pesos relativos?. Qu tan bien representadas estn esas categoras en el primer plano factorial? Cul es la categora que est ms mal representada en el primer plano factorial? Puede decirse que est muy mal representada? Como podra denominarse al primer eje factorial?

    b. Cuales son las dos categoras ms contributivas al segundo eje factorial? Cules son sus coordenadas y sus pesos relativos?. Qu tan bien representadas estn esas categoras en el primer plano factorial? Como podra denominarse al segundo eje factorial?

    3. Anlisis de la proyeccin de la nube de puntos-departamentos sobre el primer plano factorial.

    a. Cules son los 6 departamentos mas contributivos al primer eje factorial? Cules son sus coordenadas y cules sus pesos relativos?. Qu tan bien representadas estn estos departamentos en el primer plano factorial? Cuales son los dos departamentos ms mal representados en el primer plano factorial? Puede concluirse de lo anterior que algunos departamentos estn muy mal representados? De qu manera estos resultados son tiles para ayudar a la caracterizacin del primer eje factorial?

    b. Cules son los 6 departamentos mas contributivos al segundo eje factorial? Cules son sus coordenadas y cules sus pesos relativos?. Qu tan bien representadas estn estos departamentos en el primer plano factorial? De qu manera estos resultados son tiles para ayudar a la caracterizacin del segundo eje factorial?

    4. Anlisis de la proyeccin conjunta de las dos nubes de puntos. a. Puede evidenciarse algn patrn de comportamiento con respecto a los perfiles de

    educacin oficial y privada? Teniendo en cuenta las proyecciones de las categoras, como se puede caracterizar dicho patrn?

  • Simposio de Estadstica 2001 50

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    b. Liste los departamentos ms cercanos a cada una de las categoras. Se puede evidenciar algn patrn especial en estos grupos respecto a la educacin oficial y privada?

    c. Cuales son las cuatro parejas de perfiles de educacin (oficial-privada) de un mismo departamento ms distanciadas entre s? En que sentido se da tal diferencia?

    d. Cuales son las cuatro parejas de perfiles de educacin (oficial-privada) de un mismo departamento menos distanciadas entre s? En que sentido se da tal diferencia?

    e. Se puede sugerir un reordenamiento de los departamentos teniendo en cuenta su disposicin en el primer plano factorial? Cul?

    5. Escriba en un prrafo las conclusiones ms relevantes del anlisis.

  • Simposio de Estadstica 2001 51

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    Tabla 2-9: Departamentos (Educacin Oficial Educacin Privada) contra Categora Departamento Super Alto Medio Bajo Infer AN_O 0 1 7 54 53 AN_P 0 1 1 31 22 AT_O 0 0 2 72 32 AT_P 0 3 6 58 40 BG_O 0 0 1 3 2 BG_P 0 4 22 77 47 BL_O 2 5 11 22 26 BL_P 20 21 33 120 110 BY_O 4 3 9 18 21 BY_P 3 0 7 11 9 CA_O 1 5 9 63 21 CA_P 0 12 40 277 77 CE_O 0 1 9 29 10 CE_P 0 12 40 135 36 CL_O 1 2 13 41 11 CL_P 0 8 18 68 7 CO_O 0 3 15 41 1 CO_P 3 7 63 121 23 CQ_O 1 7 47 88 23 CQ_P 2 3 16 29 10 CU_O 1 5 5 19 7 CU_P 0 9 39 48 27 GJ_O 3 16 56 69 14 GJ_P 4 17 76 55 27 HU_O 2 4 19 19 5 HU_P 3 22 84 78 10 MA_O 0 7 55 38 11 MA_P 3 22 104 99 8 ME_O 0 11 28 28 1 ME_P 3 25 107 51 5 NA_O 113 147 256 167 2 NA_P 7 75 107 110 0 NO_O 11 18 51 49 3 NO_P 5 10 17 9 2 QU_O 8 8 23 9 0 QU_P 3 5 8 2 0 RI_O 11 7 14 3 0 RI_P 5 10 6 11 1 ST_O 18 19 29 38 1 ST_P 29 40 60 66 13 SU_O 6 6 14 18 1 SU_P 6 8 13 37 2 TO_O 3 5 13 13 4 TO_P 37 49 91 140 55 VL_O 6 4 11 12 10 VL_P 37.00 49.00 91.00 140.00 55.00

  • Simposio de Estadstica 2001 52

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    Tabla 2-10: Resultados del ejercicio ANALYSE DES CORRESPONDANCES BINAIRES VALEURS PROPRES APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 0.2777 SOMME DES VALEURS PROPRES .... 0.2777 HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES +--------+------------+----------+----------+----------------------------------------------------------------------------------+

    | NUMERO | VALEUR | POURCENT.| POURCENT.| | | | PROPRE | | CUMULE | | +--------+------------+----------+----------+----------------------------------------------------------------------------------+

    | 1 | 0.1753 | 63.11 | 63.11 | ******************************************************************************** | | 2 | 0.0540 | 19.43 | 82.54 | ************************* | | 3 | 0.0362 | 13.02 | 95.56 | ***************** | | 4 | 0.0123 | 4.44 | 100.00 | ****** | +--------+------------+----------+----------+----------------------------------------------------------------------------------+

    COORDONNEES, CONTRIBUTIONS DES FREQUENCES SUR LES AXES 1 A 4 FREQUENCES ACTIVES +------------------------------------------+-------------------------------+--------------------------+--------------------------+

    | FREQUENCES | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES | |------------------------------------------+-------------------------------+--------------------------+--------------------------| | IDEN - LIBELLE COURT P.REL DISTO | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0 | +------------------------------------------+-------------------------------+--------------------------+--------------------------+

    | Supe - Super 7.44 0.49 | -0.24 0.53 -0.32 0.22 0.00 | 2.5 38.3 21.6 30.2 0.0 | 0.12 0.57 0.21 0.10 0.00 | | Alto - Alto 10.80 0.40 | -0.50 0.29 -0.01 -0.26 0.00 | 15.5 16.7 0.1 57.0 0.0 | 0.63 0.21 0.00 0.16 0.00 | | Medi - Medio 26.55 0.25 | -0.44 -0.13 0.18 0.07 0.00 | 29.9 8.9 23.5 11.1 0.0 | 0.78 0.07 0.13 0.02 0.00 | | Bajo - Bajo 41.20 0.10 | 0.22 -0.17 -0.15 -0.02 0.00 | 11.2 21.1 24.9 1.6 0.0 | 0.49 0.28 0.22 0.01 0.00 | | Infe - Infer 14.00 0.65 | 0.72 0.24 0.28 0.01 0.00 | 41.0 15.1 29.9 0.1 0.0 | 0.79 0.09 0.12 0.00 0.00 | +------------------------------------------+-------------------------------+--------------------------+--------------------------+

    COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES INDIVIDUS AXES 1 A 4 +---------------------------------------+-------------------------------+--------------------------+--------------------------+

    | INDIVIDUS | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES | |---------------------------------------+-------------------------------+--------------------------+--------------------------| | IDENTIFICATEUR P.REL DISTO | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0 | +---------------------------------------+-------------------------------+--------------------------+--------------------------+

    | AN_O 6.95 0.30 | 0.46 -0.12 -0.28 0.03 0.00 | 8.3 1.8 14.8 0.5 0.0 | 0.69 0.05 0.26 0.00 0.00 | | AN_P 3.30 0.19 | -0.34 0.23 -0.13 -0.03 0.00 | 2.2 3.1 1.7 0.3 0.0 | 0.63 0.27 0.10 0.01 0.00 | | AT_O 1.57 0.36 | 0.53 -0.20 -0.12 -0.15 0.00 | 2.5 1.2 0.6 2.9 0.0 | 0.78 0.11 0.04 0.06 0.00 | | AT_P 4.82 0.46 | 0.59 0.27 0.21 -0.01 0.00 | 9.5 6.3 5.7 0.1 0.0 | 0.75 0.15 0.09 0.00 0.00 | | BG_O 5.51 0.18 | -0.19 0.05 0.20 -0.31 0.00 | 1.2 0.3 6.0 43.1 0.0 | 0.21 0.02 0.23 0.55 0.00 | | BG_P 10.86 0.46 | -0.62 0.25 -0.13 0.03 0.00 | 23.6 12.9 5.0 0.9 0.0 | 0.82 0.14 0.04 0.00 0.00 | | BL_O 2.57 0.30 | 0.53 0.08 0.05 0.10 0.00 | 4.1 0.3 0.2 2.3 0.0 | 0.93 0.02 0.01 0.04 0.00 | | BL_P 2.00 0.09 | 0.24 0.16 0.02 -0.12 0.00 | 0.6 0.9 0.0 2.2 0.0 | 0.59 0.26 0.00 0.14 0.00 | | BY_O 3.03 0.52 | -0.58 -0.29 0.32 0.04 0.00 | 5.7 4.7 8.7 0.4 0.0 | 0.64 0.16 0.20 0.00 0.00 | | BY_P 0.88 0.31 | -0.37 0.29 0.21 0.20 0.00 | 0.7 1.4 1.1 2.9 0.0 | 0.44 0.28 0.15 0.13 0.00 | | CA_O 2.11 0.05 | 0.10 0.04 0.16 0.12 0.00 | 0.1 0.0 1.5 2.7 0.0 | 0.19 0.02 0.49 0.29 0.00 | | CA_P 0.68 0.16 | 0.08 0.33 0.12 0.19 0.00 | 0.0 1.3 0.3 2.0 0.0 | 0.04 0.65 0.09 0.22 0.00 | | CE_O 1.83 0.56 | 0.72 0.17 0.04 0.05 0.00 | 5.5 1.0 0.1 0.3 0.0 | 0.94 0.05 0.00 0.00 0.00 | | CE_P 0.87 0.50 | 0.54 0.30 0.33 0.09 0.00 | 1.5 1.5 2.6 0.5 0.0 | 0.59 0.18 0.22 0.01 0.00 | | CL_O 2.63 0.14 | 0.16 -0.33 0.04 0.00 0.00 | 0.4 5.4 0.1 0.0 0.0 | 0.18 0.80 0.01 0.00 0.00 | | CL_P 0.65 0.85 | -0.45 0.72 0.00 0.37 0.00 | 0.7 6.2 0.0 7.0 0.0 | 0.24 0.61 0.00 0.16 0.00 | | CO_O 2.06 0.37 | 0.52 0.15 -0.19 -0.18 0.00 | 3.2 0.9 2.1 5.6 0.0 | 0.74 0.06 0.10 0.09 0.00 | | CO_P 0.60 0.05 | -0.21 0.01 0.07 0.02 0.00 | 0.1 0.0 0.1 0.0 0.0 | 0.90 0.00 0.09 0.01 0.00 | | CQ_O 0.84 0.17 | 0.36 -0.10 -0.12 0.12 0.00 | 0.6 0.2 0.3 1.0 0.0 | 0.77 0.06 0.08 0.08 0.00 | | CQ_P 0.12 0.19 | 0.36 0.21 0.07 -0.07 0.00 | 0.1 0.1 0.0 0.1 0.0 | 0.70 0.24 0.03 0.03 0.00 | | CU_O 3.74 0.25 | -0.31 -0.38 0.11 0.02 0.00 | 2.1 9.8 1.3 0.1 0.0 | 0.39 0.56 0.05 0.00 0.00 | | CU_P 2.09 0.17 | -0.39 -0.11 -0.04 0.03 0.00 | 1.8 0.4 0.1 0.2 0.0 | 0.91 0.07 0.01 0.01 0.00 | | GJ_O 0.94 0.72 | 0.82 0.19 0.02 0.04 0.00 | 3.7 0.6 0.0 0.1 0.0 | 0.95 0.05 0.00 0.00 0.00 | | GJ_P 0.53 0.15 | 0.23 0.26 0.17 0.02 0.00 | 0.2 0.7 0.4 0.0 0.0 | 0.34 0.45 0.20 0.00 0.00 | | HU_O 1.90 0.20 | -0.28 -0.16 0.19 0.26 0.00 | 0.8 0.9 1.9 10.0 0.0 | 0.38 0.12 0.18 0.32 0.00 | | HU_P 0.71 0.16 | -0.32 0.03 -0.22 0.09 0.00 | 0.4 0.0 1.0 0.4 0.0 | 0.64 0.00 0.31 0.05 0.00 | | MA_O 1.97 0.85 | 0.84 0.28 0.21 0.11 0.00 | 8.0 2.8 2.4 1.8 0.0 | 0.84 0.09 0.05 0.01 0.00 | | MA_P 1.05 0.55 | 0.56 0.24 0.42 -0.05 0.00 | 1.9 1.1 5.0 0.2 0.0 | 0.58 0.10 0.32 0.00 0.00 | | ME_O 1.16 0.18 | -0.40 -0.12 -0.05 -0.02 0.00 | 1.1 0.3 0.1 0.0 0.0 | 0.90 0.08 0.02 0.00 0.00 | | ME_P 0.95 0.07 | 0.17 -0.19 0.06 0.04 0.00 | 0.2 0.6 0.1 0.1 0.0 | 0.43 0.50 0.05 0.02 0.00 | | NA_O 2.84 0.16 | -0.16 -0.14 0.34 0.05 0.00 | 0.4 1.0 8.9 0.6 0.0 | 0.16 0.12 0.71 0.02 0.00 | | NA_P 0.68 0.39 | -0.58 0.22 0.06 -0.08 0.00 | 1.3 0.6 0.1 0.4 0.0 | 0.85 0.13 0.01 0.02 0.00 | | NO_O 2.50 0.09 | -0.13 -0.26 0.08 -0.05 0.00 | 0.2 3.1 0.5 0.4 0.0 | 0.18 0.72 0.08 0.02 0.00 | | NO_P 1.05 0.16 | -0.06 -0.13 -0.37 -0.08 0.00 | 0.0 0.3 4.0 0.5 0.0 | 0.02 0.10 0.84 0.04 0.00 | | QU_O 1.03 0.27 | 0.01 -0.34 -0.38 0.07 0.00 | 0.0 2.3 4.1 0.4 0.0 | 0.00 0.44 0.54 0.02 0.00 | | QU_P 0.33 0.52 | -0.48 0.48 0.23 -0.02 0.00 | 0.4 1.4 0.5 0.0 0.0 | 0.46 0.44 0.10 0.00 0.00 | | RI_O 1.73 0.20 | 0.13 -0.21 -0.37 -0.03 0.00 | 0.2 1.5 6.5 0.1 0.0 | 0.08 0.23 0.68 0.01 0.00 | | RI_P 0.52 0.56 | -0.42 0.41 -0.32 -0.34 0.00 | 0.5 1.6 1.5 4.8 0.0 | 0.31 0.30 0.19 0.20 0.00 | | ST_O 3.12 0.20 | -0.30 -0.30 0.13 -0.03 0.00 | 1.6 5.3 1.6 0.2 0.0 | 0.45 0.46 0.09 0.00 0.00 | | ST_P 1.66 0.30 | -0.40 0.21 -0.31 0.04 0.00 | 1.5 1.3 4.5 0.2 0.0 | 0.54 0.14 0.32 0.00 0.00 | | SU_O 1.08 0.22 | 0.34 -0.30 -0.08 -0.02 0.00 | 0.7 1.8 0.2 0.1 0.0 | 0.54 0.42 0.03 0.00 0.00 | | SU_P 0.59 0.14 | 0.27 -0.02 -0.05 -0.26 0.00 | 0.2 0.0 0.0 3.2 0.0 | 0.51 0.00 0.02 0.47 0.00 | | TO_O 3.44 0.16 | 0.12 -0.39 -0.03 0.04 0.00 | 0.3 9.5 0.1 0.4 0.0 | 0.08 0.90 0.01 0.01 0.00 | | TO_P 0.78 0.09 | -0.16 -0.20 0.14 0.07 0.00 | 0.1 0.6 0.4 0.4 0.0 | 0.27 0.45 0.21 0.06 0.00 | | VL_O 3.82 0.12 | 0.27 -0.11 -0.19 0.04 0.00 | 1.6 0.9 3.9 0.5 0.0 | 0.59 0.10 0.30 0.01 0.00 | | VL_P 5.90 0.02 | -0.03 0.13 -0.02 -0.01 0.00 | 0.0 1.9 0.1 0.0 0.0 | 0.04 0.93 0.03 0.01 0.00 | +---------------------------------------+-------------------------------+--------------------------+--------------------------+

  • Simposio de Estadstica 2001 53

    Pardo C.E. y Cabarcas G. Mtodos estadsticos multivariados en investigacin social

    Grfico 2-9: Proyeccin de los Puntos-Departamentos sobre el primer plano factorial

    Grfico 2-10: Proyeccin conjunta de los puntos-departamentos y los puntos-categoras sobre el primer plano factorial