Creación y Lectura de Tablas de Contingencia

download Creación y Lectura de Tablas de Contingencia

of 26

description

metodología social

Transcript of Creación y Lectura de Tablas de Contingencia

  • AnlisisdeDatosI1ersemestre2010

    UnidadIV:Tablasdecontingencia

    C i l t d t bl d ti i Creacin y lectura de tablas de contingencia

    P f P l A l AProfesoras: PamelaAyalaA.DaniellaLealV.

  • TABLASDECONTINGENCIABIVARIADAS CONSTRUCCINBIVARIADAS:CONSTRUCCIN,LECTURAEINTERPRETACIN

    2

  • Por qu tablas de contingencia?

    Se busca resumir los datos conjuntos de dos variables La tcnica a utilizarSe busca resumir los datos conjuntos de dos variables. La tcnica a utilizardepender del nivel de medicin de las variables:

    Cualitativa Cualitativa - Tablas de contingencia, grficos debarras.

    Cualitativa Cuantitativa- Resumen de estadsticos descriptivospor grupos de variable cualitativapor grupos de variable cualitativa,boxplot por grupos.

    Cuantitativa Cuantitativa - Tablas de correlacin, grficos dedispersin

    3

    dispersin.

  • Segn tipo de OBJETIVO

    DESCRIPTIVOLo relevante es poder estableceruna descripcin de los datosDESCRIPTIVO una descripcin de los datossegn grupos de variables declasificacin (ejemplo: variablessociodemogrficas).

    OBJETIVO

    Su objetivo est asociado a la

    EXPLICATIVO

    Su objetivo est asociado a lacomprobacin de hiptesis: sebusca probar la dependenciaentre variables, de esta formahay que distinguir entre variabledependiente e independiente.

    4

  • OBJETIVO DESCRIPTIVO

    Variable socio-demogrfica

    Variable % columna

    Variable de inters

    Variable % filaVariablede inters

    % columna Variable socio-demogrfica

    % fila

    Responder a la pregunta sobre cmo se distribuye unadeterminada variable en grupos sociodemogrficamenteg p grelevantes?

    No pretende una relacin causal entre las variables, slocomparar la distribucin de frecuencias

    Se leen siempre en la direccin de la variable sociodemogrfica:importante distinguir % fila y % columna

    5

  • OBJETIVO DESCRIPTIVO

    Ocupado Desocupado Inactivo TotalOcupado Desocupado Inactivo TotalPobre 10,2 36,9 19,7 15,8NoPobre 89,8 63,1 80,3 84,2Total 100,0 100,0 100,0 100,0, , , ,

    Hombres Mujeres TotalPobre 18,3 19,0 18,7

    bNoPobre 81,7 81,0 81,3Total 100,0 100,0 100,0

    1990 1992 1994 1996 1998 2000 20031990 1992 1994 1996 1998 2000 2003Pobre 38,6 32,9 27,6 23,2 21,7 20,2 18,7NoPobre 61,4 67,1 72,4 76,8 78,3 79,8 81,3Total 100,0 100,0 100,0 100,0 100,0 100,0 100,0

    Ejemplostablasdescriptivas:Pobrezasegnsituacindeocupacin,sexoyao(CASEN2003ySerie19902003)Cmosedistribuyelapobrezasegnestasvariables?

    6

  • OBJETIVO EXPLICATIVO

    Variable independiente

    % columna

    Variable dependiente

    % filaVariable

    dependiente

    % columnaVariable

    independiente

    % fila

    Responde a la pregunta sobre la relacin causal entre dosvariables: cmo la variacin en X afecta o no afecta la variacinen Y?en Y?

    Supone que podamos distinguir a priori entre variableindependiente y variable dependiente y que podamos especificarindependiente y variable dependiente y que podamos especificarhipotticamente una relacin causal esperada

    Se leen siempre en la direccin de la variable independiente:importante distinguir % fila y % columna

    7

  • OBJETIVO EXPLICATIVO

    Hiptesis: La percepcin de la evolucin de la educacin chilena depende del

    Bajo Medio Alto Total

    Hiptesis: La percepcin de la evolucin de la educacin chilena depende delNSE de una persona: quienes pertenecen a un NSE bajo tienen una visin mspesimista de la evolucin del sistema.

    Secomprueba?jMejorado 61,0 54,4 49,8 55,7Estigual 23,8 26,2 31,5 26,7Haempeorado 15,2 19,5 18,7 17,6

    p

    pTotal 100,0 100,0 100,0 100,0N= 6920 5731 4964 17615

    Hiptesis: La percepcin de la evolucin de la educacin chilena depende del

    Bajo Medio Alto Total

    Hiptesis: La percepcin de la evolucin de la educacin chilena depende delNSE de una persona: quienes pertenecen a un NSE alto visualizan unestancamiento de la educacin en el ltimo tiempo.

    Se comprueba?Bajo Medio Alto TotalMejorado 61,0 54,4 49,8 55,7Estigual 23,8 26,2 31,5 26,7Ha empeorado 15 2 19 5 18 7 17 6

    Secomprueba?

    Haempeorado 15,2 19,5 18,7 17,6Total 100,0 100,0 100,0 100,0N= 6920 5731 4964 17615 8

  • 1 Si t i i i bl i fl l t b l t

    Qu relaciones son posibles?

    1. Simtricas: ninguna variable influye causalmente sobre las otras,aunque varen juntas (no causalidad)

    Ej:PSULenguajeyPSUMatemticas

    2. Recprocas: ambas variables se influencian causalmente( lid d bi di i l)

    (indicadoresalternativos;relacinesprea)

    (causalidad bi-direccional)Ej: Asociatividad barrial y Antigedad residencial; Participacin laboral femenina yDivorcio

    3. Asimtricas: slo una de las variables influencia causalmente a laotra (causalidad uni-direccional)

    Ej: Religin de los padres y Religin del individuo; Nivel de estudios y EmpleabilidadEj: Religin de los padres y Religin del individuo; Nivel de estudios y Empleabilidad(anterioridad temporal, anterioridad estructural, estmulorespuesta, mediofin;predisposicinaccin)

    9

  • CALCULANDO PORCENTAJES

    PORCENTAJEFILAS:

    Bajo Medio Alto Total

    Mejorado 4221 3118 2472 9812

    Estigual 1647 1502 1564 4703Frecuenciasporcategora

    Haempeorado 1052 1118 928 3100

    Total 6920 5731 4964 17615

    Bajo Medio Alto Total

    p g

    Bajo Medio Alto Total

    Mejorado (4221/9812)*100 (3118/9812)*100 (2472/9812)*100 (9812/9812)*100

    Estigual (1647/4703)*100 (1502/4703)*100 (1564/4703)*100 (4703/4703)*100

    Haempeorado (1052/3100)*100 (1118/3100)*100 (928/3100)*100 (3100/3100)*100

    Total (6920/17615)*100 (5731/17615)*100 (4964/17615)*100 (17615/17615)*100

    Bajo Medio Alto Totalj

    Mejorado 43.0 31.8 25.2 100

    Estigual 35.0 31.9 33.3 100

    Haempeorado 33.9 36.1 29.9 100

    Porcentajefilas

    10

    p

    Total 39.3 32.5 28.2 100

  • CALCULANDO PORCENTAJES

    PORCENTAJECOLUMNAS:

    Bajo Medio Alto Total

    Mejorado 4221 3118 2472 9812

    Estigual 1647 1502 1564 4703Frecuenciasporcategorag

    Haempeorado 1052 1118 928 3100

    Total 6920 5731 4964 17615

    Bajo Medio Alto Total

    p g

    Bajo Medio Alto Total

    Mejorado (4221/6920)*100 (3118/5731)*100 (2472/4964)*100 (9812/17615)*100

    Estigual (1647/6920)*100 (1502/5731)*100 (1564/4964)*100 (4703/17615)*100

    Haempeorado (1052/6920)*100 (1118/5731)*100 (928/4964)*100 (3100/17615)*100

    Total (6920/6920)*100 (5731/5731)*100 (4964/4964)*100 (17615/17615)*100

    Bajo Medio Alto Totalj

    Mejorado 61.0 54.4 49.8 55.7

    Estigual 23.8 26.2 31.5 26.7

    Haempeorado 15.2 19.5 18.7 17.6

    Porcentajecolumnas

    11

    p

    Total 100.0 100.0 100.0 100.0

  • % FILAS VS. % COLUMNAS

    Test de la independencia entre variables:

    Si en todas las categoras de la variable independiente,los casos se comportan igual para la variabled di ( i i di ib idependiente (tienen una misma distribucinporcentual), entonces la variable independiente no estafectando el comportamiento de la variableafectando el comportamiento de la variabledependiente (hiptesis nula).

    12

  • AUTOESTIMA

    % FILAS VS. % COLUMNAS

    ALTA BAJA n

    ALTO 25 25 50

    BAJO 25 25 50MI

    E

    N

    T

    O

    O

    L

    A

    R

    AUTOESTIMA

    nmerosabsolutos

    MXIMAINDEPENDENCIA:Noexisterelacinentrelas

    i blBAJO 25 25 50n 50 50 100

    R

    E

    N

    D

    I

    M

    E

    S

    C

    O

    AUTOESTIMA

    absolutos variables.

    Entre los que tienen altaALTA BAJA %ALTO 50 50 50

    BAJO 50 50 50

    D

    I

    M

    I

    E

    N

    T

    O

    S

    C

    O

    L

    A

    R

    % columna

    Entre los que tienen altaautoestima, hay un % igualde individuos que tienen altorendimiento que entre los

    Total (%) 100 100 100

    R

    E

    N

    D

    E

    S

    ALTA BAJA Total (%)O

    AUTOESTIMA

    qque tienen baja autoestima.

    Entre los que tienen altoALTA BAJA Total(%)ALTO 50 50 100

    BAJO 50 50 100

    % 50 50 100ND

    I

    M

    I

    E

    N

    T

    E

    S

    C

    O

    L

    A

    R

    % fila

    qrendimiento, hay un % igualde individuos que tienen altaautoestima que entre los que

    % 50 50 100

    R

    E

    13

    tienen bajo rendimiento

  • AUTOESTIMA

    % FILAS VS. % COLUMNAS

    ALTA BAJA n

    ALTO 50 0 50

    BAJO 0 50 50MI

    E

    N

    T

    O

    O

    L

    A

    R

    AUTOESTIMA

    nmerosabsolutos

    MXIMADEPENDENCIA:Existerelacinunoauno

    t l i blBAJO 0 50 50n 50 50 100

    R

    E

    N

    D

    I

    M

    E

    S

    C

    O

    AUTOESTIMA

    absolutos entrelasvariables.

    ALTA BAJA %

    ALTO 100 0 50

    BAJO 0 100 50

    D

    I

    M

    I

    E

    N

    T

    O

    S

    C

    O

    L

    A

    R

    % columna

    Entre los que tienen altaautoestima, hay un 100% conalto rendimiento.

    Total (%) 100 100 100

    R

    E

    N

    D

    E

    S

    ALTA BAJA Total (%)O

    AUTOESTIMAALTA BAJA Total(%)

    ALTO 100 0 100

    BAJO 0 100 100

    % 50 50 100ND

    I

    M

    I

    E

    N

    T

    E

    S

    C

    O

    L

    A

    R

    % fila

    Entre los que tienen altorendimiento, hay un 100%con alta autoestima.

    % 50 50 100

    R

    E

    14

  • AUTOESTIMA

    % FILAS VS. % COLUMNAS

    ALTA BAJA n

    ALTO 30 20 50

    BAJO 20 30 50MI

    E

    N

    T

    O

    O

    L

    A

    R

    AUTOESTIMA

    nmerosabsolutos

    DEPENDENCIA(orelacin)MODERADA:Existe relacin (NO unoaBAJO 20 30 50

    n 50 50 100

    R

    E

    N

    D

    I

    M

    E

    S

    C

    O

    AUTOESTIMA

    absolutos Existerelacin(NOuno auno)entrelasvariables.

    Entre los individuos quei l i hALTA BAJA %

    ALTO 60 40 50

    BAJO 40 60 50

    D

    I

    M

    I

    E

    N

    T

    O

    S

    C

    O

    L

    A

    R

    % columna

    tienen alta autoestima, hayun mayor porcentaje (60%)con alto rendimiento queentre los individuos con bajaTotal (%) 100 100 100

    R

    E

    N

    D

    E

    S

    ALTA BAJA Total (%)O

    AUTOESTIMA

    entre los individuos con bajaautoestima (40%).

    Entre los individuos queALTA BAJA Total(%)

    ALTO 60 40 100

    BAJO 40 60 100

    % 50 50 100ND

    I

    M

    I

    E

    N

    T

    E

    S

    C

    O

    L

    A

    R

    % fila

    tienen alto rendimiento, hayun mayor porcentaje (60%)con alta autoestima que

    t l i di id b j% 50 50 100

    R

    E

    15

    entre los individuos con bajorendimiento (40%).

  • % FILAS VS. % COLUMNAS

    ALTA BAJA %

    ALTO 20 20 20

    E

    N

    T

    O

    A

    R

    AUTOESTIMA

    NOHAYRELACINA t ti R di i t

    BAJO 80 80 80

    Total (%) 100 100 100

    R

    E

    N

    D

    I

    M

    I

    E

    E

    S

    C

    O

    L

    A% columna

    Autoestima Rendimiento

    ALTA BAJA Total(%)

    ALTO 70 10 20

    M

    I

    E

    N

    T

    O

    O

    L

    A

    R

    AUTOESTIMA

    % HAYRELACIN

    Autoestima RendimientoBAJO 30 90 80

    % 100 100 100

    R

    E

    N

    D

    I

    M

    E

    S

    C

    Ocolumna Autoestima Rendimiento

    La relacin se observa respecto de la situacin hipottica de no relacin: entre losindividuos con alta autoestima, un mayor porcentaje de individuos tiene un altorendimiento escolar (70%), que entre los individuos con baja autoestima (10%). Sit ti l i bl i d di t (% l ) d

    16

    autoestima es la variable independiente (% columnas), se puede pensar que unaalta autoestima est relacionada causalmente con un alto rendimiento escolar.

  • CMO LEER UNA TABLA?

    1. Describir el marginal columna (total columna:distribucin variable dependiente): lgica desde afuerahacia adentrohacia adentro

    Desde lo ms frecuente a lo menos frecuente/ desde lo msrelevante a lo menos relevante.relevante a lo menos relevante.

    Si la variable dependiente tiene muchas categoras derespuesta, no es necesario describir todas las categoras ni leertodos los porcentajes.

    Si la variable dependiente tiene slo dos categoras, basta conleer lo que ocurre en una de ellas (especialmente si esleer lo que ocurre en una de ellas (especialmente si esausencia/presencia).

    17

  • 2 Comparar a lo largo de la fila: lgica horizontal*

    CMO LEER UNA TABLA?

    2. Comparar a lo largo de la fila: lgica horizontal *

    El porcentaje de lo primero que se describi (ejemplo: lo msfrecuente), se da por igual en todas las columnas (grupos quef ecue te), se da po gua e todas as co u as (g upos quese estn comparando), o cambia entre ellas?

    Si cambia, cul es el patrn de cambio?

    Intuitivamente, son diferencias significativas en la poblacin sobrelos 5 puntos porcentuales (depende del tamao muestral); siempreson significativas a nivel muestralson significativas a nivel muestral.

    A mayor cantidad de casos de la muestra, una pequea diferenciapuede ser significativa en la poblacin, a menor cantidad de casosse requiere una gran diferencia para que sea significativa (regla seaplica a muestras que tienen entre 400 y 2000 casos).

    *NOTA: slo si el total est calculado a nivel de columnas si est calculado a nivel de filasNOTA: slo si el total est calculado a nivel de columnas, si est calculado a nivel de filas(con la variable dependiente a nivel de columnas), es exactamente a la inversa (lgicavertical)

    18

  • CMO LEER UNA TABLA?

    3.Sugerenciasprcticas

    No poner demasiados nmeros en la redaccin.

    Sealar primero la tendencia y usar representativamente losporcentajes entre parntesis.

    Nombrar claramente la unidad de anlisis (casos de la tabla), nohablar de casos.

    Nombrar claramente las variables y la direccin de lasrelaciones, no decir la primera variable est relacionadacon la segunda, sino existe una relacin positiva entre lavariable x y la variable y.

    19

  • Climalaboral(agrado)ySatisfaccinlaboral

    EJEMPLO 1: % FILA

    (Muy)satisfecho

    Regularmentesatisfecho

    (Muy)insatisfecho

    TOTAL N

    M

    A

    SATISFACCINLABORAL

    Desagradable 17,0 47,2 35,7 100 97Regularmenteagradable 35,8 49,1 15,0 100 343

    R

    A

    D

    O

    C

    L

    I

    M

    L

    A

    B

    O

    R

    A

    L

    % fila

    Agradable 74,2 21,2 4,6 100 577

    TOTAL 55,7 33,2 11,1 100 1018

    A

    G

    R

    L

    La mayora de los trabajadores encuestados se siente muy satisfecho con su trabajo (56%)La mayora de los trabajadores encuestados se siente muy satisfecho con su trabajo (56%),un tercio se siente regularmente satisfecho (33%) y slo un 11% se siente insatisfecho.

    Existe una relacin positiva entre estar en un clima ms agradable en el trabajo y sentirmssatisfaccin. Los trabajadores que estn en un clima agradable, se sienten muy satisfechosen un mayor porcentaje (74%), que los que estn en un clima que consideran desagradable(17%).

    (Slo si queda espacio)

    20

    (Slosiquedaespacio)

    Por su parte, quienes estn en un clima desagradable, se sienten insatisfechos en unaproporcin mucho mayor (36%) que quienes estn en un clima agradable (5%).

  • Climalaboral(agrado)ySatisfaccinlaboral

    EJEMPLO 1: % COLUMNA

    (Muy)satisfecho

    Regularmentesatisfecho

    (Muy)insatisfecho

    TOTAL

    M

    A

    SATISFACCINLABORAL

    Desagradable 2,9 13,7 30,8 9,6Regularmenteagradable 21,7 50,0 45,6 33,7

    R

    A

    D

    O

    C

    L

    I

    M

    L

    A

    B

    O

    R

    A

    L

    % fila

    Agradable 75,4 36,3 23,6 56,7

    TOTAL 100,0 100,0 100,0 100,0

    N 567 338 113 1018

    A

    G

    R

    L

    N 567 338 113 1018

    La mayora de los trabajadores encuestados siente un clima agradable en su trabajo (57%),un poco ms de un tercio lo siente regularmente agradable (34%) y slo un 10% siente queel clima laboral es desagradable.

    Existe una relacin positiva entre sentir ms satisfaccin laboral y sentir un clima agradableen el trabajo. Los trabajadores que estn muy satisfechos laboralmente sienten un clima

    21

    en el trabajo. Los trabajadores que estn muy satisfechos laboralmente sienten un climaagradable (75%), que los que estnmuy insatisfechos laboralmente (24%).

  • % FILAS VS. % COLUMNAS

    Variable independiente

    Variable % columna

    Variable dependiente

    Variable % filadependienteindependiente

    > satisfaccin > agrado

    % agrado

    satisfecho 75%

    > agrado > satisfaccin

    % satisfaccin

    agradable 74% satisfecho 75%

    regular 36%

    insatisfecho 24%

    agradable 74%

    regular 21%

    desagradable 5%

    En este caso, coinciden bastante los porcentajes calculados en cambas direcciones:Cmo podramos interpretar esto en trminos de la relacin de causalidad entreambas variables?

    22

  • Asistencia a oficios religiosos (frecuencia) y Religin

    EJEMPLO 2: % COLUMNA

    CatlicaEvanglica/Protestante

    Otra Ninguna TOTAL

    RELIGINAsistenciaaoficiosreligiosos(frecuencia)yReligin

    Msdeunavez alasemana 8,1 30,2 14,2 1,5 10,9Unavezalasemanaovariasvecesalmes 31,9 31,6 20,2 6,9 26,0

    T

    E

    N

    C

    I

    A

    C

    I

    O

    S

    % Nunca ocasinunca 60,0 38,2 65,6 91,6 63,0

    TOTAL 100,0 100,0 100,0 100,0 100,0

    N 31839 7907 8161 9475 57382

    A

    S

    I

    S

    I

    T

    O

    F

    I

    Ccolumna

    1. Quvariablesestnsiendotesteadasensuindependencia?

    2. Culeslahiptesisquehaydetrsdeestatabla?

    3 Cmo se realizara la lectura de esta tabla?

    23

    3. Cmoserealizaralalecturadeestatabla?

  • EJEMPLO 2: LECTURA

    La mayora de los individuos encuestados no asiste a oficios religiosos, o lo hacerara vez (63%), un 26% lo hace una vez a la semana o varias veces al mes y unaminora (10%) asiste ms de una vez a la semana.( )

    Existe una clara relacin entre la religin que se profesa y la frecuencia con que seasiste a oficios religiosos. Los evanglicos o protestantes asisten con altafrecuencia (ms de una vez a la semana) en mucha mayor proporcin (30%) quefrecuencia (ms de una vez a la semana) en mucha mayor proporcin (30%) quelos catlicos (8%) y que individuos de otras religiones (14%).

    Esta relacin no se observa tan claramente para la frecuencia regular (una vez a la) d d li / li i i l isemana), donde evanglicos/protestantes y catlicos asisten en igual proporcin

    (32%), pero vuelve a observarse claramente en la frecuencia baja o nula. Entre loscatlicos, un 60% no asiste nunca o casi nunca a oficios religiosos, en comparacincon un 38% de los protestantescon un 38% de los protestantes

    24

  • EJERCICIO EN CLASES

    A continuacin se presentan una serie de tablas bivariadas. Para cadauna de ellas:

    1. Identifique las variables en relacin

    2. La posible hiptesis a contrastar

    3. El tipo de porcentaje calculado

    4. Y realice una lectura de los principales resultados

    25

  • AnlisisdeDatosI1ersemestre2010

    UnidadIV:Tablasdecontingencia

    C i l t d t bl d ti i Creacin y lectura de tablas de contingencia

    P f P l A l AProfesoras: PamelaAyalaA.DaniellaLealV.