Análisis de Datos Cuantitativos y Análisis de Datos

download Análisis de Datos Cuantitativos y Análisis de Datos

of 25

description

Babbie - Análisis de Datos Cuantitativos y Análisis de Datos - Cap. 15 y 16

Transcript of Análisis de Datos Cuantitativos y Análisis de Datos

  • Anlisis de datos Lo que aprender en este captulo Al terminm este captulo. llsted ser capaz de ~rectllar diuersas manipulaciones simples pero poderosas de los dalos con el.fln de obtener conclusiones cien/meas.

    "

    este captulo ...

    continuas y discretas entre detalles y manejabilldad COllllpanlcl.l)nt~S entre subgrupos r .. t .. ~'nrias de respuestas combinadas"

    manejo de los "no s" De~;crlp(:lol:les numricas en la Investigacin

    todos los anlisis de las ciencias sociales per-al rubro general de anlisis multivaria-

    a los que. por tanto. dedicaremos la mayoria la parte 4. El trmino se refiere Simplemente al

    de diversas variables al mismo tiempo. El de la asociacin simultnea' de edad. edu-

    y prejuicios seria un ejemplo de anlisis

    del menor espacio. la correlacin mltiple. la regresin mltiple y el anlisis de trayectorias.

    ; Se aprecia mejor la lgica del anlisis multivaliado 'mediante el uso de tablas simples. llamadas tablas de contingencia o tabulaciones cruzadas. Asi. de-dicaremos este capitulo a comprender y elaborar dichas tablas.

    No es posible comprender del lodo el anlisis multivartado sin un conocimiento slido de formas de anlisis ms fundamentales: el anlisis unlva-riado y el blvartado, Por ende. iniciamos con stos el capitulo.

    Anllsls ~lvarlado Obtencin de porcentajes para las tablas Elaboracin y lectura de tablas Formatos de tablas blvariadas

    Introducc16n al anllsls multivarlado Puntos principales

    Preguntas y ejercicios de repaso Proyecto de continldad Lecturas adicionales

    Anlisis univariado El an6liais univariado es el examen de la -dIstribu-cin de los casos en una sola variable cada vez. Co-menzaremos con la lgica y los rormatos del anli-sis de datos univariados.

    Distribuciones ,El rormato ms comn para presentar datos unlva-liados es inrormar todos los casos. es decir. elabo-rar una 'lista del atributo de cada caso del estudio en trminos de la variable de que se trate. Tome-mos los datos de la Encuesta Social General sobre la asistencia a las ceremonias religiosas. ASIS. La tabla 15. I presenta los resultados de un anlisis el) SPSS de esta variable.

    Examinemos la tabla parte por part~. Plimero. si vamos a la parte in(elior veremos que la muestra que se va a analizar tiene en total ) 500 casos. Tambien se aprecia que) 7 de los) E.OO entrevista' dos contestaron "no se- (NSJ o no respondieron (NRJ a la pregunta. Asi. nuestra evaluacin de la asistencia de los estadounidenses a ceremonias re' Iigiosas durante 20 aos entre 1973 Y 1993 se ba-sar en 1483 interrogados.

    349

  • 350 Capitulo 1 S Anlisis de datos

    Tabla 15.1 Asistencia a ceremonias religiosas segn la ESG, 1973-1993

    Asistencia Frecuencia con que el E . asiste a ceremonias religiosas Porcentaje Porcentaje

    Categoria Valor Frecuencia Porcentaje vlido acumulado NIJNC}'. O MENOS DE UNA VEZ 1IL Af.lo 1 UNA VEZ 1IL Af.lo 2 VARIAS VECES AL Af.lo 3 UNA VEZ 1IL MES 4 OOS O TRES VECES 1IL MES 5 CASI CADA SEMANA 6 CADA SEMANA 7 MS DE UNA VEZ ALA SEMANA 8 NS, NR 9

    Total Casos vlidos 1483 Casos

    Ahora regresemos a la parle supertor de la tabla. Veremos que 224 personas dijeron que nunca asls-tian a ceremonias religiosas. Esta cifra. en cuanto tal. no nos dice nada sobre las costumbres religio-sas. SI los datos que examinamos comprendieran 3000 entrevistados en lugar de 1500, supondria-mos que 448 personas habrtan dicho que nunca van a ceremonias religiosas. NI 224 ni 448 nos dan una idea sobre la asiduidad de la asistencia del "estadounidense promedio' a la Iglesia.

    Por analoga. supongamos que su mejor amigo le comenta que se tom seis latas de cerveza. Ad-vierta que su reaccin a tal declaracin depender de que haya consumido la cerveza en un mes. una semana. un dia o una hora. Del mismo modo. en el

    , caso de la participacin religiosa necesitamos algu-na base para evaluar a los 224 que nunca van a la iglesia.

    Al dividir ls 1483 que respondieron entre estos 224 tenemos 15.1 por ciento. que aparece en la ta-bla como 'porcentaje vlido". Asi. vemos que 15 por ciento. o aproXimadamente un estadounidense de

    , cada siete. afirman que nunca va a la Iglesia. ; Para que no piense que la generalidad de los es-

    tadounidenses no son religiosos. revise la tabla 15.1 y localice la categoria de respuesta ms elegi-

    . da: CADA SEMANA. con 19.8 por ciento de los en-trevistados. Sumemos esta cifra al 8 por ciento que dice que asiste a las ceremonias religiosas ms de una

    ! vez a la semana y descubriremos que ms de un

    224 14.9 15.1 15.1 139 9.3 9.4 24.5 i80 12.0 12.1 36.6 194 12.9 13 .1 49.7

    84 5.6 5.7 55.4 136 9.1 9.2 64.5 114 7.6 7.7 72.2 294 19.6 19.8 92.0 118 7.9 8.0 100.0

    17 Ll No aplica 1500 100.0 100.0 faltan tes 17

    cuarto (27.8 por Ciento) de los adultos de Estados Unidos dice que va a la Iglesia por Lo menos una vez a la semana. .

    A veces es ms fcil ver una distribucin de freo cuenclas en una grfica. como en la figura 15-1.

    Tendencia central Adems de los informes de datos marginales. tam-bin se puede optar por presentar los datos en la forma de promedio. compendiados o medidas de tendencia central. Aqu las' opciones son la moda o modo (el atributo ms frecuente. agrupado o no). la media aritmtica o la mediana (el atrtbuto ceno tral en la distrtbucin ordenada de los atributos observados). Veamos cmo calcular las tres medi-das de tendencia central de un conjunto de datos.

    Supongamos que realizamos un experimento con adolescentes como sujetos. Sus edades van de los 13 a los 19 aos. como se indica en la tabla si-guiente:

    Edad Cantidad

    13 14

    " 15 6 16 8 17

    " 18 3 19

    Anlisis univariado 351'

    Figura 15.1 Grfica de barras de ASIS de la ESG, 1973.1993

    30~------------------________________________________ ~

    20

    10 Q) S

    ~ o Il. 0 ........ --....

    FRECUENCIA CON QUE EL E ASISTE A CEREMONIAS RELIGIOSAS

    Ahora que hemos visto las edades de los 31 su-jetos. cul es su edad en general. o en promedio? Veamos tres formas de responder tal pregunta.

    La medida de tendencia central ms fcil de calcu-lar es el modo. el caso ms frecuente. Como vemos, haY,ml:! sujetos de 16 aos (ocho) que de cualquier otra edad. asi que la edad modal es 16. como se in-dica en la figura 15.2.

    Esta figura tambin muestra el clculo de la me-dia. Son tres pasos: (1) multipliqu~ cadll: edad por el nmero de sujetos que la tienen. (2) sume los productos de esas multiplicaciones y (3) divida el total entre el nmero de sujetos. Como se indica en la figura 15.2. la media de las edades en este ejem. plo es de 15.87.

    'La mediana es el valor" centra]": la mitad de los datos estn arriba de l. la mitad abajo. Si tuvira-mos las edades exactas de los sujetos (por ejemplo. 17 aos y 124 das) podriamos ordenar a los sUJe-tos por edad y la mediana de todo el grupo seria la edad del sujeto de en medio.

    Sin embargo. no conocemos las edades exactas; al respecto. nuestra informacin son "datqs agru-P~dos': por ejemplo. en la ('alegoria de" 13 aos' s~

    agrupan tres personas que no tienen exactamente la misma edad.

    La figura 15.2 ilustra ,el algorttmo para calcular la mediana de datos agrupados. Como en total hay 31 sujetos. el sujeto "central" seria el nmero 16 si estuvieran ord;nados por edad (15 adolescentes serian ms jvenes y J 5 mayores). En la parte in-fertor de la figura 15.2' vemos que la persona ceno tral es alguna de las ocho que tienen 16 aos. En la imagen aumentada de este grupo. se aprecia que el nmero 16 es el tercero de Izquierda a derecha.

    Como desconocemos las edades exactas de los sujetos de este grupo. la convencin estadistica es Suponer que estn distribuidos de manera" unifor-me. En este caso. las edades posbles de los suje-tos del grupo van de 16 aos y cero dias a 16 aos y 364 dlas. Estrictamente. pues. el margen es de 364/365; no obslante. como cuestin prctica bas-ta decir que es un ao.

    Si los ocho sujetos de este grupo estuvieran dis-tribuidos uniformemente de un lmite al otro. habria entre ellos una distancia de un octavo de ao: ~n intervalo de 0.125 de ao. Observe en la ilustra-cin que. si situamos al primer sujeto a la' mitad

  • " I

    11, !

    '. i

    1'1' :1"

    i: 11.

    352 Capitulo I S Anlisis de datos

    Figura 15.2 Tres "medidas de tendencia centra'"

    Edad Nmero

    13 ~~~ 14 ~~~~ 15 ~~~~~~ 16 ~~~~~~~~ 17 ~~~~ 18 ~~X 19 ~XX

    Edad Nmero

    ~~~ . 13 14 ~XX~ 15 ~~~~~X 16 X~~~~~~~ 17 ~~~~ lB ~~~ 19 ~~~

    Edad Nmero.

    13 ~~~ 1-3 14 ~~~~ 4-7 15 tE~X~~B-13 16 ~~~~~~~X 17 ~ ~ X ~ 22-25 18 ~tt 26-2B 19 ~~~ 29-31

    ,

    I ..

    13x3=39

    14x4'=56

    15x6=90

    16x8=12B

    17x4=6B

    lBx3=54

    19x3=57 492 + 31 =

    - (Total) (Casos)

    - 14 15 16

    ~ ~ .~ 16.06 16.19 16.31

    Modo = 16

    Ms frecuente

    .

    , J<

    - Media = 15.B7

    Promedio aritmtico

    ..

    15.87

    Mediana = 16.31

    Punto medio

    17 lB 19 20 21

    ~ ~ X X ~ 16.44 16.56 16.69 16.Bl 16.94

    -;

    del Intervalo. a partir del lmite Inferter y luego. su-mames un Intervalo. cemplete a la edad de cada sujeto sucesivo.. el ltimo. est a medie Intervalo del lmite supelier.

    Por tanto.. le que hiclmes fue calcular hlpettica-mente las edades exactas de les eche sujetes (su-penlende que seguian una dlslrtbucln unlferme). Luego. de hacerle. basta sealar la edad del sujeto central -16.31-. que es la edad mediana del grupo. .

    Desde luego.. cuando. el nmero de los sujetos es par no. hay une central. En este case. se calcula simplemente la media de los dos puntes entre les que queda. Por ejemplo.. supongames que hay un

    . sujeto ms de 19 aos. Asi. el nmero medio se si-tuara entre el nmero 16 y el 17. y calculariames la mediana de este medo.: (16.31 + 16.44)/2 = 16.38.

    En la blblfografia de la Investigacin encontrar tanto medias como medianas. Cada vez que le pre-senten medias. debe tener presente que son muy vulnerables a los valores extremos. es decir. con nmeros muy grandes e muy pequees. Veamos un ejemplo. para ilustrar la razn.

    Para determinar el bienestar de los habitantes de un pas. los investigadores acuden a diversos In-dicadores. Una de las medidas ms empleadas es el indice de mortalidad irifanti/ ([MI). el nmero. de nies que mueren durante el primer ao de vida por cada 1000 nacides vivos. Tomemos el fMI en 1991 de cuatro naclenes que poseen culturas muy diferentes (Populatlen Reference Bureau. 1993).

    Emiratos rabes Unidos Katar Holanda Blgica

    ndice de ~ortalidad infantil. 1991

    25 26 6.5 9.9

    Los indices relativamente elevades en Emiratos Arabes Unidos y Katar manifiestan la situacin de pobreza en que viven muchas familias de esos pai-ses. En Holanda y Blgica. como en otras naciones de Europa eccidental. los IMI son mucho menores.

    Anlisis univariado 353

    La ecenoma es otro aspecto de la calidad de VI-da. y una medida asequible es el producto nacional bruto per cpita de cada pas. El preducto nacienal bruto (PNB) es el valor total de les bienes y servi-cios que produce la nacin: al diVIdirlo entre su po-bracln (la productividad media de sus habitantes) se obtiene un indicador del bienestar ecenmico del pueblo. La tabla siguiente presenta estos datos de los cuatro pases de nuestro ejemplo (Populatien Reference Bureau. 1993).

    Emiratos rabes Unidos Katar Holanda Blgica

    PNB per cpica. 1991

    $19.B70 $/5.870 $IB.560 $/9.300

    Como vemos. el mayor PNB per cpita es el de los Emiratos rabes Unidos. y Katar no est muy lejos de Blgica y Holanda. La razn de esta dispa-ridad radica en la distribucin del in(reso en los des sultanates petroleros. donde unas cuantas fa-milias poseen una gran riqueza que InOa el prome-dio que se observa. Es evidente que en estos casos la media es engaesa: una medida come la media na de ingreso familiar dalia una ima(en ms ade-cuada del ciudadano "promedio" de esos paises.

    A veces uno encuentra que se reportan medias cuando las medianas serian ms apropiadas per-que es ms fcil calcular aquellas. Advierta que en este caso todo. lo que necesitamos es el PNB y el to-tal de la poblacin de cada pas. datos que se infor-man nltinartamente. Para determinar la mediana del Ingreso familiar necesltarames realizar una en-cuesta con una muestra representativa .de las fa-milias de cada nacin y luego calcularamos la me-diana. Estas encueslas son comunes en los paises desarrollados. pero. son menes habituales en el Tercer Mundo.

    Dispersin Las medidas de tendencia central ofrecen al lector la ventaja especial de que reducen los datos crudos a su forma ms manejable: un solo nmero (o alri-bulo.) representa.1 oda la informacin detallada que

  • If"

    il;l lS4 CapitUlo 15 Anilisls de datos 'JI' :11' 1"; se reuni acerca de la variable. Desde luego. esta 1/:: I':! ventaja tiene un costo. pues el lector no puede re-./;" construir los datos originales a partir slo de las '!j, medidas de tendencia central. Los resmenes de la

    !,:""'I,':'!I:",".,,.,. ::==:::n~:':: r~:~~:=~~I=I~a;:I:~e ~!~s;~ , sln es el rango. la distancia que separa el valor

    ,

    'II' ms grande del ms pequeo. Asi. adems de re-,"o portar que nuestros sujetos tienen una edad media 1- de 15.87 aos. tambin indicaramos que SUS

    d edl.a-

    Ji, des se extienden de los 13 a los 19. Una me Ic on un tanto ms elaborada de la dispersin es la des-viacin est~dar. Vimos la lgica de esta medida en el capitulo 8. cuando tratarnos el error estndar de

    '1; la distribucin de muestreo. lil, Hay muchas otrasmedidas'de la dispersin. Por " ejemplo. al entregar ias calificaciones de una prue-i~: ba de inteligencia se puede determinar el rango In-lit tercuarUl. la gama de calificaciones del 50 por clen-* to central de los sujetos. el.segundo cuarto. etc. Si Ili el mejor cuarto tuvo calificaciones de 120 a 150 y el

    ~' peor de 60 a 90. sealaramos que el ranalgofl

    e~~e '); cuartlles es de 120 a 90. el 30. con una c I caclOn

    ,!i ,]j ;,

    media de. digamos. 102.

    Variables continuas y discretas ~i 'i Los clculos anteriores no se prestan para todas ,I las varables. Para entender por qu. debemos exa-l' minar dos clases de variables: continuas y cscre :Iil"::,:,:,',, taso La eq.ad es una variable de razn continua que

    aumenta en forma constante en fracciones diminu-tas en lugar de saltar de una categoria a otra. co-

    Ii mo el gnero o el rango militar. que son variables 'J discretas. SI analizramos variables discretas -por ;\ eJ~mplo, una vartable nominal u ordinal-o no se-',' rian aplicables algunas de las tcnicas que hemos j'. explicado. En rigor. medias y medianas se deben

    calcular slo para datos intervalares y de razn. respectivamente (vase el capitulo 6). Por ejemplo. 51 ,la vartable fuera el gnero. serian apropiados y tiles los dalos crudos (23 de los moloclclistas tras-vesUs proscritos eran mujeres) o los porcentajes (siete por ciento eran mujeres). Calcular el modo seria un anlisis legitimo. aunque no muy revela-dor. pero medias, medianas y resmenes de disper-sin serian inadecuados. A pesar de que los inves tlgadores a veces aprenden algo de valor al infringir estas reglas. hay que hacerlo con' precaucin.

    Comparacin entre detalles y maneJabilidad Al presentar datos univartados -y de otro tipo-. uno estai restringido por dos objetivos contradic-torios. Por ,un lado. hay que tratar de dar al lector el mayor grado' de detalle sobre esos datos. Por el otro. stos deben presentarse en forma manejable. Como a menudo estos dos objetivos se contrapo-nen. hay que buscar constantemente que se eqUI-libren. Una solucin prctica consiste en Informar algn conjunto de datos en ms de una forma. Por ejemplo. en el caso de la edad sealariamos la dis-tribucin de las edades sin agrupar. adems de la edad media y de la desviacin estndar.

    Como se desprende de esta exposicin Introduc-toria del anlisis unlvariado,;.~e..la~a~t:;ria pa-,. ,: rezca simple. puede ser complada. Las lecciones de esta seccin sern Importantes cuando conside-remos las comparaciones entre subgrupos y los ana lisis blvarlados.

    Comparaciones entre subgrupos Los anlisis univarlados describen las unidades de anlisis del estudio y. si son una muestra extraida de una poblacin mayor. nos permiten hacer infe-rencias descriptivas sobre esta ltima. Los anlisis bivarlados y mulllvartados se destinan sobre todo a explicar. Sin embargo. antes de ocuparnos de la e_\plicacn debemos cOl1slderar el caso de la des-cripcin de subgrupos.

    Muchas veces no es apropiado describir subcon-juntos de casos. sujetos o entrevistados. Por ejem-plo. la tabla 15.2 presenta los datos de los ingresos de hombres y mujeres por separado. Adems. indi-ca la proporcin entre la mediana de los Ingresos de las mujeres y la mediana de los hombres. con lo que se muestra que las trabajadoras ganan slo un poco ms de la mitad que los hombres.

    En algunas situaciones. el investigador presen-ta comparaciones entre subgrupos con meros nn~s descriptivos; pero la mayoria de las veces el propo-sito de estas descripciones es comparativo; las mu-jeres ganan menos que los hombres. En este caso. se supone que hay algo en ser mujer que da por resultado obtener menores Ingresos. Hacemos la misma suposicin cuando comparamos negros con blancos. En estos casos. el anlisis se basa en una premisa de causalidad: una vartable es la causa de otra. como el sexo es la causa del ingreso.

    Mediana de Ingresos anuales sexo de empleados civiles

    de tiempo completo. 1967-1977

    Mujeres Hombres $8.618 $1'1.626

    8.622 1'1.323 8.+19 14.175 8.565 14.578 8.639 15.254 8.55i 14,778 8.369 14.06'1 8.307 13.993 8.227 13.976 7.763 13.349 7.503 13,021

    Proporcin entre

    ambos Ingresos

    .59

    .60

    .60

    .59

    .57

    .58

    .61

    .59

    .59 58 .58

    Fuente: Adaptado de US. Bureau 01 me Census, "Statisticaf Portrait 01 Women in me Unlted States: 1978", serie P23. nm. IOO.p. 73.

    Cuando en 1978 la Oficina del Censo estadouni-. dense public los datos que aparecen en la tabla , ~5.2. reforz la legitimidad del reclamo creciente por la discriminacin de las mujeres en la econo-ma de aquel pas. Desde entonces. tanto las medi-das politlcas como la Investigacin se han concen-trad. en'el tema. pero la discrepancia entre lo que ganan hombres y mujeres est lejos de resolverse.

    Las esladistlcas ms recientes muestran algu-nos avances. pero de todos modos hay una diferen-cia notable. Mientras escribo esto. la trabajadora

    ,promedia de tiempo completo gana 66 centavos por cada dlar que obtiene su contraparte masculina. En la tabla 15.3 se anotan las proporciones recien-tes de los sueldos.

    Antes de pasar a la lgica del anlisis causal bi-variado. veamos otro ejemplo de comparaciones entre subgrupos que nos permitir abordar algu-nas cuestiones sobre el formato de las tablas.

    Categoras de respuestas "combinadas" Los ejemplos de tablas para libros de texto- suelen ser ms simples que lo que uno, lee en las publtca-

    'ciones de las investigaciones o en los propios an-

    Comparaciones entre subgrupos 355

    Tabla 15.3 Proporcin entre los ingresos anuales de las trabajadoras de tiempo completo y los ingresos de los hombres. 1980-1993

    1980 1985 1990 1991 1993

    Proporcin de la mediana de los ingresos anuales de las muj eres respecto a ia mediana

    de los Ingresos anuales de los hombres

    ,64 .66 .71 .70 .65

    Fue~ Las cllras de 1980 y 1985 se basan en pagos por hora y se to-maron de Mlchael W. HOrrigan y James P. Markey. "Recent Galns in Women's Earring: Bener Par or Longer Hours1". en Monlhly Labor R~ view Oullo de 1990): 1117, Las cllras de 1990 y 1991 se basan en in-gresos anual .. y proceden del U.S, Bureau 01 the Census, serie CPR P-60. nm. 180, Me"., Income o( Househo/ds. Fomi/ies. ond Person> in rile Unitod SIOI .. : /99/ (Washington, Govemment Printlng Office. 1992), Los datos de 1993 provienen de U.S. Bureau 01 che Census. Stotistic:o/ AbslrOct o( Ihe Unitod Stotes. /993 (CD-ROM CD-SA9S. abril de 1996): tabla H2.

    lisis de datos. as que 'en esta seccin y la siguien-te nos ocuparemos de dos problemas comunes y propondremos soluciones.

    Para empezar. vayamos a los datos de la tabla 15.4. que se recopilaron durante un sondeo de opi-nin sobre la ONU que aplicaron el New York Ti-mes. CBS News y el Herald Tribune en varios pai-ses en 1985. La pregunta anotada en la tabla se refiere a las actitudes generales subre el desempe-o de la ONU.

    El problema es comparar el apoyo que brindan a las labores de la ONU los ciudadanos de los cin-co pases de la tabla 15.4. Al repasar la tabla. no-tar que hay demasiadas cifras y que no es fcil hallar un patrn significativo.

    Parte del problema de la tabla 15.4 se debe a los porcentajes relativamente pequeos de los entre-vistados que eligieron las dos categorias de res-puesta de los extremos. los que dijeron que la ONU funcionaba muy bien o muy mal. Seria tentador re ducirse a la segunda linea de la tabla los que con-testaron "bien". pero seria incorrecto. Si leemos S-

    o lo la segunda fila concluiriamos que Alemania Occidental y Estados Unidos mostraron las actitu-des ms positivas sobre el desempeo de la ONU

  • 3$6 Capitulo 15 An~lisis de datos

    Tabla 15.4 Actitudes hacia la Organizacin de las Naciones Unidas: "Cmo resuelve la ONU los problemas que encaral" ,,:.

    Japn Muy bien 2% 7%

    .. 2% 1% Bien '16 39 45 11 46 Mal 21 28 22 43 27 Muy mal 6 9. 3 5 13 No s 26 17 28 41

    Fuento:"5-Natlon Survey Find Hope for U.N .... NewYorlc T""d. 26 de junio de 1985. p. 6. 10

    Tabla 15.5 Combinacin de categorias extremas

    Bien o mejor Malo peor No s

    48% 27 26. 17

    (46 por ciento). seguidos d~ cerca por Francia (45 por ciento!. con Inglaterra en una postura menos positiva (39 por ciento) y Japn (11 por ciento) co-mo el de opiniones mas negativas.

    Este procedimiento es inadecuado porque igno-ra a todos los que dieron la respuesta ms positiva "muy bien". En estas situaciones. hay que unir o "combinar" los dos extremos del margen de vana-cin. En este caso. se combinan "muy bien" con "bien" y "muy mal" con "mal". Si usted tiene que hacer lo mismo con sus propios datos. le conviene sumar primero las frecuencias crudas y despus calcular de nuevo los porcentajes de las categorias combinadas. En cambio. en el anwisis de tablas pu. blicadas (como la del ejemplo) basta sumar los por. centaJes. como se indica en los resultados que se muestran en la tabla 15.5.

    Con las categoras combinadas de la tabla 15.5 podemos leer fcilmente los porcentajes nacionales de quienes dijeron que el trabajo de la ONU es por lo menos bueno. Ahora Estados Unidos liene la opinin ms positiva: Alemania. Inglaterra y Fran-cia son apenas ligeramente menos optimistas y ca-si no se distinguen. y Japn aparece aislado con su e\'aluacion bastante pobre del desempeo de la ONU. Aunque las conclusiones no diferirian en gran medida de lo qu~ habriamos concluido de leer slo la segunda linea de la tabla 15.4. ahora nota. mos que el apoyo de Inglaterra es un tanto mayor.

    28 '18 '11

    'lO 10

    Aqu hay un riesgo del que quiero precaverlo .. Supongamos que usted lee apresuradamente la se-gunda fila de la tabla 15.4 y advierte que la evalua-cin que hacen los ingleses del trabajo de la ONU es menor que la de estadounidenses. alemanes y franceses. Usted se sentma obligado a elucubrar una explicacin del hecho y qUiz hasta formularia una ingeniosa teoria psicohistHca sobre el ocaso doloroso del una vez poderoso y solemne Imperio britanico. Entonces. despus de que lance su "teo-ra". alguien le seala que una lectura adecuada de los datos mostrana que en realidad los ingleses no tienen una opinin menos positiva que las otras tres naciones. Dse cuenta de que no se trata de un riesgo hipottico. sino de algo que pasa con freo cuencia y que se puede e\1tar combinando las ca-tegorias de respuesta cuando sea conveniente.

    El manejo de los "no s" Las tablas 15.4 y 15.5 Ilustran OtTO problema co. mn en el anlisis de los datos de una encuesta. Es una buena idea darle a los entre\1stados la po-sibilidad de contestar "no s" o "sin opinin" cuando se les pregunta lo que piensan sobre determinados temas: pero qu se hace con estas respuestas al analizar los datos?

    Observe que en este caso hay muchas vanacio-nes en los porcentajes nacional~s de los que dicen "no' s": de I O por ciento en Estados Unidos a 41

    de los "no s"

    Alemania Occidental Inglaterra

    65% 55% 35 45

    ciento en Japn. Los porcentajes Importantes respuesta "no s" complican los resultados de

    tablas. Por ejemplo. se Inclinan menos los 'jSlpOne!es a respaldar la obra de la ONU slmple-

    porque muchos no expresaron ninguna opl-'nin?

    'Veamos una forma sencilla de calcular de nuevo los porcentajes con la exclusin de los "no s".

    Observe III primera columna de porcentajes en la tabla 15.5: las respuestas en Alemania Occlden-ta! a la pregunta sobre el desempeo de la ONU. Advierta que 26 por ciento de los entrevistados di-jeron que no sabian. Esto significa que todos los que contestaron "bien" o "mal" tomados en conjun-to representan slo 74 por ciento (lOO menos 26) del total. SI dividimos el 48 por ciento de los que respondieron "bien o mejor" entre .74 (la propor-cin de los que dieron alguna opinin). podramos decir que 65 por ciento de quienes "tuvieron una opinin" pensaban que la ONU hacia un trabajo bu ello o muy bueno (48%/.74 = 65%). La tabla 15.6 presenta todas las cifras con exclusion de los "no s".

    Advierta que estos nuevos datos ofrecen una in-terpretacin un poco diferente que las ta!:>las ante-Iiores. En concreto. ahora resulta que Francia y Alemania tienen una evaluacin mas positiva de la ONU. en tanto que Estados Unidos e Inglaterra es-tn un poco abajo. Japn es aun el ms bajo al res pecto. pero ha pasado del 12 al 20 por ciento.

    En este punto. con tres versiones .de los datos. usted se preguntar cual es la correcta. La res-puesta]epende de sus propsitos al analizar e Interpretar sus datos. Por ejemplo. si no es esen-cial que usted distinga entre "muy bien" y "bien". vale la pena combinarlos. porque facilitan la lectu-ra de la tabla.

    Es ms dificil determinar de modo abstracto si es correcto incluir o excluir los "no s". Acaso sea

    Comparaciones entre subgrupos 357

    Francia Japn Estados Unidos

    65% 20% 57% 35 81 4'1

    muy importante haber descubierto que un porcen-taje tan grande de los Japoneses no tiene opinin. por ejemplo cuando uno qUiere aveliguar si la gen-te conoce el trabajo de la ONU. Por otra parte. si uno desea saber cmo votruia la gente sobre cierto tema. convendria ms excluir los "no s" en la su posicin de que no votaran o que dividlrian sus vo-tos entre los dos lados.

    Comoquiera que sea. la verdad que contienen su datos es que un porcentaje contest "no s" y el resto dividi su opinin en c4antas opciones hu-biera. A veces conviene mostrar los datos en ambas formas -con los "no s" y sin ellos-o para qe los

    . lectores saquen sus propias conclusiones.

    Descripciones numricas en la investigacin cualitativa Aunque este captulo atae principalmente a la in-vestigacin cuantitativa. tenga presente que la ex posicin tambin es pertinente para los estudios cualitativos. Los resultados de los estudios cualita-tivos exhaustivos se verfican mediante pruebas numricas. As!. por ejemplo. cuando David Sllver-man quiso comparar los tratamientos contra el cancer de pacientes de clinicas privadas con los del Servicio Nacional de Salud de Inglaterra. escogi en primer lugar los analisis exhaustivos de las relacio-nes entre mdicos y pacientes.

    MI mtodo de analisis fue en buena medida cualitativo 1 ... 1 Me servi de ell:traclos de lo dicho por mdicos y pacientes y realic una breve descripcin etnogrMlca del ambiente y de ciertos datos conductuales. Adems. prepare una forma de codificacin que me permiti cotejar varias medidas crudas de las interacciones entre doctores y enrermos.

    ISILn;H.\L\'~. 1993: 1631

  • 358 CaptUlo 15 ANlsis de datos

    Los datos numericos de SlIverman no slo afina-ron las impresiones que le dejaron sus observacio-nes cualitativas. sino que adems su comprensin profunda de la situacin le permiti articular un anlisis cuantitativo cada vez ms adecuado. 'En esta larga cita podemos apreciar la Interaccin en-tre los planteamientos cualitativos y cuantitativos.

    MI Impresin general fue que las consultas privadas duraban considerablemente ms que las de las cUnlcas del SNS. En efecto. cuando examine los datos. stos mostraron que las primeras duraban casi el doble que las segundas (20 minutos frente a 111. y que la diferencia era estadisUcamente significativa: Sin embargo. .

    . distingu una de las clnICas del SNS que. por razones peculiares. daba consultas anormalmente breves. Me pareci que una comparacin ms justa de las consultas en ambos sectores deba e.'Ccluir esta clnica y comprender slo los exmenes de un solo mdico en los dos casos. Esta submuestra de los casos revel que la diferencia de tiempos entre el SNS y las clinlcas privadas se redujo a un promedio de tres minutos. Esta cifra an era estadisUcamente significativa. aunque la signlficancla se redujo. Por ltimo. Si comparaba slo a los casos nuevos atendidos por el mismo doclor. los pacientes del SNS tenian en promedio cuatro minutos ms de consulta: 34 minutos. frente a los 30 de las clinicas privadas.

    ISILVERMAN. 1993: 163-164)

    Este ejemplo demuestra asimismo el poder que se gana en las ciencias sociales con una combina-cin de planteamientos. La reunin de anlisis cualitativos .v cuantitativos es en particular pode-rosa.

    Anlisis' bivariado A diferenCia del anlisis onivanado. las compara-ciones entre subgrupos constituyen una clase de anlisis blvarlado' porque concierne a dos vana-bies. Como dijimos. el propsito del anlisis univa-riada es puramente descriptivo. El objetivo de las comparaciones entre subgrupos tambien es des-criptivo -en buena medida describir los grupos por separado-. pero se aade el elemento de com-paracin. En las ciencias sociales. casi todos los anlisis bivariados suman otro elemento: las rela-

    Tabla 15.7

    Cad~ semana . Menos frecuente iOO%=

    75 (901)

    66 (1134)

    Fuente: Encuesta Social General. Centro Nacional de InvestigaCin la Opinin.

    clones entre las propias variables. As. el anlisis unlvarlado y las compara~lones entre subgrupos se concentran en describir a la gente (u otras unida-des c;le an.llsls) que es objeto de estudio .. rriientras. que el anlisis bivariado se. ocupa de las uariables.

    Observe. pues. que cabe considerar la tabla 15.7 como un caso de comparacin entre subgrupos: describe Independientemente la asistencia a la Igle-sia de hombres y mujeres. segn el Informe de la Encuesta Social General de 1990. La tabla mues-tra en forma comparativa y descriptiva que Ia,s mu-jeres del estudio van ms a la iglesia que los hom-bres.

    La misma labia. tomada como un anlisis biva-riada explicatioo. cuenla otra historia: indica que la variable sexo tiene un efecto en la variable asisten-cia a la iglesia. Esta conducta se considera una va-riable depe~diente determinada en parte por la variable independiente. el sexo. As. los anlisis bi-variados explicativos comparten el "lenguaje de va-riables" que presentamos en el capitulo l. En un cambio sutil de ngulo. ya no hablamos de hom-bres y mujeres como de subgrupos distintos. sino del sexo como variable: una variable que influye en otras. La lgica para Interpretar la tabla 15.7 ser la misma que en la hiptesis del consuelo de Char-les Glock. que expusimos en el capitulo 2:

    l. Nuestras sociedades tratan an a las mujeres como ciudadanas de segunda clase.

    2. A quienes se niega' la gratificaCin de una posicin en la sociedad secular. a veces acuden a la religin como fuente alternativa de estatus.

    3. Por tanto. las mujeres deben de ser ms religiosas que los hombres.

    Los datos de la tabla 15.7 C'onfirman este razo-namiento. El 34 por ciento de las mujeres asistia a

    Igiesla cada semana. en comparacin con el 25 ciento de los hombres.

    Aadir la lgica de las relaciones causales enlre tiene una Implicacin Importante en la :J""JU'G~'V" y la lectura de las tablas de porcenta-

    Uno de los peores dilemas de los analistas na-de datos es definir la "direccin apropiada de

    porcentajes". Por ejemplo. en la tabla 15.7 divl-el grupo de sujetos en dos subgrupos hom-

    y mujeres y describimos el comportamiento de uno. Es el mtodo correcto para elaborar es-

    ta tabla. Sin embargo. observe que habriamos podido ela-

    la tabla de otro modo. si bien inapropiado. dividimos los sujetos en grados de aslsten- .

    a la Iglesia y. luego describimos los subgrupos acuerdo con el porcentaje de hombres y muje-

    . res 'de cada uno. Como explicacin. este metodo no tendrla sentido.

    La tabla 15.7 seala que el sexo influir en la . frecuencia con .que se asiste a la iglesia. De haber aplicado el otro metodo de elaboracin. la tabla in-dicarla que la asistencia a la iglesia influye en que uno sea hombre o mujer, lo que no tiene sentido: la conducta no determina el sexo.

    Un problema relaclonad Viene a complicar la Vi-. da de los analistas noveles. Cmo se lee la tabla de porcentajes? Es tenlador leer la tabla 15.7 de la siguiente manera: "De las mujeres. slo 34 por ciento va a la Iglesia cada semana. y 66 por ciento dijo q\.le IQ hacia con menos frecuencia: por tanto. ser mujer hace menos' probable que se asista a la Iglesia con frecuencia". Sin embargo. esta no es la forma correcta de leer la tabla. La conclusin de que el sexo -como variable- tiene un efe~to en la . asislencia a la iglesia debe depender de una com-paracin entre hombres y mujeres. En concreto. comparamos 34 con 25 por ciento y vemos que las mujeres se inclinan ms que los hombres a ir cada . semana l la Iglesia. Asi. la comparacin entre sub-gru'pos es esencial para leer las tablas bivariadas explicativas.

    Al elaborar y presentar la tabla 15.7 utilic una convenci~ llamada porcentaje uertical. que significa que uno suma 105 porcentajes por columnas para obtener '100 por ciento. Esta clase de tablas se .Iee por filas de izquierda a derecha .. En la fila Utulada -cada semana". qu porcentaje de hombres 'asisle con ~sa frecuencia? Qu porcentaje de mujeres?

    Anlisis bivariado 359

    La direccin de los porcentajes en las tablas es arbitrario. y algunos Investigadores prefieren dis-ponerlos en sentido horizontal. Organizaran la ta-bla 15.7 de modo que "hombres" y "mujeres" apa: recieran en la columna de la Izquierda sealando dos -filas. en tanto que "cada semana" y "ms fre-cuente" Indlcarlan las columnas en la parte supe-rior. Las cifras de la tabla cambiaran en conse-cuencia y cada.fila de porcentajes sumara 100 por ciento. En este caso. uno leerla la tabla por colum-nas de arriba abajo buscando de cualquier manera el porcentaje de hombres y de mujeres que aslste~ frecuentemente, En ambas situaciones la lgica y las conclusiones serian las mismas: slo cambia la forma .

    Por tanto. cuando lea las tablas de otros Llene que averiguar en que direccin estn los porcenta-Jes. En general esto est anotado o se desprende de la lgica de las variables que 'se anal1zan: sin em-bargo.como ltimo recurso. sume los porcentajes de las columnas y las filas. Si las columnas suman 100 por ciento. la tabla est dispuesta en porcenta-

    Je uertical: si son las filas, est dispuesta en pareen-'taje horiZontal. Entonces. la regla es la siguiente:

    l. Si la tabla est en porcentaje vertical. lea hacia abajo.

    2. Si est en porcentaje horizontal. lea a lo largo.

    Obtencin de porcentajes para las tablas En la figura 15.3 se reVisa la lgica con la que ela~ boramos tablas de porcentajes de dos variables, . Tomamos como variables el se.xo y las posturas CUl-le la igualdad sexual. .

    Veamos otro ejemplo. Supongamos que nos inte-resa conocer un poco sobre las polticas editoriales de los peridicos en cuanto a la legalizacin de la mari~uana. Emprendemos un anlisis de conteni-dos de los editoriales que han tocado el tema du-rante cierto ao en una muestra de los diarios de la nacin. Clasificamos cada editorial como favora-ble. neutral o desfavorable a la legalizacin de la manguana. Tal vez queramos examinar la relacin entre polilicas editoriales y las comunidades donde se publican 105 peridicos. pues pensamos que los

    _ diarios rurales sern mas conservadores al respec-

  • 360 Caplwlo 15 Anlisis de datos

    Figura 15.3 Obtencin de porcentajes para una tabla

    A. Algunos hombres y mujeres que estn en favor (=) de la igualdad sexual o que estn en contra ("l. ..

    .. ~ x, ~ X X , t ~ ~ .=X

    X X~ ~ .. ~ X- ft ~ ~ B. Se separan hombres de mujeres (variable independiente) .

    .

    Mujeres Homb'res

    C. En cada grupo por sexo, se separan a los que estn en favor de la igualdad de los que se oponen (variable dependiente).

    Mujeres Hombres

    " "

    15.3

    D. Se cuentan los sujetos de cada celda de la tabla .

    Mujeres

    8 = = = = = = = =

    2

    E. Qu porcentaje de mujeres estn en favor de la igualdad?

    BO%

    G. Conclusiones

    .. ..

    Mientras que la mayorfa de los hombres y las mujeres estn en favor de la igualdad sexual, stas la apoyan ms que aqullos.

    As, el gnero es una de las causas de las actitudes hacia la igualdad sexual.

    Anlisis bivarlado 361

    Hombres

    6 = = = = = =

    XXXXXX 4

    .. .. .. ..

    KXXX F. Qu porcentaje de hombres estn

    en favor de la igualdad?

    Favorecen la igualdad Se oponen a la igualdad Tolal

    60%

    Mujeres Hombres

    BO% 60%

    20 40

    100% 100%

    lo que los urbanos, As, clasificamos cada peridi-co (y por ende cada editorial) de acuerdo con la po blacin de la comunidad donde se publica.

    La 'tabla 15.8 presenta unos datos hipotc>Ucos que describen las politicas editoriales de peridiCOS rurales y urbanos. Observe que la unidad de ami-

  • 362 Capitulo 1 S An!lIsiS de datos

    Tabla 15.8 Datos hipotticos de editoriales periodfstic:os sobre la legalizacin de la mariguana

    Polftic;a editorial Tamao de la comunidad sobre la legallzaci6n Menos de Mde de la mariguana 100000 100000 Favorable 11% 32% Neutral 29

    "O Desfavorable 60 28. 100% = (127) (438)

    Hsls de este ejemplo son los editoriales. La tabla 15.8 nos indica que en nuestra muestra hubo 127 editoriales de peridicos publicados en comunida-des de menos de 100 000 habitantes. (Nota: Elegi-mos este lmite para simplificar el ejemplo. No sig-nifica que ruraL se refiera a una comunidad de menos de 100000 pobladores en ningn sentido absoluto.) De stos. 11 po&. ciento (14 editoriales) tuvo una postura favorable' a la legalizacin de la mariguana. la de 29 por ciento fue nf:utral y la de 60 por ciento desfavorable. De los 438 editoriales en la muestra de diarios publicados en comunida-des de mas de 100000 residentes. 32 por ciento (140 editOriales) mostr una postura favorable a la legalizacin de la mariguana. 40 por ciento neutral y 28 por ciento desfavorable.

    Cuando comparamos las polticas editoriales de peridicos rurales y urbanos en nuestro estudio imaginario. descubrimos como esperbamos que los rurales son menos favorables a que se legalice la mariguana. Para determinar esto. observamos que estuvo en favor un porcentaje mayor de edito-riales urbanos (32 por ciento) que rurales (1 1 por ciento). Asimismo. observamos que ms editoriales rurales que urbanos se mostraron desfavorables (60 frente a 28 por ciento). Advierta que esta tabla supone que el tamao de la comunidad Influye en sus polticas editoriales al respecto. y no que stas influyen en aqul.

    Elaboracin y lectura de tablas - Antes de introducir el anlisis multlVarlado. repa-

    semos las pasos de la elaboracin de tablas biva-riadas explicativas:

    l. Los casos se dividen en grupos de acuerdo con los atributos de la variable independiente.

    2. Cada subgrupo se describe segn los de la variable dependiente.

    3. Por ltimo. la tabla se lee comparando los subgrupos de la variable Independiente de acuerdo con algn atributo de la Variable dependiente.

    Vamos a repetir el anlisis del sexo y la ante la Igualdad sexual Siguiendo estos pasos. las razones que ya sealamos. el se.ICo es la ble Independiente y la postura ante la igualdad xuaL la dependiente. As. procedemos como

    l. Los casos se dividen en hombres y mujeres. 2. Cada subgrupo por gnero se describe segn

    apruebe o no la Igualdad sexual. 3. Se comparan hombres y mujeres de acuerdo

    con los porcentajes que estn en favor de la Igualdad sexual.

    En el ejemplo de las polticas editoriales acerca de la legalizacin de la mariguana. el tamao de la . comunidad es la variable independiente y la politi-ca editorial del peridico es la dependiente. Elabo- . rarlamos la tabla de esta manera:

    l. Se dividen los editoriales en subgrupos de acuerdo con el tamao de las comunidades donde se publican los peridicos.

    2. Se describe cada subgrupo de editoriales segn los porcentajes favorables. neutrales o desfavorables en cuanto a la legalizacin de la mariguana.

    3. Se comparan los dos subgrupos de acuerdo con los porcentajes en favor de la legalizacin de la mariguana.

    Los anlisis bivartados tienen caracterlstlca-mente un propsito causal expllcallvo. Estos dos ejemplos hipotticos dependen de la naturaleza de. la causalidad tal como la conciben los cientficos sociales. En este punto. espero que el planteamien-to un tanto simplificado de la causalidad en estos ejemplos le ayudar a entender mejor la naturale-za compleja de la causalidad.

    Formatos de tablas bivariadas La clase de tablas que hemos examinado reciben el nombre de fablas de contingencia: los valores de la variable dependiente dependen de los valores de

    variable Independiente. Estas tablas son .comu-en las ciencias sociales. pero su formato no es-

    estandarizado. En consecuencia. en la blbllogra-de la Investigacin se encuentran diversos

    Mientras la tabla se lea e interprete con :il

  • 11 !,~~" 364 Capitulo I S :'1

    Anlisis de datos .1 ~. ;t

    1.1 1': r1: f.r (j, ::

    Tabl 15.9 Relacin multivariada: asistencia a la iglesia, sexo y edad

    "Con qu frecuencia asiste a ceremonias religiosasr' Menos de 40 40 Y mayores

    Hombres Mujeres Hombres Mujeres ""as o menos

    cada semana" 2"" 32" 33% 48% Con menos frecuencia 76 68 67 52 100% = (325) (383) (323) (4S2) +Ms o menos cada semana = "ms de una vez a la semana", "cada semana" 't "casi cada semana". Fuente: Muen ... Ieatoria de entreylstados P'" ,. ESG en 1973, 1983 Y 1993.

    ciento) y los hombres jvenes van menos a menudo (24 por Ciento). Varias de las tablas que presentamos en este ca-

    pitulo son un tanto Ineficaces. Cuando la variable dependiente. asistencia a le iglesia. es dicotmica (dos atributos!. el hecho de conocer un atributo permite al lector reconstruir el otro fcilmente. As. si sabemos que 32 por ciento de las mujeres de me-nos de 40 aos va a la iglesIa cada semana. sabre-mos tamblen automaticamente que 68 por ciento va con menos frecuencia: por tanto. es innecesario anotar quienes van menos a menudo. Si acepta-mos esto. la tabla 15.9 se presentaria con el forma-to de la tabla 15. 10.

    En la tabla 15. 10, los porcentajes de quienes 'asisten a la iglesia aproXimadamente cada semana se anotan en las celdas que representan las intersec-ciones de las dos variables IndependIentes. Las ci-fras entre paren tesis debajo de cada porcentaje sealan el nmero de casos en que stos se basan. As. por ejemplo. el lector sabe que hay 383 muje-res de menos de 40 aos en la muestra y que 32 por ciento de ellas va a la igleSia cada semana. Con esto calculamos que 123 de las 383 asisten sema-nalmente y que las otras 260 (o 68 por cien tal lo hacen con menos frecuencia. Esta nueva tabla se lee con mas facilidad y no sacrifica los detalles.

    Para considerar otro ejemplo de anallsis mulll-"ariado. regresemos al tema del sexo y el Ingreso qUf' estudiamos al principio. Como recordara: hay IIn patrn antiguo f'n el que las trabajadoras ga-nan menos que los hombres. y se han propuesto muchas explicaciones para dar cuenta de la dife rencia.

    Tabla 15.10 Simplificacin de la tabla 15.9

    Menos de 40

    40 y mayores

    Porcentaje que asiste aproximadamente cada semana

    Hombres Mujeres 24 J2

    (325) (383) 33 48

    (323) (452)

    Una de ellas reza que. a causa de la estructura tradicional de la familia, las mUjeres como grupo han participado menos en el mercado laboral y muchas comienzan a trabajar fuera de casa des-pus de concluir ciertas tareas de crianza. Asi. las mujeres como grupo tienen menos antigedad que los hombres. factor ste que aumenta los ingresos. En 1984. un estudio de la Oficina del Censo esta-dounidense revel que este agumento es parcial-menle cierto. como se muestra en la tabla 15.11.

    La tabla 15.1 l Indica. primero que todo. que la antigedad en el puesto influye en los ingresos. Entre mujeres y hombres. quienes tienen mas aos de labores ganan mas. Esto se aprecia leyendo las dos primeras columnas.

    La tabla tambien seala que las mujeres ganan menos que los hombres independientemente de la antigedad. Esto se ve comparando los sueldos promedia en las mas de la tabla y en la proporcin de los ingresos de las mlJjeres en relacin con los hombres que se muestra en la ltima columna.

    Este analisis muestra que los aos en el trabajo son un determinante Importante de las ganancias. pero no da una explicacin adecuada de que las mujeres ganen menos que los hombres. De hecho. vemos que mujeres con 10 aos o mas de labores ganan sustancialmente menos (7.9 l dlares por hora) que los hombres con menos de dos aos (8,46 dlares por hora).

    Estos datos Indican que la diferencia entre la paga de hombres y mujeres no es meramente re-sultado de que aqueIlos tengan ms tiempo en el trabajo. Sin embargo. hay otras explicaCiones plau-sibles de la diferencia: educacin. responsabilida-des con los hijOS. etcetera.

    Los investigadores que calcularon la tabla 15.1 I lambien examinaron otras variables que cabria su-poner que explican la diferencia entre los sUt'ldos

    Puntos principales 365

    antigedad laboral e ingreso (trabajadores de tiempo completo de 21 a 64 aos)

    Aos de trabajo Ingreso promedio por hora (dlares) Proporcin con el patrn actual Hombres Mujeres mujeres/hombres Menos de dos aos $ 8.46 $6.03 .71 Dos a cuatro aos $ 9.38 $6.78 .72 Cinco a nueve aos $10.42 $7.56 .73 10 aos o ms . $12.38 $7.91 .64

    Bureau of che Census. Curren, Poputation Repares. serte P-70, nm. 10. Mole-Female Diffo,.n,es in Work Experience. O"upotion, ond 1984 (WashingtOn. U.S. Govemment Prlntlng OIflce. 1987): 4.

    de hombres y mujeres sin argumentar discrimlna-. cln sexual. Ademas de los aos con el empleador actual. las varlables que examinaron son las si-

    Aos en la ocupacin actual Total de aos de experiencia laboral (cualquier

    ocupacin) Si por lo regular trabajan tiempo completo Estado civil J Tamao de la poblacin donde Viven Si estiln sindicalizados Tipo de ocupacin Nmero de empleados en la compaia Si es empresa pblica o privada Si dej el trabajo anterior contra su voluntad TIempo transcurrido entre el empleo actual y el

    anterior Grupo etnico SI tienen alguna Incapacidad Condicin de salud Edad de los hijos Si IIevaron un programa universltarlo ~n la

    prepara toria Nmero de' clases de matemticas. ciencias e

    Idiomas en la prepara lona SI asistieron a una preparatoria pblica o

    pnvada Nivel de escolaridad alcanzado Porcentaje de mujeres en la ocupacin Espec./.alidad universitaria

    Todas las variables de la lisia pueden influir en los Ingresos y. si las mujeres y los hombres difieren al respecto. explicarian las diferencias de ganan-cias. Cuando tomaron en cuenta ladas estas varia-

    bIes, los investigadores pudieron explicar 60 por ciento de las discrepancias entre los ingresos de hombres y mujeres. Entonces. el 40 por ciento res-tante es una funcin de otras variables razonables. o de los prejuIcios.

    Este ltimo ejemplo debe darle una Imagen mas completa de los usos del anlisis mulUvariado. En un nivel superficial. ahora conoce todo el proceso del anlisis de datos. En este sentido. el capitulo 16 es un repaso en un nivel mucho mas pro~undo del matenal que ya tratamos.

    Puntos principales El anallsis univariado comprende una sola

    variable. La totalidad de los datos reunidos sobre una

    variable son. en esa forma. imposibles de interpretar. La reduccin de los datos es el proceso de resumir la informacin original para hacerla mas manejable mientras que se conservan en buena medida los detalles.

    La distribucin de frecuencia muestra el nmero de casos que tienen los atributos de la variable considerada.

    Los datos agmpados se obtienen mediante la combinacin de los atnbutos de una variable.

    Las medidas de tendencia central (media. mediana y moda) reducen los datos a una forma manejable. pero no proporcionan los detalles de los datos Oriinales.

    Las medidas de dispersin dan una indicacin sumaria de la dislribucin de los casos alrededor de una medida de tendf'ncia central.

  • - i

    I

    366 Capitulo I S Anlisis de datos

    Para emprender una comparacin entre subgrupos. (1) se dividen los casos en los subgrupos apropiados. (2) se describe cada subgrupo de acuerdo con cierta variable y (3) se comparan las descripciones de los subgrupos.

    El anaJlsls blvariado no es ms que una interpretacin diferente de las comparaciones entre subgrupos: (1) se dividen los casos en subgrupos de acuerdo con sus atributos en alguna variable Independiente. (2) se des~ribe cada subgrupo en trminos de una variable dependiente. (3) se comparan las descripciones de las variables dependientes de los subgrupos. y (4) se Interpretan cualesquiera diferencias observadas como una asociacin estadstica entre las variables Independientes y dependientes.

    Para Interpretar correctamente las tablas de porcentajes bivariados: (1) "porcentaje vertical" y "lectura horizontal". o bien (2) "porcentaje horizontal" y "lectura vertical" para hacer las comparaciones entre subgrupos.

    El anaJlsis multivarlado es un mtodo para analizar las relaciones simultneas entre diversas variables. y se aplica a la comprensin cabal de las relaciones entre dos variables.

    Si bien los temas expuestos en este captulo se relacionan principalmente con la Investigacin cuantitativa. su lgica y sus tcnicas tambin son valiosas para los estudiosos que realizan investigaciones cualitativas.

    Preguntas y ejercicios de repaso

    Elabore e interprete una tabla de contingencia con la siguiente informacin: 150 demcratas favorecen un aumento del salario mnimo y 50 se oponen: 100 republicanos es tan en favor del aumento y 300 en contra. Con los datos de la tabla' siguiente. elabore e interprete tablas que'muestren: a. La relacin bivariada entre edad y actitud

    hacia el aborto, b. La relacin bivariada entre tendencia poliUca

    )' actitud hacia 'el aborto. e. La relacin multivariada que vincula la

    edad. la lendencia politica y la actitud hacia el aborto.

    Actitud Tendencia hacia

    Edad polltica el aborto Frecuencia

    Joven Uberal En favor 90 Joven Uberal En contra 10 Joven Conservador En favor 60 Joven Conservador En contra 40 Mayor Uberal En favor 60 Mayor Uberal En contra 40 Mayor Consrvador En favor 20 Mayor Conservador En contra 80

    3. Su cometido es elaborar una tabla de porcentajes bivariados simple a partir de datos de la Encuesta Social General. Puede hacerlo en linea. sin tener los archivos de datos en su poder. Comience en el Programa de Metodos de Encuestas Asistidos por Computadora de la Universidad de California en Berkeley:

    http://bravo.berkeley.edu/cglbin/hcsa?harc3

    El primer paso es elegir dos variables que I~ gustara analizar. Quiz ya conozca el nombre de algunas variables de la ESG. como ABANY. CAPPUN. SEX o. GRASS. Tambin puede localizar algunas variables con la opcin "Browse Codebook".

    Cuando haya encontrado dos variables. elija la opcin "Run Crosslabulation". Ingrese los nombres de las variables horizontal y vertical. Indique que desea un porcentaje vertical y el "Question Text".

    Entregue a su profesor la labia que elabor. 4. Localice tres ejemplos publicados de "medidas

    de tendencia central". Identifique el lipo de medida que se calcul y decida si result apropiada.

    Proyecto de continuidad Asuma que est llevando a cabo un estudio cuantitativo de las actitudes hacia la igualdad sexual. Elabore una tabla bivaJiada de porcentajes e Interprtela. Una de las variables debe ser un indicador de las actitudes hacia la igualdad sexual y la otra debe representar una causa de dichas actitudes.

    Lecturas adicionales Coleo Stephen. The Sociolagical Method.: An

    lntroduction to the Science oJ SociOlogy. Bastan. Houghton Mifflin. 1980. Legible Introduccin al anlisis. Cale parte de la pregunta general sobre qu es la Indagacin social clentifica y luego ilustra con ejemplos comprensibles.

    Davis. James. Elementary Suroey Analysis. ' Englewood Cllffs. N.J .. Prentlce-Hall. 1971. Introduccin al anaJlsls extremadamente bien escrita y razonada. Adems de cubrir las materias de este capitulo 15. el libro de Davis vale la pena leerse por su tratamiento de los temas de medicin y estadsticas.

    Labovltz. Sanrord. y Robert Hagedorn. lntroducti:m to Social Research. Nueva York. McGraw-HiII. 1981. Otra til Introduccin al anlisis. Sobre el fondo de intereses ms generales en la

    Lecturas adicionales 367

    Investigacin social clentifica. los autores proporcionan una Introducclqn muy legible y provechosa a los anlisIs elementales en su captulo 6. Al igual que Cale y Davis. pasan a la consideracin del anlisis multivarlado. W~lsberg. Herbert F .. Central Tendency and

    VariabUity. Newbury Park. Cal.. Sage. 1992. Ofrece un examen ms exhaustivo de los niveles de medIcin y las medIdas de tendencia central.

    Ziesel. Hans. Say lt with F1gures. Nueva York. Harper and Row. 1957. Excelente exposicin de la elaboracin de tablas y otros anlisis elementales. Aunque ya con muchos aos. es quiz la mejor presentacin disponible de un tema especifico. Es eminentemente legible y comprensible. y tiene muchos ejemplos concretos.

    . ' ,

    l' ! !

  • Estadsticas sociales Lo que aprender en este captulo Aqu ab~rdaremos algunas estadsticas simples usadas con Jrecuenc!~ e.n la investigacin social. Si siente aversin por las E'slad!st!cas. se llevar una agradable sorpresa.

    ~ .-

    este captulo ...

    Estadistica descriptiva Reduccin de datos Medidas de asociacin

    'otras tcnicas multivariads Anlisis de trayectortas Anlisis de series temporales Anlisis factorial

    Introduccin Segn mis aos de experiencia, muchos estudian-tes le temen a las estadistlcas, pues los hacen sen-tir

    . Unos payasos sin circo Mas tontos que un zoquete de madera Unas cuantas plumas sin pato Pura espuma sin cerveza Que le faltan botones a su control remoto Unos frijoles sin su tortilla Tan chiflados como un bate de ftbol Con la agudeza de una bola de boliche

    ~ Como un peso de 96 centavos Que 1'10 se entienden con los arrtblstas*

    A muchas personas les atemoriza la Investiga-cin empirlca porque no se sienten cmodas con las matemticas ni con la estadistlca. En efecto, muchos informes estan llenos de calculas Inexpli-cados. La funcin de las estadisticas en la Investi-gacin social es muy Importante, pero tambin es Importante que usted contemple tal funcin desde el angulo adecuado.

    La investigacin empirlca es, primero y antes que nada, una operacin lgica, mas que matema-lica."Las matematicas son meramente un lenguaje cmodo y eficaz para realizar las operaciones lgi-

    'Les agradezco a los abundantes colaboradores de las lis-Ias humoris!lcas en Internet.

    Estadistica Inferencia! Inferencias univarladas f.ruebas de signlficancia estadstica La lgica de la signiflcancia estadstica JI cuadrada Puntos principales Preguntas y ejercicios de repaso Proyecto de continuidad Lecturas adicionales

    !R9.unme f

    cas Inherentes a un buen analisls de datos. La es-tadstica es la rama aplicada de las matematicas especialmente apropiada para diversos analisls de Investigaciones.

    En este capitulo veremos dos clases de estads-tica: la descriptiva y la inJerencial. La estadistica descriptiva es un medio para describir los datos en formas manejables. Por su parte. la estadstica inferencia! nos asiste para sacar conclusiones so-bre las observaciones; por lo comn. conclusiones sobre una poblacin a partir del estudio de una muestra tomada de ella.

    Estadstica descriptiva Ya Indiqu que la estadistica descriptiva es un m-todo para presentar descripciones cuantitativas en una forma manejable. Algunas veces queremos describir variables nicas; otras. describir las aso-ciaciones que vinculan una variable con otra. Vea-mos algunas formas de lograrlo.

    Reduccin de datos La investigacin cientfica suele requerir la recopi-lacin de grandes volmenes de datos. Suponga-mos que hemos entrevistado a 2000 personas a las que les formulamos lOO preguntas (un esludio no muy largo). Tendriamos un asombroso conJunlo de 200 000 respueslas. Nadie podria leer 200 000 res-puestas y llegar a ninguna conclusin significati\'a sobre ellas. As. muchos anlisis cienlificos requie'

    369

    ,

    'i

  • 1',

    " II 370 Capitulo 16 Estadsticas sociales .1"-' '.1 t~' 11, ren la reduccin de los datos de los detalles inabar-, cables a los compendios manejables.

    !. :'' Para iniciar nuestra exposicin. detengmonos " brevemente en la matriz de datos crudos creada en

    un proyecto de investigacin cuantitativa. La tabia 16.1 presenta una matrtz de datos parcial. Obser-ve que cada ma representa a una persona (u otra unidad de anlisis). cadll columna representa una variable y cada celda es el atrtbuto codificado. o va-lor. que tiene cada persona en cada vartable. La primera columna de la tabla 16.1 representa ei se-

    I xo de cada persona. Digamos que "1" equivale 'a hombre y "2" a mujer. Esto significa que las perso-nas 1 y 2 son hombres. la persona 3 mujer. etcetera.

    En el caso de la edad. el "3" de la persona 1 sig-nifica. por ejemplo. de 30 a 39 aflos. el "4" de la persona 2. de 40 a 49 aflos. Como quiera que se haya codificado la edad (vease el capitulo 14), los nmeros codificados que se muestran en la tabla 16. I descrtbirian a cada una de las personas repre-sentadas.

    Observe que los datos ya estn reducidos en al-guna medida para el momento en que se forman las matrices de datos. Si la edad se codific como dijimos, la respuesta especifica "33 aflos de edad" ya se asign a la categoria "30 a 39~" Las personas que respondieron a nuestra encuesta nos habrn dado 60 o 70 edades distintas. pero las hemos re-ducido a seis o siete categorias.

    En el capitulo 15 estudiamos las formas de con-tinuar el compendio de datos univartados: medidas de tendencia central como la moda. la mediana y la media y medidas de dispersin. como el rango. la desvlacin estndar. etc. Tambien es posible resu-mir las asociaciones entre vartables.

    _ Medidas de asociacin Es posible representar la asociacin de cualquier par de variables en una matriz de datos. esta vez

    - producida por la unin de las distribuciones de fre-cuencia de ambas vartables. La tabla 16.2 presen-ta dicha matriz. Proporciona toda la Informacin necesaria para determinar el canicter y la magni-

    - tud de la relacin entre educacin y prejuicios. Por ejemplo. advlerta que 23 personas [1) no tie-

    nen educaCin. y (2) tuvleron una puntuacin alta en prejuicios: 77 personas (1) tienen un posgrado. y (2) recibieron una calificacin baja en prejuicios.

    Al igual que la matriz de datos crudos de la bla 16.1. esta matriz ofrece ms informacin de que uno puede comprender con facilidad. Sin bargo .. si usted la estudia atentamente. ver qUe. medida que el nivel educativo aumenta de no" a "Posgrado". 10s prejuicios exhiben una dencia general a disminuir: pero slo es captar una impresin general. Ahora bien. estadsticas descrtptlvas nos permiten resumir ta matriz. En prinCipio, elegir la medida apropiada. depende de la naturaleza de las dos vartables.

    Ahora nos dirigiremos a algunas de las Opciones disponibles para resumir la asociacin entre dos vartables. Cada medida de asociacin que exponga-mos se basa en el mismo modelo: la reduccin pro-porcional de error (RPE). Para ver cmo funciona el modelo. supongamos que yo le pido a usted que adMne los atributos de los entrevlstados en deter-minada variable: por ejemplo. si respondieron un

    'reactivo con si o no. Para auxiliarlo, empecemos por suponer que us-

    ted conoce la distribucin general de las respues-tas del total de la muestra: digamos. que 60 por ciento dijo si y 40 contest n'o. Cometera menos errores en el proceso'sl cOnjeturara siempre la res-puesta modal [la ms rrecuente): s.

    Segundo. supongamos que usted tambin cono-ce la relacin emprtca entre la primera vartable y alguna otra: digamos. el se!co. Entonces. cada vez que le pidiera que adivlne cundo un entrevlstado dijo si o no. le dir si se t.:ata de un hombre o una mujer. SI las dos variables se relacionan. debe co-meter menos errores la segunda vez. Por tanto. es pOSible calcular la RPE conociendo la relacin en-tre las dos variables: entre mayor sea la relacin. mayor ser la reduccin del error.

    Este modelo bsico de RPE se modifica ligera-mente para dar cuenta de los diversos niveles de medicin: nominal. ordinal o intervalar. En las sec-ciones siguientes consideraremos estos niveles y presentaremos una medida de asociacin apropia-da para cada uno. Tenga presente que las tres me-didas estudiadas son slo una seleccin arbltrarta entre muchas medidas pOSibles.

    Variables nominales Si las dos vartables consta-ran de datos nominales (por ejemplo. el sexo. la afi-liacin religiosa. el grupo tnico). la medida apro-

    Esudlstica descriptiva 371

    16.1 parcial de datos crudos

    Afiliacin Tendencias Afiliacin Importancia Sexo Edad Escolaridad Ingresos Ocupacin polidea polfdcas religiosa de la religi6n

    2 .. 2 3 O " 2

    " 2 .. 4 I I 2

    2 2 S 5 2 2 .. 2 3 .. I 5 4 4 3 2 2 2

    " 5 2 3 7 8 6 1 1 5 I 2 3 S 3 S

    Tabla 16.2 Datos crudos hipotticos sobre educacin y prejuicios

    Nivel edueativo

    Ninguno Primaria

    23 H Ii 21 6 12

    piada seria lambda (A). Lambda se basa en nuestra capacidad de conjeturar los valores de una de las vartables: la RPE que se consigue mediante el co-nocimiento de los valores de otra vartable.

    Imagine esta situacin. Yo le Informo que en una sala se encuentran 100 personas y que quiero que usted adivlne el sexo de cada una. Si la mitad son h01ll,bres y la mitad mujeres, lo ms probable es que usted acierte la mitad de las veces y se equi-voque la otra. Pero supongamos que le dijera la ocupacin de cada quien antes de que usted conje-turara sobre el sexo.

    Que sexo presumira si le dijera que una perso-na maneja un camin? Probablemente opinar que es hombre: aunque ahora muchas mujeres condu-cen camiones, la mayoria siguen siendo hombres. Si le dijera que la siguiente. persona se dedica a la enrermeria. quiz usted supondr que es mujer. de acuerdo con la misma lgica. TodaVa cometera

    , errores al adivlnar el sexo. pero es evldente que se desemp~ara mejor que si no conociera la ocupa-cin. El grado en el que usted saliera mejor librado na reduccin proporcional de error) sera un indi-cador de la asociacin entre el sexo y la ocupacin.

    Tomemos otro ejemplo hipottico sencillo que Ilustra la lgica y el mtodo de lambda. La tabla

    SecJPrep. Universidad Posgrado

    156 67 16 123 102 23 95 164 77

    Hombres Mujeres Toul Empleado 900 200 1.100 Desempleado 100 800 900 Total 1000 1000 2000

    16.3 presenta datos hipotticos que relacionan el sexo y el empleo. En general. observamos que 1100 personas estn empleadas y 900 no. Si usted tuvle-ra que predecir si las personas tienen empleo o no, conociendo slo la distribucin general de la varia-ble. conJeturaria siempre "empleado". puesto que tendra menos errores que si dijera siempre "de-sempleado. Sin embargo. esta estrategia arrojaria 900 errores en 2000 predicciones.

    Supongamos que usted cuenta con los datos de la tabla 16.3 y que conoce el sexo de cada persona antes de predeCir los empleos. En tal caso. su es-trategia camblarta. Con cada hombre diria "em-pleado y con cada mujer "desempleada". En estas circunstancias. cometera 300 errores -los 100 hombres desempleados y las 200 mujeres emplea

  • J71 CapItUlo 16 Estadlstlcas socIales

    das-o 600 errores menos que los que cometeria sin conocer el sexo de las personas.

    Por tanto. lambda representa la reduccin en los errores como proporcin de 105 errores que se ha-brian cometido a partir de la dlstrtbucln general. En este ejemplo hipotetico. lambda seria Igual a .67: es decir. 600 errores menos divididos entre 900 errores totales basados en el empleo nica-mente. De esta manera. lambda mide la asociacin estadstica entre el sexo y el empleo. ,

    Si el sexo y el empleo fueran estadsticamente independientes. encontrariamos la misma dlstrt-bucin de empleo entre hombres y mUjeres. En es-te caso. conocer el sexo no Influira en el nmero de errores cometidos al predecir el empleo. y la lambda resultante seria cero. Por otro lado. si to-dos los hombres estuvieran empleados y las mu-jeres desempleadas. conocer el sexo evitara los errores al predecir el empleo. Usted cometeria 900 errores menos (de UJ1 total de 900). asi que lambda seria Igual a 1.0: una asociacin estadsti-ca perfecta.

    Lambda es apenas una de varias medidas de asociacin adecuadas para el anlsls de dos varia-bles nominales. Consulte en cualquier libro de es-tadstica otras mediciones convenientes.

    Variables ordinales Si las variables que se relacio-nan son ordinales (por ejemplo. la clase social .. Ia religiOSidad. la enajenacin). la medicin apropiada de la asociacin es gamma (r). Como lambda. gam-ma se funda en nuestra capacidad de conjeturar valores de una variable conociendo los de otra. Sin embargo. en lugar de adivinar valores exactos. gamma se basa en la dispoSICin ordinal de los va-lores. En cualquier par de casos. uno presume que su ordenamiento en una variable corresponder (positiva o negativamente) con el ordenamiento de la otra.

    Digamos que tenemos un grupo de alumnos de primaria. Seria razonable suponer que hay una re lacin entre su edad y su estatura. Para probarlo. comparariamos parejas de estudiantes: Samuel y Maria. Samuel y Alfredo. Maria y Alfredo. etc. Des-pues. omlliriamos todos los pares de alumnos de la misma edad o altura. Entonces. cJasificariamos los pares restantes '(105 que difieren tanto en edad co-mo en estatura) en dos categorias: aquella en la

    Tabla 16.4 Datos hipotticos que relacionan la clase social con los prejuicios

    Clase Clase Prejuicios baja media alta Escasos 200 400 700 Moderados 500 900 400 AltoS 800 300 100

    que el nio de ms edad es tambin el ms (parejas "iguales") y aquella en la que el nio . ms edad es el mas bajo (parejas opuestas"). si Samuel es ms grande y alto que Maria. riamos la pareja Samuel-Maria como "Igual". SI muel fuera mayor pero mas baja que Maria. la reja seria opuesta" (si tuvieran la misma edad o misma estatura. la Ignoraramos).

    Para determinar si la edad y la estatura relacionadas. comparariamos el nmero de iguales y el de opuestas. Si las parejas iguales peraran a las opuestas. concluiramos que hay relacin positiva entre las dos vaJiables: a que una aumenta. la otra tambien crece. Si ra mas opuestas que iguales. concluiriamos hay una relacin negativa. SI hubiera la misma cantidad de parejas iguales que de opuestas. con-c!ulriamos que la edady la estatura no estn rela-cionadas. que son independientes una de la otra.

    Veamos un ejemplo de las ciencias sociales para Ilustrar los clculos simples de gamma. Digamos que usted sospecha que la religin guarda una re-lacin positiva con el conservadurismo politico. SI la persona A es ms religiosa que la persona 8. usted conjetura que A es tambin mas conservadora que B. Gamma es la proporcin de comparaciones pa-readas que coinciden con este patrn.

    La tabla 16.4 presenta los datos hipotticos que relacionan la clase social y los prejuicios. El carnc ter general de la relacin entre estas dos variables es que. a medida que la clase social aumenta. los pre-juicios disminuyen. Hay una asociacin negativa en-tre clase social y prejuicios.

    Gamma se calcula a partir de dos canudades: (I) el nmero de pares que tienen el mismo orden en las dos variables y (2) el numero de pares que tienen el

    estadistica descriptiva 373

    o\$C)CillCic,ntlS gamma entre reactivos de diferenciacin semntica de la escala de santificacin

    til Honesto Superior Amable Amistoso Clido .79 .88 .80 .90 .79 .83

    .&1 .71 .77 .68 .72 .83 .89 .79 . .82

    .78 .60 .73 .88 .90

    .90

    Helena Znlnleckl lapita. "Widowhood Ind Husbond Sanctlflcation". en Joumol of Mamare ond rile Fomily (mayo d. 198 1): 439-'150.

    orden opuesto en ambas. Los pares que tienen el orden se calculan como Sigue. La frecuen-

    cia de cada celda de la tabla se multiplica por la suma de todas las. celdas que aparecen debajo y a la derecha de ella. y se suman todos estos produc-tos. En la tabla 16.4. el nmero de pares con el mismo orden seria 200(900 + 300 + 400 + 100) + 500(300 + 100) + 400(400 + 100) + 900{ 1 00) o 340000 + 200000 + 200000 + 90 000 = 830 000.

    Los pares con orden opuesto en las dos varla- . bIes se calculan como sigue: la frecuencia de cada celda de la tabla se multiplica por la suma de todas las celdas que aparecen abajo y a la Izquierda de ella. y se suman todos los productos. En la tabla 16.4. el nmero de pares con orden opuesto seria 7001500 + 800 + 900 + 300) + 4001800 + 300) + 400(500 + 800) + 900(800) o I 750 000 + 440000 + 520 000 + 720 000 = 3 430 000. Gamma se calcula a partir de los pares del ~Ismo orden y del orden opuesto como sigue:

    Iguales - opuestos gamma =

    Iguales + opuestos

    En nuestro ejemplo. gamma es igual a 1830 000 -3430000) dividido entre (830000 + 3430000) o - .61. El signo negativo en la respuesta muestra la

    asociacl~m negativa que surgi en la inspeccin Ini-cial de la tabla. En este ejemplo hipottico. la clase social y los prejuicios estn asociados negativa-mente. Las cifras de gamma indican que 61 por ciento ms de los pares examinados tena un orden opuesto que igual.

    Observe que mientras que lambda varia de O a l. gamma lo hace de -1 a +1. pasando por O. para representar la direccin asi como la magnitud de la asociacin. Como las varlal{les nominales no tie-nen una estructura ordinal. en tales relaciones no tiene sentido hablar de direccin (una lambda neo gatlva Indlcaria que uno comeli ms errores al predeCir los valores de la primera, variable' cono-ciendo los valores de la segunda que sin conocer-los, lo que no es lgicamente posible).

    La tabla 16.5 es un ejemplo del uso de gamma en la investigacin social contempornea. Para es-tudiar el grado al que las Viudas santificaban a sus esposos fallecidos. Helena ZnanleckJ Lopata (1981) aplic un cuestionario a una muestra probabilsti-ca de 301 viudas. En parte. el cuestionarlo peda a las entrevistadas que caracterizaran a sus difuntos maridos de acuerdo con la siguiente escala de dife renciacin semntica:

    Caracterstica Extremo Extremo positivo negativo Bueno 2 3 4 5 6 7 Malo til 2

    " 5 6 7 Intil

    Honesto 2 4 5 6 7 Deshonesto Superior 2

    " 5 6 7 Inferior

    Amable 2 "

    5 6 7 Cruel Amistoso 2

    " 6 7 Hostil

    Clido 2 "

    5 6 7 Distante

    Se pidi a las entre\1stadas que describieran a sus maridos encerrando en un circulo un nmero para cada par de caractersticas. Observe que la

  • r.

    1

    37.. Capitulo 16 Esadlstlcas sociales

    serie numrica que vincula cada par es una medi-cin ordinal.

    A continuacin. Lopata quiso descubrir el grado al que se relacionaban las mediciones. Convenien-temente. eligi gamma como la medida de asocia-cin. La tabla 16.5 muestra cmo present los re-sultados de su Investigacin.

    El formato presentado en la tabla 16.5 se deno-mina matriz de correlacin. Lopata calcul gamma' ~ara cada par de mediciones. Por ejemplo. ~ueno y Utll estn relacionados por un gamma Igual a .79. Las matrices son una forma conveniente de pre-sentar las correlaciones entre diversas variables. y usted las encontrara a menudo en la bibllografia de la Investigacin. En este caso. vemos que todas las variables se relacionan mucho. aunque el vinculo de algunos pares es ms fuerte que el de otros.

    Gamma es slo una de varias medidas de aso-ciacin adecuadas para las variables ordinales. Aqu tambin. un libro de Introduccin a la esta-dstica le ofrecer un tr.ftamlento ms exhaustivo del tema.

    Variables intervalares o de razn SI se asocian varia-bles intervalares o de razn (por ejemplo. edad. in-greso. promediO de calificaciones. etc.). una medi-da apropiada es la correlacin de producto momenio de Pearson (rl. La derivacin y el clculo de esta medida de asociacin es demasiado complicada y queda fuera del alcance de este libro. por lo que s-lo haremos algunos comentarlos.

    Al Igual que gamma y lambda. r se basa en con-jeturar el valor de una variable conociendo otra. Sin embargo. para variables continuas Intervalares o de razn. no es probable que uno prediga su va-lor exacto. Pero. por otro lado. pronosticar slo la dispOSICin ordinal de 105 valores de dos Variables no aprovecharla el mayor volumen de Informacin que comunica una variable intervalar o de razn. En cierto sentido. r Indica que tanto puede uno conjeturar el valor de una variable con el conoci-miento del valor de otra.

    Para entender la lgica de r. piense de qu ma-nera presumitia 105 valores hlpotetlcos que adop-tan ciertos casos de determinada Variable. Con las Variables nominales vimos que uno puede siempre suponer el valor de la moda. pero con los datos in-tervalares o de razn minimlzariamos los errores conjeturando siempre el valor de la media de la va-

    rlable. Aunque este ejercicio arroja pocas ras perfectas o tal vez ninguna. el monto errores se reduce al mnimo.

    En el clcu.lo de lambda sealamos el de errores que se cometen al indicar siempre lar de la moda. En el caso de r. los errores se segun la suma de las diferenCias al cuadrado el valor real y la media Esta suma se llama cin total

    Para entender el concepto. debemos marco de nuestro estudio. Veamos la anAllsia de regresl6n y volvamos a la (,OIT"lo,." en ese contexto.

    Anlisis de regresin En varios puntos del texto nos hemos referido a frmula general para describir la asociacin dos variables: y = f(XI. Esta frmula se lee y una funcin de X .. lo que significa que los de Y se e.'C)llican en trminos de las variaciones los valores de X Para enunciarlo con ms dlriamos que X causa y. de modo que el valor de determina el valor de Y. El anlisis de regresin un mtodo para determinar la funCin que relaciona y con X. Hay varias formas de sls de regresin. dependiendo de la complejidad de las relaciones que se estudian. Comencemos con la', ms simple.

    Regresin lineal El modelo de regresin se aprecia ms claramente en el caso de una asociacin lineal perfecta entre dos variables. La figura 16. l es un diagrama de dispersin que presenta en forma gr-fica los valores de X y Y que arroj un estudio hi. pattico. Muestra que. en los cuatro casos de nues tro estudio. los valores de X y r son idnticos en cada uno. El caso con un val~r de l en X tambin llene un valor de l en ): etc. Aqu. la relaCin en. tre las dos variables se describe con la eCuacin y = X: sta se llama ecuacin de regresin. Como los cuatro puntos se encuentran sobre una reCIa. po-demos sobreponer la linea a los puntos: se trata de la linea de regresin.

    Este modelo de regresin lineal tiene usos des criptlvos importantes. La linea de regresin ofrece una imagen grfica de la asociacin entre X y jo: y

    16.1 simple de dispersin de los valores de X y Y

    o Valores de X

    ecuacin de regresin es una forma eficaz de re-El modelo de regreSin tambin tiene un

    de inferencia. En la medida en que Ia ecuacin regresin describa correctamente la asociacin ge-

    entre las dos. variables. dicha ecuacin serv-para predecir otros valores. Por ejemplo. si sa

    que un caso nuevo tiene un valor de 3.5 en X. podemos predecir el valor de 3.5 tambin en Y.

    Desde luego. en la prctica rara vez se limitan los estudios a cuatro variables. y las asociaciones de stas casi nunca son tan claras como en la figu-ra 16.1.

    Se presenta un ejemplo un poco ms realista en la figura 16.2. que muestra una relacin hipottica entre la poblaCin y el ndice de delincuencia de ciudades pequeas y medianas. Cada punto del diagrama de dispersin representa una ciudad y su ubicacin refleja la poblacin de la ciudad y su in-dice de delincuencia. Como en el ca'so de nue'stro ejemplo anterior. los valores de Y (indic'es de delin-cuencia) corresponden a los de X (poblaciones). y si aumentan los valores de X. tambin se Incremen tan los de Y. Sin embargo. la asociacin no es tan clara como en el caso de la figura 16. l.

    En la figura 16.2 no podernos sobreponer una li-nea recta que ,pase por todos los puntos del diagra ma de dispersin. pero si podemos trazar una linea aproximada que muestre la mejor representacin lineal de varios puntos. como hicimos en la grafica.

    estadistica descriptiva 375

    SI ha estudiado geometria. sabr que cualquier linea recta puede representarse en una grfica con una ecuacin de la forma Y = a + bX. en la que X y Y son 105 valores de las dos variables. En esta ecuacin. a es Igual al valor de Y cuando X es Igual a cero y b representa la pendiente de la linea. SI co-nocemos 105 valores de a y de b. podemos calcular una estimacin de Y para cada valor de X.

    El anlisis de regresin es una tcnica para es-tablecer la ecuacin de regresin que representa la linea geomtrica que ms se acerca a la distribucin de los puntos. Esta ecuacin es ul tanto para fi-nes descriptivos como de Inferencia. Primero. la ecuacin de regresin proporciona una descripcin matemtica de la relacin entre las variables. Se-gundo. nos permite inferir valores de Y si tenemos los de X. SI regresamos a la figura 16.2. podramos es-timar 105 ndices de delincuencia de las ciudades si conociramos su poblacin.

    Para mejorar las conjeturas. se traza una linea de regreSin enunciada en la forma de una ecua-cin de regresin que permita estimar los valores de una variable a partir de los valores de 0u:a. La forma general de esta ecuacin es Y' = a - bIXI. en la que a y b son los valores calculados. X algn va-lor de una variable y Y' el valor estimado de otra. Los valores de a y b se calculan para mlnimi~ las diferencias entre los valores reales de jo' y los esti-mados correspondientes (Y') basados en el valor co-nocido de X. La suma de las diferencias al cuadrado entre los valores real y estimado de Y se denomina variacin no explicada. porque representa los erro-res que an estn presentes aunque las estimacio-nes se basen en 105 valores conocidos de X.

    La variacin e:q,licada es la diferencia entre la variacin total y la no explicada. Al dividir la varia-cin explicada entre la variacin total se produce una medida de la reduccin proporcional de error equivalente a la cantidad semejante en el clculo de lambda. En este caso. la cantidad es la correla cin al cuadrado: r2 . As. si r = .7. entonces r2 = .49. lo que significa que s~ explica aproXimadamente la mllad de la variacin. En la prctica. calculamos r en lugar de r2 puesto que la correlacin producto momento lleva signo positiVO o bien negativo. de-pendiendo de la direccin de la relacin entre las dos variables (al calcular r2 y extraer la raiz cua-drada se obtendr siempre una cantidad positiva). Consulte en cualquier libro de estadistica el mto'

  • Y\f ~!.I" Ilr 376 Caplwlo 16 Estadlstlcas sociales rill Figura 16.2 l/JI Diagrama de dispersin de los valores de dos variables con la linea de regresin aadida (hipottico) 11" r----------"7------------:..:=:.:~.:~::.:::~::::--_J lU Iii 11 I, iJi ,ii ,.

    I1 11. 1 11" ; ji,

    5000 ~ Q) E . .g .Q tU 4000 .t:: 8 o o o

    tU 'O 3000 B 15

    .,9,

    .!!! " c: 2000 Q) ::l

    " c: : 'O Q) 'O Q) 1000

    .9 'O

    . .5

    O

    do ~ara calcular r. aunque me imagino que la ma-yona .de los lectores que apliquen esta medicIn tendran acceso a programas de computadora des-[lOados a esta funcIn.

    Aunque I~ exposIcin antelior le haya parecIdo q.ue Uene mas estadstica de la que le gustaria la \~da socIal es tan complicada que con frecuencI~ el modelo de regresin !lneal Simple no representa suficI~ntemente el estado de cosas. Como Vimos en el capitulo 15. es posIble analizar ms de dos va-nables co~ tablas de porcentajes. Conforme au-~enta .el numero de Variables. estas tablas se vuel-~ en mas complicadas y dlficiles de leer. En tales _asos. el modelo de regresin es una alternativa Jrovechosa.

    ~greSin mltiple Muy a menudo. los investigadores , ~Iales des('ubren que una variable dependiente u re el efecto simultneo de diversas Variables I _ lependlentes El I n

    . an Isls de regresin mltl'pl ,rovee u d' e 'al fu n me 10 para examinar tales SituaCiones.

    e el caso cuando Beverly Yerg (1981) se pro-

    Poblacin 100000

    p~so estudiar la eficacia de los maestros de educa-clon fisica. Declar sus expectativas en la forma d U_e

    na ecuacion de regresill mltIple:

    F= be + b,l + ~I + b:X2 + b,X3 + bsX. + e F = Caltflcacln final del desempeo del

    dISCpulo 1 = CaltIlcacln Inicial del desempeo del

    dlscipulo X, = Combinacin de prctica gUiada y de apoyo .!12 = Compuesto de dominio del contenido del

    maestro X:t = Compuesto de realimentacin espectllca

    sobre la tarea X4 = Compuesto de presentacin clara y concisa

    de la tarea b = Peso de la regresin e = Residuo

    IAoAPrAOO DE YERG. 1981: 42)

    Observe que en lugar 'de una sola variable X en la regresin lineal hay varias X. asi como varias b

    de una. Asimismo, Yerg escogi represen-ba en la ecuacin. pero con el mismo

    que ya explicamos. Por ltimo, la ecuacin con un factor residual (e), que representa

    cre'oancl.a en Y que no.es explicada por las va-X analizadas.

    partir, pues, de esta ecuacIn, Yerg calcul los de las b para mostrar las aportaciones re-

    de las variables IndependIentes en la deter-de las calificacIones finales del desempe-

    los dIscpulos. TambIn calcul el coeficiente mltlple como indIcador del grado

    e las seis valiables predIcen las calificaciones Esto sIgue la mIsma lgica del anlIsis de Irr"U'~IUlJ blvariado sImple que ya estudiamos, y

    lo regUlar se slmboltza con R mayscula. En caso. R = .877, lo que Significa que 77 por

    de la valianza (.8772 = .77) en las callflcacio-finales se explica por las seis valiables actuan-

    'el!resin parcial ImagIne lo que ocurlila sI le pres-atencin especial a la relacIn entre dos va-cuando se mantiene constante una tercera

    de prueba. Asi. podramos examInar el de la educacin en los prejuIcios mantenlen-

    la edad constante para poner a prueba el efecto .tn'ler,erIOl,en'e de la educacin. Para ello. calcula-

    por separado la relacin tabular entre edu-cacin y prejuicios en cada grupo de edad.

    Lds regresiones parciales se basan en este mls-. mo modelo lgico. La ecuacin que resume la rela-. cin entre variables se calcula sobre la base de las variables de prueba que se mantienen constantes. El resultado puede compararse con la relacin no controlada entre las dos valiables para aclarar an ms la relacin general.

    Regresin curvilnea Hasta aqu hemos estudiado la asociacin entre valiables representadas por una linea recta. aunque en ms'de dos dimensiones. El modelo de regresin es an ms general de lo que imp~ica nuestra exposicin hasta este mo-mento.

    Si usted tiene conocimientos de geometlia. ya sabe que las funciones curvas tambien se repre-. sentan mediante ecuaciones. Por ejemplo. la ecua-cin X2 - \-'2 = 25 describe un circulo con radio

    Estadistica descriptiva

    de 5_ Elevar las valiables a :otencias mayores que 1 tiene el efecto de producir curvas en lugar de rec-tas. y en la investigacIn empinca no hay razones para suponer que la relacIn entre todo conjunto de variables ser lineal. As, en algunos casos el anlisIs de regreSIn curVilnea permite entender mejor las relaciones que cualquIer modelo lineal.

    Sin embargo. recuerde que las lineas de regre-sin cumplen dos propsitos. Describen un con-Junto de observaciones empricas y ofrecen un mo-delo general para hacer Inferencias sobre la relacin entre dos valiables en la poblacin total que las observaciones representan. Una ecuacin muy complicada producila una linea errtica que pasalia realmente por todos los puntos. En este sentido. descliblla a la perfeccIn las observacio-nes emplicas. No obstante. nada garantizara que la linea predijera observaciones nuevas ni que re-presentara en algn sentido, significativo la rela-cin entre las dos variables en general. As. tendria poco o ningn valor para hacer inferencias.

    Ya nos refelimos a la necesidad de equilibrar los detalles y la utilidad de la reduccip de los datos. En ltima Instancia. los Investigadores tratan de ofrecer la representacin de sus datos ms fiel. y tambin la ms Simple. Esta costumbre tambin atae al anlisis de regresin. Hay que presentar los datos de la manera ms simple (por eso las re-greSiones lineales son las ms frecuentes) y que descliba mejor los datos reales. El anlisis de re-greSIn curVilnea aade otra opcin a los investi-gadores en este respecto. pero no resuelve todos los problemas. Nada puede hacerlo.

    Precauciones en el anlisis de regresin El uso de anlisis de regreSin para hacer inferencias esta-disticas se basa en las mismas premisas del anli-sIs correlaclonal: muestreo aleatolio simple. au-sencia de errores no atribuibles al muestreo y datos Intervalares continuos. Como la Investiga-cin social cientfica rara vez satisface por comple-to estas premisas. usted debe tener cuidado al eva-luar los resultados de los anlisis de regresin.

    Asimismo. las lineas de regresin -rectas o cur-vas- pueden ser tiles para hacer inrerpolaciones (para estimar los casos que se encuontran entre los observados). pero son menos fiables para hacer ex [rapolaciones (para estimar 105 casos que quedan

  • ! . 378 Capitulo I 6 Esadlsticas sociales !

    . ,"."

    A dVierta que esta tabla est dispuesta con las variables dependientes en las filas y las Independientes en las columnas. que es como se suelen organizar las tablas. Adems.

    observe que los niveles de medicin estl\ en escala ordinal .

    SI usted-qUiere utilizar una variable de nivel Intervalar o de razn en una tatila cruzada. . primero debe recodificarla como variable de nivel' ordinal.

    Variable independiente Nominal Ordinal Intervalar/de raz6n

    Nominal Tablas cruzadas Tablas cruzadas Ji cuadrada Ji cuadrada Lambda Lambda

    Ordinal 7bblas cruzados Tablos cruzados Ji cuadrada Ji cuadrada

    Variable Lambda Lambda dependiente Gamma

    Tau de Kendall d de Sommers

    Intervalar/de raz6n Medias Medios Corre/adn Prueba r Prueba t r de Pearson

    Regresi6n (R) ANOVA ANOVA

    fuera del margen de observaCin}. Esta limitacin de las extrapolaciones es Importante de dos mane-ras. Primera. es posible que uno se tope con ecua-ciones de regreSin que Implican predicciones il-gicas. Por ejemplo. una ecuacin que vincula la poblacin y la delincuencia podra Indicar que los

    - pueblos pequeos con. digamos. 1000 habitantes. - deberan tener 123 delitos al ao. Esta falla en la

    capaCidad de prediccin no descalifica la ecuaCin. pero revela que su aplicabilidad se limita a cierto

    _ intervalo demogrfico. Segunda. a veces los Inves-tigadores sobrepasan este lmite. hacen InferenCias

    - fuera de su margen de observaCin y usted hara bien en criticarlos por eJlo.

    l

    En las secciones anteriores le presentamos al-sunas tcnicas para medir asociaciones entre va--Iables del mismo nivel de medicin. El asunto se

    ~ompllca un poco ms cuando las dos variables re-Jresentan diferentes niveles de