Análisis estadístico univariado, bivariado y variables control

16
1 ANÁLISIS ESTADÍSTICO UNIVARIADO, BIVARIADO Y VARIABLES CONTROL 1 El presente documento de trabajo tiene por objeto enfatizar de un modo sencillo algunos de los contenidos vistos en clases en relación con el análisis univariado, bivariado y variables control. Cada uno de los aspectos aquí tratados puede ser profundizado con el apoyo de la bibliografía sugerida para el curso, según se ha indicado en el programa. Por tratarse de un texto preliminar, mucho de lo que aquí se expone está sujeto a futuras correcciones y actualizaciones, constituyendo el primero de una serie de apuntes que serán entregados en el transcurso del semestre académico. 1. TIPOS DE VARIABLES Las variables pueden ser clasificadas según diferentes tipos de criterios, entre ellos podemos mencionar el nivel de medición y el lugar que ocupan en la investigación. 1.1. Según nivel de medición El nivel de medición de una variable determina tanto el tipo de operaciones matemáticas que puede realizarse (suma, resta, multiplicación, división, etc.) como el tipo de técnicas estadísticas correspondiente para la prueba de hipótesis. De acuerdo a su nivel de medición las variables pueden ser clasificadas en nominales, ordinales, intervalares y de razón. Las variables nominales, también llamadas variables cualitativas o categóricas, hacen referencia a ciertas cualidades o atributos en los valores de una variable. Es decir, dichos valores (categorías) no pueden ser ordenados a partir de un criterio de jerarquía. Ejemplo: sexo, religión, zona (urbano/rural), etc. En el caso de sexo, si asignamos valor 1 = hombre y valor 2 = mujer, difícilmente resulta razonable sostener que mujer vale dos veces hombre. De igual modo queda de manifiesto que los valores son asignados de un modo arbitrario. Perfectamente pudimos haber otorgado el valor 1 a mujer (y no el valor 2). En las variables ordinales, a diferencia de las nominales, los valores de la variable pueden ser ordenados a partir de algún criterio de jerarquización. Se puede establecer por consiguiente un orden ascendente o descendente entre los distintos valores (o categorías). Ejemplo: NSE (bajo, medio, alto), percepción de progreso del país (progresando, estancado, en decadencia), etc. En las variables intervalares, al igual que las ordinales, los valores de la variable pueden ser jerarquizados. Y, a su vez, a diferencia de las ordinales, los distintos valores de la variable son equidistantes. Existen intervalos regulares entre las puntuaciones de la variable en su escala de medición. Ejemplo: temperatura. En ciencias sociales se asume que, de acuerdo a una cierta convención no ortodoxa, las variables medidas a través de escalas Likert de cinco categorías (muy de acuerdo, de acuerdo, ni de acuerdo/ni en desacuerdo, en desacuerdo, muy en desacuerdo) se comportan como si fueran variables intervalares. No obstante, debe chequearse si distribución si se ajusta o no a una curva normal. 1 Profesor Jaime Fierro, Sociólogo y Magíster en Ciencias Sociales de la Universidad de Chile. Ph.D. en Ciencia Política de la Universidad de Essex, Inglaterra. Actualizado al primer semestre de 2010.

Transcript of Análisis estadístico univariado, bivariado y variables control

Page 1: Análisis estadístico univariado, bivariado y variables control

1

ANÁLISIS ESTADÍSTICO UNIVARIADO, BIVARIADO Y

VARIABLES CONTROL1

El presente documento de trabajo tiene por objeto enfatizar de un modo sencillo algunos de

los contenidos vistos en clases en relación con el análisis univariado, bivariado y variables

control. Cada uno de los aspectos aquí tratados puede ser profundizado con el apoyo de la

bibliografía sugerida para el curso, según se ha indicado en el programa. Por tratarse de un

texto preliminar, mucho de lo que aquí se expone está sujeto a futuras correcciones y

actualizaciones, constituyendo el primero de una serie de apuntes que serán entregados en el

transcurso del semestre académico.

1. TIPOS DE VARIABLES

Las variables pueden ser clasificadas según diferentes tipos de criterios, entre ellos podemos

mencionar el nivel de medición y el lugar que ocupan en la investigación.

1.1. Según nivel de medición

El nivel de medición de una variable determina tanto el tipo de operaciones matemáticas que

puede realizarse (suma, resta, multiplicación, división, etc.) como el tipo de técnicas

estadísticas correspondiente para la prueba de hipótesis. De acuerdo a su nivel de medición

las variables pueden ser clasificadas en nominales, ordinales, intervalares y de razón.

Las variables nominales, también llamadas variables cualitativas o categóricas, hacen

referencia a ciertas cualidades o atributos en los valores de una variable. Es decir, dichos

valores (categorías) no pueden ser ordenados a partir de un criterio de jerarquía. Ejemplo:

sexo, religión, zona (urbano/rural), etc. En el caso de sexo, si asignamos valor 1 = hombre y

valor 2 = mujer, difícilmente resulta razonable sostener que mujer vale dos veces hombre. De

igual modo queda de manifiesto que los valores son asignados de un modo arbitrario.

Perfectamente pudimos haber otorgado el valor 1 a mujer (y no el valor 2).

En las variables ordinales, a diferencia de las nominales, los valores de la variable pueden ser

ordenados a partir de algún criterio de jerarquización. Se puede establecer por consiguiente un

orden ascendente o descendente entre los distintos valores (o categorías). Ejemplo: NSE

(bajo, medio, alto), percepción de progreso del país (progresando, estancado, en decadencia),

etc.

En las variables intervalares, al igual que las ordinales, los valores de la variable pueden ser

jerarquizados. Y, a su vez, a diferencia de las ordinales, los distintos valores de la variable son

equidistantes. Existen intervalos regulares entre las puntuaciones de la variable en su escala

de medición. Ejemplo: temperatura. En ciencias sociales se asume que, de acuerdo a una

cierta convención no ortodoxa, las variables medidas a través de escalas Likert de cinco

categorías (muy de acuerdo, de acuerdo, ni de acuerdo/ni en desacuerdo, en desacuerdo, muy

en desacuerdo) se comportan como si fueran variables intervalares. No obstante, debe

chequearse si distribución si se ajusta o no a una curva normal.

1 Profesor Jaime Fierro, Sociólogo y Magíster en Ciencias Sociales de la Universidad de Chile. Ph.D. en Ciencia

Política de la Universidad de Essex, Inglaterra. Actualizado al primer semestre de 2010.

Page 2: Análisis estadístico univariado, bivariado y variables control

2

Las variables de razón se diferencian de las intervalares por el hecho de que el “0” no es un

valor fijado de un modo arbitrario (como podría ser el caso de la temperatura en donde el

valor de 0 grados no significa ausencia de temperatura), sino que es real y representa la

ausencia del atributo. Ejemplo: mortalidad, edad, ingresos, etc.

*** Se debe tener presente el hecho de que cualquier variable puede ser recodificada en un

nivel inferior de medición, pero no así lo contrario. Podemos, por ejemplo, recodificar una

variable intervalar en ordinal o nominal, pero en ningún caso podemos pasar de una variable

medida a nivel nominal a una de tipo ordinal o intervalar.

1.2. Según el lugar que ocupan en la investigación

Variable dependiente: corresponde a la variable (fenómeno) que intentamos caracterizar o

explicar.

Variable(s) independiente(s): corresponde(n) a la(s) variable(s) que explicaría(n) las

variaciones en los valores de la variable dependiente. En última instancia serían las causas del

fenómeno bajo estudio. El proceso de corroboración de relaciones de tipo casual requerirá,

entre otras cosas, del descarte de relaciones espurias (falsas).

Variables de control: se introducen con la finalidad de determinar si la relación inicial entre

la variable dependiente y la(s) independiente(s) es verdadera. Esto permitiría aumentar la

validez interna de un estudio (relación causa-efecto).

Variables intervinientes: son aquellas variables que harían que la relación inicial entre la

variable dependiente y la independiente sea: i) falsa en el caso de ser verdadera inicialmente;

o ii) verdadera en el caso de ser falsa inicialmente. Es decir, las variaciones o no en los

valores de las puntuaciones de la variable dependiente no se deben a las variaciones en los

valores de la variable dependiente, sino más bien a una acción de una tercera variable.

Variables condicionantes: son variables que median la relación entre la variable dependiente

y la independiente sin modificarla completamente, salvo en algunas de sus categorías o

valores.

Page 3: Análisis estadístico univariado, bivariado y variables control

3

2. ANÁLISIS UNIVARIADO

Al realizar un análisis univariado nos concentramos en cada variable de modo independiente.

Usualmente trabajamos con distribuciones de frecuencias, medidas de tendencia central y

medidas de dispersión.

2.2. Distribución de frecuencias

La distribución de frecuencias nos indica el número de casos que hay en cada categoría de la

variable. A partir de dichos valores, en una tabla de frecuencias, se calcula el porcentaje

(respecto del total de observaciones), porcentaje válido (excluido los valores perdidos) y el

porcentaje acumulado (porcentaje de la primera categoría, luego éste más el de la segunda

categoría y así sucesivamente). Se aplica para variables nominales, ordinales y en cierto tipo

de variables intervalares (por ejemplo, en escalas Likert).

Además de la tabla de frecuencias también es posible hacer representaciones gráficas tales

como: gráfico de barras, gráfico circular o un polígono de frecuencias.

2.3 Medidas de tendencia central: media, mediana y moda

Las medidas de tendencia central dan cuenta del tipo de distribución que tienen los valores de

la variable respecto de un valor típico, o puntuación central, a partir del cual se agrupan. Se

calculan para variables medidas a nivel nominal, ordinal y en algunas intervalares (por

ejemplo, en escalas Likert).

La media o promedio corresponde a la suma de todas las puntuaciones de la variable dividida

por el número total de casos.

La mediana es el valor que divide por la mitad a las puntuaciones de la variable: los que están

por debajo de éste y los que están por encima. Es decir, es el valor que divide en dos mitades

a las observaciones.

La moda es el valor que más que más se repite del conjunto de observaciones, pudiendo haber

más de una moda (bimodal o multimodal).

*** En una curva de distribución normal coinciden la media, la mediana y la moda.

Page 4: Análisis estadístico univariado, bivariado y variables control

4

2.4. Medidas de dispersión: desviación estándar y varianza

Las medidas de dispersión indican el grado variabilidad de de los datos respecto de la media

(promedio). Se debe tener presente que una propiedad de la media es que la suma de las

diferencias de todos los valores de la variable respecto de la media es siempre “0”. Es por ello

que para el cálculo de la varianza y la desviación estándar la se procede a elevar la sumatoria

de las diferencias al cuadrado.

La varianza es el valor promedio del cuadrado de las puntuaciones respecto de la media. Se

utiliza mucho en pruebas de inferencia estadística (de la muestra al universo), pero su unidad

de medida no es directamente interpretable (ya que está al cuadrado), razón por la cual se

recurre a la desviación estándar. Su fórmula de cálculo es la siguiente:

n

xxS

2

2)(

La desviación estándar o típica es el promedio de desviación de los valores de las

observaciones respecto de la media, expresada en los valores originales de la medición de la

variable. Esto no es otra cosa que la raíz cuadrada de la varianza. Cuanto más se aleje el valor

respecto de la media, mayor será la desviación estándar. Se aplica a variables medidas a nivel

intervalar o de razón. Su fórmula de cálculo es la siguiente:

n

xxS

2)(

2.5. Ejecución de tablas de frecuencias, medidas de tendencia central y de dispersión en

SPSS

La serie de comanda a ejecutar serían los siguientes:

1. Analizar en la barra del menú de SPSS

2. Estadísticos descriptivos

3. Frecuencias / Ingresar variables

4. Estadísticos > Tendencia central / Seleccionar media, mediana y moda, según

corresponda al nivel de medición de las variables

Dispersión / Seleccionar desviación estándar y varianza. Sólo para

variables intervalares

5. Continuar

6. Aceptar

Page 5: Análisis estadístico univariado, bivariado y variables control

5

2.6. Ejemplo de un caso aplicado en SPSS

Si alguien quisiera saber la proporción de chilenos que se considera “feliz” podemos intentar

responder dicha pregunta a partir de la Encuesta CEP Diciembre de 2008 (www.cepchile.cl),

ya que contiene una pregunta al respecto. Puesto que la variable ha sido medida en una escala

Likert de cuatro categorías, bastaría extraer simplemente una distribución de frecuencias.

Antes de eso, sin embargo, los valores “No sabe” (codificados usualmente con valores 8) y

“No contesta” (codificados usualmente con valores 9) habría que incluirlos como “Valores

perdidos” y, de este modo, obtendremos el porcentaje válido de casos para la variable

felicidad.

Los pasos serían:

1. Seleccionar la columna de valores en la variable felicidad e identificar los valores

asociados a “No sabe” (8) y “No contesta” (9)

2. Aceptar

3. Seleccionar la columna de valores perdidos en la variable felicidad e ingresar los

valores 8 y 9 como valores perdidos

4. Aceptar

Page 6: Análisis estadístico univariado, bivariado y variables control

6

Luego ya estamos en condiciones de realizar una distribución de frecuencias de modo más

adecuado. Continúenos entonces con el resto del procedimiento:

1. Analizar en la barra del menú de SPSS

2. Estadísticos descriptivos

3. Frecuencias / seleccionar e ingresar la variable felicidad a la casilla de variables

4. Continuar

5. Aceptar

Page 7: Análisis estadístico univariado, bivariado y variables control

7

Finalmente, la tabla de distribución de frecuencias sería la siguiente:

Considere su vida en general, ¿qué tan feliz o infeliz Ud. diría que es su vida en

general?

57 3,8 3,8 3,8

333 22,2 22,3 26,1

713 47,4 47,6 73,7

394 26,2 26,3 100,0

1498 99,5 100,0

1 ,1

6 ,4

7 ,5

1505 100,0

Para nada f eliz

No muy f eliz

Bastante f eliz

Muy f eliz

Total

Válidos

No sabe

No contesta

Total

Perdidos

Total

Frecuencia Porcentaje

Porcentaje

válido

Porcentaje

acumulado

En dónde, según se puede apreciar en la columna de porcentaje válido de la tabla, un 26.3%

de los chilenos se considera en general en su vida “Muy feliz” versus el 3.8% que se

considera “Para Nada Feliz”. Del mismo modo, observamos que una parte significativa de los

chilenos se considera “No muy feliz”, 22.3%.

A partir de estos datos surgen una serie de posibles preguntas al respecto, por ejemplo,

¿Depende el nivel de felicidad de las personas del sexo, la edad, la escolaridad o el NSE?

Responder preguntas como esta requiere, sin embargo, de un tipo de análisis distinto. En

estadística lo denominamos Análisis Bivariado, ya que incluye una variable dependiente y al

menos una variable independiente.

Page 8: Análisis estadístico univariado, bivariado y variables control

8

3. RELACIONES ENTRE VARIABLES NOMINALES Y ORDINALES

3.1. El estudio de la relación entre variables

En las ciencias sociales a menudo se desea determinar la existencia o no de relación entre dos

variables, para lo cual se realizan diferentes pruebas de significación estadística. La forma en

que se relacionan dos variables se denomina asociación entre dos variables. El interés de este

tipo de análisis se centra principalmente en la forma en que se distribuye la variable

dependiente en función de las diferentes categorías o valores de la variable independiente. Es

decir, la variable que atrae primordialmente la atención del investigador, y cuya variación

trata de explicar, se llama variable dependiente, porque se supone que los valores que toma

dicha variable dependen de los valores que presentan otras variables. Estas variables que se

suponen influyen en los valores que toma la variable dependiente son las variables

independientes (explicativas o causales), ya que permiten conocer por qué varía la variable

dependiente de la forma que lo hace en una determinada población (usualmente una muestra).

Sin embargo, los resultados que aparecen al establecer relaciones significativas entre dos variables

son de naturaleza descriptiva y tales resultados no explican por qué ocurre dicha relación. Esto es,

una correlación entre dos variables no implica necesariamente una relación causal entre ellas

puesto que en cualquier correlación podría existir una tercera variable que explique la asociación

entre las dos variables que han sido medidas (relación espuria). A su vez, se debe verificar que la

variable independiente (causa) anteceda temporalmente a la variable dependiente (efecto). Del

mismo modo, se hace necesaria la existencia de una teoría que nos permita discriminar entre las

simples relaciones estadísticas y las relaciones causales propiamente tales.

El estudio de la relación entre dos variables se puede caracterizar mediante: i) la existencia o no

de asociación; ii) la fuerza de dicha asociación y iii) la dirección de ésta.2 Ciertamente solamente

tiene sentido ii) y iii) si se verifica en i) la existencia de relación entre las variables. Para ello se

utilizan un conjunto de pruebas de significación estadística, las cuales dependerán del nivel de

medición de las variables.

A la base de dicho análisis se encuentra la “teoría” y las “hipótesis” que se puedan desprender

de ésta. En otras palabras, en el estudio de relaciones entre variables intentamos testear

empíricamente hipótesis que nos resultan plausibles a la luz de un cierto marco teórico-

analítico. Una hipótesis no es otra cosa que una respuesta tentativa a la pregunta de

investigación (problema). Es una predicción respecto del posible resultado que se espera

encontrar. Y, en el estudio de relaciones entre variables, ésta guarda relación con el hecho de

determinar si las variaciones en los valores de la variable independiente se encuentran o no

asociados a las variaciones en los valores de la variable dependiente. Puesto que una hipótesis

requiere de verificación empírica, se hace necesario realizar una prueba de significación

estadística para determinar si la hipótesis planteada se verifica o no.

3.2. Las pruebas de significación estadísticas

Para la determinación de la existencia o no de asociación entre la variable dependiente y las

variables independientes se utilizará el coeficiente estadístico Chi Cuadrado de Pearson. La

intensidad de la asociación se determinará mediante el coeficiente V de Cramer. Para la

determinación de a dirección de la asociación, en tanto, se efectuará el coeficiente de correlación

de Spearman.

2 Una cuarta característica hace referencia a la naturaleza de la relación. Es decir, a la forma de distribución de X

respecto de Y, ya sea de forma lineal, curvilínea o de otra naturaleza.

Page 9: Análisis estadístico univariado, bivariado y variables control

9

La prueba de significación estadística basada en el coeficiente Chi Cuadrado de Pearson tiene

como fin examinar asociación entre variables categóricas (nominales u ordinales).3 Existe

asociación entre variables cuando los valores de una de ellas dependen de los valores de otra.

Cuando dos variables están relacionadas es posible predecir los valores de la variable dependiente

en función de los valores de las variables independientes. No existe relación cuando éstas son

independientes. Dos variables independientes no tienen nada en común. El estadístico Ji-

cuadrado, sin embargo, no permite estudiar la intensidad de la relación entre las variables.

La prueba basada en el Coeficiente V de Cramer tiene como finalidad comparar grados de

asociación entre variables medidas a nivel nominal. El Coeficiente V de Cramer asume valores

entre 0 y 1, en donde, valores próximos a 0 indican una muy baja asociación entre las variables y

valores próximos a 1 indicas una fuerte asociación.

Finalmente, la prueba de significación estadística basada en el Coeficiente de Correlación de

Spearman tiene por objeto determinar la dirección y la intensidad de la asociación entre dos

variables medidas a nivel ordinal. Dicho coeficiente toma valores entre -1 y +1. Los valores

cercanos a -1 ó +1 indican fuerte asociación entre las variables mientras que los valores cercanos

a 0 indican una muy baja asociación. Si el valor es positivo, la variables varían en la misma

dirección, en tanto, si es negativo lo hacen en direcciones opuestas (a medida que aumenta una

disminuye la otra). Se debe tener presente que Spearman está pensado para detectar relaciones de

tipo lineal, pero no todas las relaciones son lineales (por ejemplo, las curvilíneas).

No obstante, bien vale la pena recordar al respecto dos cosas. En primer lugar, en la investigación

en ciencias sociales rara vez nos encontramos con variables altamente asociadas. Y, en segundo

lugar, la interpretación de la magnitud de dicha asociación va a depender del tipo de estudio y si

se enmarca en las ciencias sociales o en las llamadas ciencias duras. En particular, qué niveles de

asociación serán considerados como bajos, medios o altos serán determinados por el investigador

en función de la práctica disciplinaria aplicada al estudio de la temática que se investiga. No

obstante lo anterior existen ciertas convenciones más o menos generalizadas. En virtud de tales

consideraciones se entenderá en el marco del presente curso, una vez verificada una relación

estadísticamente significativa entre las variables, como: i) una asociación baja, a los valores

inferiores a 0.2; ii) como media, a los valores iguales o mayores que 0.2 y menores que 0.3; y iii)

como alta, a los valores superiores o iguales a 0.3.

Para las pruebas estadísticas en cuestión, si el p-valor asociado al estadístico de contraste es

menor que el nivel de significación 0.05, se rechazará la hipótesis nula H0 a un nivel de

confianza del 95%, y se aceptará la hipótesis alternativa H1 (asociación entre la variable

dependiente y la independiente). El nivel de significación constituye el valor crítico a partir del

cual estamos dispuestos a aceptar o rechazar una hipótesis dentro de ciertos márgenes razonables

de error, siendo el máximo estándar en ciencias sociales de un 5% (95% de confianza). Entre

menor sea el nivel de significación, mayor es el nivel de confianza y, por consiguiente, menor será

la probabilidad de cometer un error en la prueba de hipótesis. Los errores que se pueden cometer

son de dos: (i) el error tipo I ó α (alfa), el cual se produce cuando se acepta la hipótesis

alternativa siendo ésta falsa; y (ii) el error tipo II ó β (beta), el cual se genera cuando se rechaza

la hipótesis alternativa siendo ésta verdadera.

3 Utilizamos la prueba Chi-cuadrado en variable ordinales porque el Coeficiente de Correlación de Spearman

(ver más adelante) únicamente da cuenta de relaciones de tipo lineal.

Page 10: Análisis estadístico univariado, bivariado y variables control

10

3.4. Ejecución de tablas de contingencia con medidas de asociación en SPSS

En el caso de trabajar con SPSS en la versión en inglés se deben dar los siguientes pasos:

1. Analizar en la barra del menú de SPSS.

2. Estadísticos descriptivos

3. Tablas de contingencia / Ingresar la variable dependiente(s) en filas y

independiente(s) en “columnas”

4. Casillas

/ Frecuencias > Sacar selección en observadas.

/ Porcentajes > Seleccionar columna.

5. Continuar

6. Estadísticos > Chi-cuadrado, V de Cramer, Correlaciones (Spearman), según

corresponda al nivel de medición de las variables.

7. Continuar

8. Aceptar

3.5. Ejemplo de un caso aplicado en SPSS

Retomemos nuestra inquietud anterior en términos de, por ejemplo, responder la siguiente

pregunta: ¿El nivel de felicidad depende del NSE de las personas? Es decir, ¿A medida que se

aumenta en el NSE, aumenta también el nivel de felicidad? La hipótesis alternativa general

sería: el nivel de felicidad de las personas se encuentra determinado por su NSE. En tanto, la

hipótesis específica alternativa sería: el nivel de felicidad de las personas aumenta a medida

que aumenta su NSE.

Se debe tener presente que ambas variables son ordinales y, por ende, podemos aplicar el

Coeficiente de Correlación de Spearman. No hay olvidar dejar fuera los valores perdidos (No

sabe (8) / No responde (9)).

Page 11: Análisis estadístico univariado, bivariado y variables control

11

Page 12: Análisis estadístico univariado, bivariado y variables control

12

Finalmente se obtendrá la siguiente tabla de contingencia con su respectiva prueba de

significación estadística. Analice e interprete los resultados. ¿Qué puede concluir al respecto?

Tabla de contingencia Considere su vida en general, ¿qué tan feliz o infel iz Ud. diría que

es su vida en general? * Nivel Socioeconómico

% de Nivel Socioeconómico

6,0% 2,0% 3,9%

29,5% 16,6% 22,3%

41,3% 53,5% 48,8% 47,6%

23,2% 27,9% 51,2% 26,3%

100,0% 100,0% 100,0% 100,0%

Para nada f eliz

No muy f eliz

Bastante feliz

Muy f eliz

Considere su v ida en

general, ¿qué tan

f eliz o infeliz Ud. diría

que es su v ida en

general?

Total

BAJO MEDIO ALTO

Niv el Socioeconómico

Total

Page 13: Análisis estadístico univariado, bivariado y variables control

13

Medidas simétricas

,193 ,024 7,601 ,000c

,180 ,025 7,083 ,000c

1499

R de PearsonInterv alo por intervalo

Correlación de SpearmanOrdinal por ordinal

N de casos válidos

Valor Error típ. asint.a

T aproximadab

Sig.

aproximada

Asumiendo la hipótesis alternat iv a.a.

Empleando el error típico asintót ico basado en la hipótesis nula.b.

Basada en la aproximación normal.c.

4. INTRODUCCIÓN DE VARIABLES DE CONTROL

4.1. Aspectos conceptuales

Dado la complejidad de la realidad, esto es, su multidimensionalidad (que se expresa tanto en las

múltiples dimisiones que suele involucrar un concepto como en la multiciplicidad de variables

que inciden en la manifestación de un fenómeno determinado), muchos de los fenómenos sociales

no son susceptibles de ser apropiadamente caracterizados a partir del estudio de la relación entre

dos variables (dependiente e independiente). La simple determinación de la existencia o no de

relación entre dos variables no es suficiente para determinar si dicha relación es verdadera o

espuria (falsa). En ese momento no podemos estar seguros acerca de los resultados encontrados ya

que eventualmente éstos podrían deberse a una tercera variable, que hasta ese momento no ha sido

considerada en el análisis. Y si ese fuera el caso, la relación original sería explicada no por la

variable independiente, sino por esta tercera variable. Dicha variable es nombrada en tal caso

como “interviniente” y pondría en evidencia la falsedad de la relación original. Eventualmente

también, la relación original podría verse modificada únicamente en algunas de las categorías de

la tercera variable. En tal caso hablamos de una relación “condicionada”.

En términos generales, al momento de elaborar una relación entre dos variables (particularmente

del tipo causa-efecto) se suele introducir una tercera variable, la cual se denomina variable

control. Lo que se intenta es determinar si ésta posee un determinado efecto sobre la relación entre

la variable dependiente y la independiente que pudiera modificar parcial (condicionada) o

totalmente la relación original (interviniente). Por ende, cuando se descubre una relación entre dos

variables, lo que está en juego es lograr determinar si se trata de una relación verdadera o espuria.

Puesto que las variables en ciencias sociales se encuentran con frecuencia asociadas unas con

otras, resulta necesario asegurarse de que exista una asociación verdadera entre las dos variables

originales. Cuando esto no ocurre hablamos de una relación espuria, o sea, que la relación

aparente entre dos variables se debe a la asociación de ambas variables con una tercera variable

ajena a la relación original.

Por consiguiente, la adecuada determinación de la relación bivariable original se logra mediante la

inclusión de variables control que eventualmente pudieran invalidar dicha relación, lo cual es

clave para no arribar a conclusiones erróneas sobre las relaciones entre variables sin haber

dilucidado antes si se trataba o no de relaciones espurias. En definitiva, de lo que se trata es de

comprobar si la relación inicial que aparece entre dos variables es real o aparente, mediante la

introducción de una variable de control. A su vez, interesa comprobar si la ausencia de relación

entre dos variables es también real o se debe, por el contrario, a la existencia de una tercera

variable que suprime la relación entre las dos variables originales.

Page 14: Análisis estadístico univariado, bivariado y variables control

14

Más concretamente, hay al menos tres situaciones típicas en la investigación social en donde las

variables de control son necesarias:

La primera de ellas se presenta cuando una técnica estadística (por ejemplo, Chi Cuadrado de

Pearson) muestra que dos variables están relacionadas, y se duda si entre ambas existe una

relación, no sólo estadística, sino de dependencia (o causal). Es decir, se intenta dilucidar si tal

relación es real o espuria.

La segunda, en tanto, se presenta cuando se intenta descubrir relaciones ocultas entre las

variables. Así por ejemplo, se puede intentar averiguar por qué resulta tan pequeña (o tan alta)

la intensidad de la relación entre dos variables cuando todo hace pensar que su relación

debería ser mucho mayor (o menor).

Y, en tercer lugar, en muchas ocasiones se presenta la duda acerca de si la relación que se

establece entre dos variables originales funciona en todas las circunstancias o, por el contrario,

se manifiesta únicamente bajo determinadas condiciones (categorías de la variable control).

El razonamiento estadístico de la técnica del control por una tercera variable es muy sencillo. En

Primer lugar calculamos la relación entre la variable dependiente y la independiente y, a

continuación, se repite el procedimiento para cada una de las categorías de la(s) variable(s)

control.

Ahora bien, en términos estadísticos, el que la relación entre dos variables sea independiente de la

influencia de terceras variables significa que cualquiera que sea la tercera variable que se

introduzca como control, la relación entre las variables iniciales se mantendrá en cada una de las

categorías de la(s) variable(s) control. Para el caso contrario, cabe distinguir al menos dos

situaciones: i) cuando existe dependencia de terceras variables y la relación desaparece por

completo en todas las categorías (relación espuria) y ii) cuando existe dependencia de terceras

variables y la relación desaparece parcialmente en alguna de las categorías (relación de tipo

condicional o también denominada de interacción).

4.2. Ejecución de tablas de contingencia con medidas de asociación en SPSS,

introduciendo variables control

1. Analizar en la barra del menú de SPSS.

2. Estadísticos descriptivos

3. Tablas de contingencia / Ingresar la variable dependiente(s) en “filas” y la variable

independiente(s) en “columnas”. La(s) variable(s) control se ingresan en “capa”.

4. Casillas

/ Frecuencias > Sacar selección en observadas.

/ Porcentajes > Seleccionar columna.

5. Continuar

6. Estadísticos > Chi-cuadrado, V de Cramer, Correlaciones (Spearman), según

corresponda al nivel de medición de las variables.

7. Continuar

8. Aceptar

Page 15: Análisis estadístico univariado, bivariado y variables control

15

4.3. Análisis de los datos

Al momento de escribir el informe de análisis de datos usted debe tener en consideración:

4.3.1. Para el caso de la prueba de significación estadística Chi-cuadrado de Pearson

Situación 1: Asociación.

En este caso usted debiera señalar que: existe asociación estadísticamente significativa entre

la “variable dependiente” y la “variable independiente”. Ello ocurre cuando el estadístico de

contraste es menor a 0.05.

Situación 2: No asociación.

De modo análogo al caso anterior usted debiera indicar que: no existe asociación

estadísticamente significativa entre la “variable dependiente” y la “variable independiente”.

Ello ocurre cuando el estadístico de contraste es mayor a 0.05.

*** Se debe prestar especial atención al porcentaje de celdas con frecuencia esperada

inferior a 5. Que no supere el 25% de las celdas. Si ese fuera el caso se recomienda

recodificar, ya que de lo contrario se corre el riesgo de llegar a una conclusión errónea.

4.3.2. Para el caso del Coeficiente V de Cramer y Spearman

Sólo consideraremos el Coeficiente V de Cramer como parte del análisis cuando Chi-cuadrado de

Pearson sea estadísticamente significativo. Es decir, cuando exista asociación entre la variable

dependiente y la variable independiente. Usualmente, por lo demás, cuando Chi-cuadrado de

Pearson es significativo, lo es también V de Cramer.

Situación 1: Existe una intensidad de asociación baja (0.0 < V de Cramer 0.2) entre la “variable

dependiente” y la “variable independiente”.

Situación 2: Existe una intensidad de asociación media (0.2 < V de Cramer 0.3) entre la

“variable dependiente” y la “variable independiente”.

Situación 3: Existe una intensidad de asociación alta (0.3 < V de Cramer 1.0) entre la “variable

dependiente” y la “variable independiente”.

4.3.3. Para el caso del Coeficiente de Correlación de Spearman

La intensidad de la relación se interpreta tal como el coeficiente de V de Cramer. Luego debe

indicarse la dirección de la relación: si es directa o inversamente proporcional.

4.3.4. Para el caso de la introducción de variables control

Al realizar un cruce entre la variable dependiente (Y) y la variable independiente (Y) incluyendo

una variable de control (C), se debe realizar un análisis de los datos de modo similar a cuando

trabajamos con dos variables. Así, nos encontraremos con las siguientes situaciones:

Situación 1: Dependencia/Independencia

Page 16: Análisis estadístico univariado, bivariado y variables control

16

La “variable Y” depende de la “variable X”, independientemente de la “variable C”. Tal situación

ocurre cuando el estadístico de contraste es menor a 0.05 en cada una de las categorías de la

variable de control.

La “variable Y” no depende de la “variable X”, independientemente de la “variable C.” Dicha

situación ocurre cuando el estadístico de contraste es mayor a 0.05 en cada una de las

categorías de la variable de control.

Situación 2: Relación condicionada.

La “variable Y” depende de la “variable X”, salvo en el caso de las “categorías de variable C” (en

donde se da una asociación no significativa).

La “variable Y” no depende de la “variable X”, salvo en el caso de las “categorías de la variable

C” (en donde se da una asociación significativa).

Situación 3: Relación espuria

La “variable Y” no depende de la “variable X” sino de la “variable C” (no existe asociación

significativa en cada una de las categorías de la variable control).

5. EL PAPEL DE LA TEORÍA Y LOS MODELOS DE RELACIONES

En términos generales asumimos que no resulta razonable llevar a cabo una investigación de

carácter empírico sin un marco teórico o analítico apropiado a nuestras preguntas (problema)

de investigación.

La teoría juega al menos cinco funciones fundamentales. En primer lugar, nos permite

delimitar aquellos ámbitos de realidad a los que se le debe prestar atención. En segundo lugar,

nos permite discriminar cuáles han de ser las variables relevantes en el estudio: variable

dependiente, independientes y de control. En tercer lugar, nos permite establecer el sentido de

tales relaciones (modelos) y formular, por consiguiente, hipótesis de trabajo. Y, en quinto

lugar, nos permite interpretar los resultados encontrados. Sin una adecuada teoría no

podríamos, por ejemplo, distinguir entre una simple relación estadística de una causal.

La elaboración de representaciones acerca del sentido de las relaciones entre las variables de

un problema de investigación se puede llevar a cabo mediante fórmulas matemáticas

relativamente complejas o mediante representaciones conceptuales a través de diagramas de

flechas (que son más frecuentes en las ciencias sociales). Tales representaciones son

especialmente relevantes en el análisis estadístico multivariado. Nos permite establecer de

modo sencillo las múltiples relaciones que se desprenden del marco teórico/analítico, lo cual

es clave para la formulación de las hipótesis de investigación, de modo tal de orientar las

decisiones que se deben ir tomando al momento de seleccionar e interpretar las diferentes

pruebas estadísticas (asociadas con la prueba de hipótesis).

___________________________________________________________________________

Bibliografía Field, Andy (2009). Discovering Statistics Using SPSS for Windows. Third Edition (Sage, London).

García Ferrando, Manuel (1997). Socioestadística (Alianza Editorial, Madrid).

Sánchez Carrión, Juan J. (1995). Manual de Análisis de Datos (Alianza Editorial, Madrid).

Ritzer, Ferris J. (2003). Estadística para las Ciencias Sociales (McGraw-Hill, México).