Relación entre las Variables
Transcript of Relación entre las Variables
-
8/13/2019 Relacin entre las Variables
1/40
-
8/13/2019 Relacin entre las Variables
2/40
Estadstica elemental L. SALVADOR
67
X Y
3 8
5 6
6 2
6 5
7 4
7 4
8 3
9 2
9 4
10 1
r -0.83986435
R2 0.70537212
Dipersin XY negativa
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
X Y
1 2
2 1
2 3
3 2
4 1
4 6
6 3
7 7
7 9
8 610 9
10 10
r 0.85704604
R2 0.73452791
Dipersin XY positiva
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
X Y
0 0
1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8
9 9
10 10
r 1
R2 1
Dipersin XY perfecta positiva
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
-
8/13/2019 Relacin entre las Variables
3/40
Estadstica elemental L. SALVADOR
68
X Y
2 8
3 7
4 6
5 5
6 4
7 3
8 2
9 1
10 0
r -1
R2
1
Dipersin XY perfecta negativa
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
X Y
2 5
3 3
3 7
6 2
6 8
7 5
r 0
R2 0
Dipersin XY nula
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7 8
X
Y
X Y
1 2
2 4
3 54 6
5 7
7 6
8 5
9 3
r 0.2287
R2 0.0523
Dipersin XY curvilnea o no lineal
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7 8
X
Y
-
8/13/2019 Relacin entre las Variables
4/40
Estadstica elemental L. SALVADOR
69
-
8/13/2019 Relacin entre las Variables
5/40
Estadstica elemental L. SALVADOR
70
-
8/13/2019 Relacin entre las Variables
6/40
Estadstica elemental L. SALVADOR
71
Interpretacin de los coeficientes de correlacin
Los valores de una correlacin oscilan entre +1 y -1. Sin embargo, hay que tener
cuidado a la hora de interpretar un coeficiente ya que esta escala no toma valoresconstantes o, lo que es lo mismo, 0,80 por ej. no es el doble de 0,40. Para hacernos una
idea ms atinada del grado de asociacin hay que elevar el ndice al cuadrado con lo que, en
el caso anterior, tendramos un 64% y un 16% respectivamente (coeficiente de
determinacin ver pg. 80).
Las correlaciones no se pueden promediar entre s directamente. S se pueden
promediar transformndolas en otro tipo de puntuaciones (Z de Fisher) como veremos ms
adelante.
Por tanto, a la hora de interpretar un ndice concreto, vase el 0,87 obtenido en el
ejemplo que presentamos a continuacin, hay que tener en cuenta lo siguiente:
* Significatividad estadstica: descartar que la relacin encontrada no se debe al azar.
La significatividad est muy influenciada por el N de la muestra con la que
trabajamos -a mayor N mayor significatividad y a menor N menos significatividad-.
* Direccin o sentido de la correlacin (+, - o nula): esto nos indicar el sentido de la
asociacin como ya se ha indicado.
* La cuanta o intensidad:
1) Depende de la naturaleza de las variables. Por ej. un coeficiente de 0,40 entre
peso y CI podra considerarse insospechado y altsimo. Sin embargo, el
mismo ndice obtenido entre dos tests distintos que miden memoria, sera
prcticamente despreciable. Es muy importante la coherencia con los
coeficientes obtenidos en estudios que trabajen con variables similares. Nos
haremos una idea ms adecuada si elevamos dichos ndices al cuadrado y as
tendremos informacin sobre el grado de covarianza o varianza comn entre
las variables correlacionadas.2) Depende de la variabilidad del grupo: las correlaciones son siempre ms bajas
cuanto ms homogneas son las muestras y ms altas cuanto ms
heterogneas. Remitimos a las representaciones de las nubes de dispersin
en las pginas anteriores. Por ejemplo, si realizamos un estudio sobre el
rendimiento de los alumnos y CI en una muestra amplia, cabe esperar una
correlacin ms alta que si realizamos el mismo estudio con un grupo ms
restringido (por ej. con todos los que tienen un CI mayor o igual a 110).
-
8/13/2019 Relacin entre las Variables
7/40
Estadstica elemental L. SALVADOR
72
* Correlacin slo indica asociacin lo que no implica que haya relacin de causa-efecto
necesariamente. Las relaciones causales debern establecerse por otras vas.
Siempre que se ofrezcan ndices de correlacin deber indicarse su significatividad
estadstica, el N con el que han sido obtenidos y la cuanta de los mismos. Interpretacin
puramente orientativa (BISQUERRA,R. 1987, p. 189):
>0.800.60 - 0.790.40 - 0.590.20 - 0.39
-
8/13/2019 Relacin entre las Variables
8/40
Estadstica elemental L. SALVADOR
73
2yx
xyN
yxr
=
3
=
22yx
yxrxy la que usa Excel
4
( ) ( )[ ] ( ) ( )[ ]2222
=
YYNXXN
YXXYNrxy
Soluciones al ejercicio:
1 87,010
716,8==xyr
2 87,049,334,410
132=
=xyr
3 87,0122188
132=
=xyr
4[ ][ ]
87,06048210.8082810
60806121022
=
=xyr
Significatividad de la correlacin
Mediante los siguientes procedimientos de clculo podemos establecer si una
correlacin es distinta de cero o, lo que es lo mismo, si la correlacin encontrada no se debe
al azar.
Clculo del error tpico:
N
rr
21=
Clculo de la razn crtica:
( )( )21/ rNrrRr
c ==
-
8/13/2019 Relacin entre las Variables
9/40
Estadstica elemental L. SALVADOR
74
Cuando el ndice obtenido es mayor o igual que el lmite crtico establecido por la
curva normal (1,96 para un Nc del 5% y 2,58 para el 1%), se puede afirmar que la
correlacin obtenida es estadsticamente significativa.
Si quisiramos saber cuantos sujetos necesitaramos para obtener una correlacin
significativa podemos aplicar la frmula siguiente:2
=
r
NcN
Ejemplo:
En el caso presentado anteriormente habamos obtenido una r = 0,87, tenamos un N
= 10.
0768,01623,3
757,01
10
)87,0(1 2=
=
=r
3281,110768,0
87,0==Rc
La correlacin obtenida es estadsticamente significativa al obtener una Rc mayor
que 1,96 o 2,58 que seran los niveles de confianza necesarios para el 5% y 1%
respectivamente.
Si quisiramos saber qu N necesitaramos para que una correlacin (por ejemplo, r
= .11) fuese significativa, tendramos que aplicar la frmula siguiente:
317818,1711,096,1 222 ==
=
=r
NcN
Significatividad de diferencias entre correlaciones en muestrasrelacionadas o en la misma muestra
Si, por ejemplo, tenemos una muestra de 147 casos en los que hemos hallado la
correlacin entre un test3 y otro test1 (criterio), as como la correlacin entre otro test2 y el
mismo test1 (criterio), y la correlacin entre los test3 y test2. Dichas correlaciones son las
siguientes: r13= 0,68 r12= 0,77 r23= 0,84. Deseamos saber si las correlaciones del test1
-
8/13/2019 Relacin entre las Variables
10/40
Estadstica elemental L. SALVADOR
75
(criterio) con cada test (r13y r12) son significativamente distintas.
La frmula a aplicar sera la siguiente:
2313122
232
132
12
231312
212
13)(
rrrrrr
rNrrt
+
+=
En este caso la t tiene N-3 grados de libertad.
348712,0
4648,1
)3445,0)(414,1(
)356,1)(12)(09,0(
)84,0)(77,0)(68,0(284,068,077,012
84,01314768,077,0(222
===+
+=t
En la Tabla 6 de valores crticos de t, vemos que para 144 g.l. 2,576 t se corresponde
con el Nc. del 1%. Como nosotros hemos obtenido un valor de 3 quiere decir que la
diferencia encontrada entre los dos tests con el test 1 (r12- r13=0,09) es significativa a un
Nc. superior al 1%.
Media de varias correlaciones
Cuando tenemos varias correlaciones obtenidas entre dos variables en varias
muestras independientes de una misma poblacin, podemos hallar la correlacin media
mediante el uso de la Tabla de z. Para ello seguimos el procedimiento de pasar r a z, utilizar
la frmula siguiente y volver a pasar z a r.
n
nn
NNN
nNznNznNzZ
+++
+++=
...
)(...)()(
21
2211__
n= nmero de correlaciones
En el ejemplo siguiente, hemos obtenido la correlacin entre un test de inteligencia y
el xito escolar en tres muestras:r1= 0,64 N1= 80
r2= 0,72 N2= 126
r3= 0,64 N3= 92
1) Transformamos r en z utilizando la Tabla 8: z1= 0,758 z2= 0,908 z3= 0,758
2) Hallamos la media ponderada de esas z
-
8/13/2019 Relacin entre las Variables
11/40
Estadstica elemental L. SALVADOR
76
321
332211__ )3()3()3(
NNN
NzNzNzZ
++
++=
3) Convertimos este valor z a su r correspondiente. r = 0,665
8218,0289
)89)(758,0()123)(908,0()77)(758,0(__=
++=Z
Esta sera la correlacin media o, mejor dicho, la correlacin que mejor representa la
relacin entre las dos variables en la poblacin en funcin de la informacin que sobre ella
tenemos a partir de las tres correlaciones anteriores.
Regresin y prediccin
Galton enunci la ley de regresin universal al analizar la correlacin entre estatura y
herencia (los hijos de padres altos tendan a ser menos altos que sus padres y los de padres
bajos eran ms bajos, pero menos, que sus padres). Se produca una regresin hacia la talla
media.
En este apartado lo que se trata es de pronosticar o predecir los valores de una
variable (dependiente) a partir de la otra (independiente). Para ello se utiliza la recta de
regresin construida a partir de la funcin de relacin lineal (y = a + bx) donde x e y son
variables y a y b constantes (ordenada en el origen y pendiente de la recta) cuando la
pendiente es positiva (relacin positiva), negativa (negativa) y nula (recta paralela al eje de
abcisas).
-
8/13/2019 Relacin entre las Variables
12/40
Estadstica elemental L. SALVADOR
77
Ecuaciones de regresin:
Y en funcin de X X en funcin de YY=a + bX
=
22 )( XXN
YXXYNb
____
XbYA = Si conocemos la correlacin entre X e Y
x
y
xyrb
=
X=a + bY
=
22 )( YYN
YXXYNb
____
YbXA = Si conocemos la correlacin entre X e Y
y
x
xyrb
=
Puntuaciones diferencialesY= bx
xryx
y
xy =
x= by
yrxy
x
xy =
Puntuaciones tpicaszy=bzxb= rxy
zy=rxy * zx
zx=bzxb= rxy
zx=rxy * zy
Ejemplo:
Cul es la recta de regresin (Y en funcin de X) expresada en puntuacin directa, diferencialy tpica de los datos siguientes?:
Sujetos X Y X2 XY x x
2 y y
2 xy
A 8 6 64 48 -1 1 -2 4 2B 10 9 100 90 1 1 1 1 1C 6 7 36 42 -3 9 -1 1 3D 12 10 144 120 3 9 2 4 6Suma 36 32 344 300 20 10 12
Clculos previos:
94
36__==X
84
32__==Y
24,24
20==x
-
8/13/2019 Relacin entre las Variables
13/40
Estadstica elemental L. SALVADOR
78
58,14
10==y
85,058,124,24
12 =
== yx
xyN
xyr
Recta de regresin con puntuaciones directas:
6,0363444
323630042
=
=b
a=8-(0,6)(9)=2,6
b=0,85(1,58/2,24)=0,6
Y=2,6+0,6X
Recta de regresin con puntuaciones diferenciales:
Y=0,85(1,58/2,24)x=0,6x
Recta de regresin con puntuaciones tpicas:
Zy=0,85Zx
Podemos calcular los valores pronosticados para el sujeto C, por ejemplo. Sera
Y' = 2,6 + 0,6X = 2,6 +0,6 6 = 6,2y' = 0,6x = 0,6 (-3) = -1,8Z'y= 0,85 Zx = 0,85 ((-3)/2,24) = 0,85 (-1,34) = - 1,14
Error tpico de estimacin:
Cuando predecimos mediante ecuaciones de regresin, cometemos errores (vase
como en el ejemplo para el sujeto C. Pronosticbamos 6,2 mientras que tiene una Y=7.
Hubo, por tanto, un error de estimacin de 0,80). El calibre de estos errores viene dado por
el error tpico de estimacin.
Frmulas para Y en funcin de X
21 xyxxy r=
para X en funcin de Y
21 xyyyx r=
-
8/13/2019 Relacin entre las Variables
14/40
Estadstica elemental L. SALVADOR
79
Cuando el N sea menor de 50 sujetos habr que multiplicar el resultado por la
correccin2N
Npor lo que tendramos que
21 2
=
N
Nrxyyyx
1771,14142,15268,058,12
485,0158,1 2 ===yx
Calculo del error si pronosticamos X en funcin de Y:
Segn el nivel de confianza que tomemos para el pronstico, la puntuacin verdadera
se encontrara entre unos mrgenes o intervalos de confianza. As
Y' yx= 68,26%
Y' (yx)(1,96) = 95%
Y' (yx)(2,58) = 99%
6,2 1,1771 = 7,3771 y 5,0229 la puntuacin obtenida por el sujeto en Y en base a la
puntuacin de X se mover entre estos mrgenes con un nivel de confianza del 68,26%.
6,2 (1,17711,96) = 8,5071 y 3,8929 la puntuacin obtenida por el sujeto en Y en base a
la puntuacin de X se mover entre estos mrgenes con un nivel de confianza del 95%.
6,2 (1,17712,58) = 9,2369 y 3,1631 la puntuacin obtenida por el sujeto en Y en base a
la puntuacin de X se mover entre estos mrgenes con un nivel de confianza del 99%.
El error tpico vara entre 0 y la desviacin tpica de la variable dependiente, esto es:
Si rxy= 0 ----> x.y= y : error mximo
Si rxy= 1 -1 ----> x.y= 0: no hay error o la prediccin es perfecta.
Coeficiente de alienacin (K)o % de azar o incertidumbre en el pronstico. Se multiplica
por 100 y se interpreta como porcentaje.
21 xyrK =
Coeficiente de eficiencia predictiva (E)o seguridad en el pronstico
211 xyrE =
E = 1 - K
se multiplica por 100 y se interpreta como porcentaje.
-
8/13/2019 Relacin entre las Variables
15/40
Estadstica elemental L. SALVADOR
80
Coeficiente de determinacin (rxy2) se multiplica por 100 y se interpreta como el
porcentaje de covarianza o varianza asociada, o porcentaje de varianza explicada por X o
por Y.
En el ejemplo estudiado tendramos un coeficiente K = 52,68%, un coeficiente E =
47,32% y un coeficiente de determinacin de 72,25%.
-
8/13/2019 Relacin entre las Variables
16/40
Estadstica elemental L. SALVADOR
81
7.1.2.- Correlacin biserial (rb) y biserial puntual (rbp)
Aunque sean coeficientes distintos, las frmulas de clculo son muy semejantes ya
que slo cambia el segundo factor.
Biserial: rb biserial puntual: rbp
REQUISITOS
Dos variables continuas, normales
linealmente relacionadas de las que una ha
sido dicotomizada (ej. items, sueldos...)
Dos variables una continua y la otra
dicotmica o, siendo continua, no se
distribuye normalmente
CLCULO
y
pqXXr
x
qp
b
=
____
y
pXXr
x
p
b
=
____
pqXX
rx
qp
bp
____
=
q
pXXr
x
p
bp
____
=
X es la variable continua
Y la dicotmica o dicotomizada.
p: proporcin de casos de una de las dos modalidades de Yq: 1 - py: ordenada de la curva normal que divide las reas p y q. Ver Tabla 9.
__
pX media de los casos que en la variable X poseen la caracterstica p__
q
X media de los casos que en la variable X poseen la caracterstica q__
X media de todos los casos en la variable X
x desviacin tpica de la variable X
-
8/13/2019 Relacin entre las Variables
17/40
Estadstica elemental L. SALVADOR
82
Interpretacin
rbp: biserial puntual
Magnitud:igual que Pearson
Direccin:
+:____
qp XX > y la diferencia____
qp XX es positiva. Esto quiere decir que los sujetos que
punten alto en X tendern a pertenecer a la modalidad de Y denominada como p. Los que
punten bajo en X tendern a pertenecer a la modalidad q de Y.
-: En caso de ser negativo la interpretacin se realiza a la inversa: a puntuacin alta en X le
corresponder la modalidad q y, a puntuacin baja en X, la modalidad p.
En el ejemplo siguiente se cumple la condicin positiva, por lo que los sujetos que
tienen una mayor puntuacin en la prueba objetiva X, tienden a acertar el tem Y. O, lo que
es lo mismo, los que dominan la materia suelen acertar el tem Y.
Ejemplo:
Tenemos las puntuaciones totales de 10 sujetos que han contestado a una prueba objetiva
(X) y adems sabemos si han acertado (1) o fallado (0) un tem Y. Tenemos, por tanto, una
variable cuantitativa y otra dicotmica.
Datos:N X Y1 1 02 1 13 2 04 2 05 3 1
6 4 17 6 18 6 19 8 1
10 10 1__
X =4,3x
=3,093__
pX =5,429
__
qX =1,6667
5575,05275,13650,03,0
7,0
093,3
3,4429,5____
==
=
=q
pXXr
x
p
bp
-
8/13/2019 Relacin entre las Variables
18/40
Estadstica elemental L. SALVADOR
83
7347,06040,02164,13477,0
3,07,0
093,3
667,1429,5____
==
=
=y
pqXXr
x
qp
b
Como se puede apreciar, con los mismos datos, la biserial es mayor que la biserial
puntual (un 76% ms). Comprobar el valor de y en la Tabla 9.
rb: biserial
El valor puede superar la unidad y es mayor que rbppara los mismos datos (entre un
25-70% mayor). Es menos fiable que rbpy no se puede comparar con Pearson. Mxima
fiabilidad cuando p=q. La direccin o el sentido de la correlacin se interpreta como rbp.
Un ejemplo tpico de correlacin biserial sera el siguiente:2
Hemos medido el peso (Y) y la estatura (X) a un grupo de individuos dividindolos
segn el peso en obesos (peso superior a la mediana) y delgados (peso inferior a la
mediana) hay alguna relacin entre peso y altura as considerados?
X Y( p) Y( q)176 1174 1
172 1170 1169 1168 1166 1164 1160 1155 1
p=0,5, q=0,5, y=0,3989
__
X =167,4 x =6,40
__
pX =172,20
__
qX =162,60pq/y=0,6267
p/y=1,2530
94,03989,0
5,05,0
4,6
6,1622,172____
=
=
=y
pqXXr
x
qp
b
94,03989,0
5,0
4,6
4,1672,172____
==
=
=y
pXXr
x
p
b
-
8/13/2019 Relacin entre las Variables
19/40
Estadstica elemental L. SALVADOR
84
Por tanto, existe una alta relacin entre tener valores altos en la variable altura y
pertenecer al grupo de obesos y obtener valores bajos en altura y pertenecer al grupo de
delgados.
7.1.3.- Correlacin tetracrica (rt)
La correlacin tetracrica requiere que las dos variables relacionadas sean continuas,
normales, relacionadas linealmente y dicotomizadas artificialmente. Adems requiere un N
100 y todas y cada una de las celdas debern ser iguales o mayores que el 10% del N
total. Cuando una celda es 0, no se calcula.
Clculo:
Existen diversos mtodos para el clculo de rt. Nosotros vamos a utilizar el mtodo
diagonal de Davidoff y Cohen que consiste en calcular el cociente de las diagonales de la
tabla de contingencia (2X2) y ver a qu rtcorresponde en la Tabla 10.
BC
ADrt =
Cuando BC>AD se invierte el orden y se estima la rt con signo negativo
AD
BCrt =
Por ejemplo: Hemos sometido a 100 sujetos a dos pruebas y hemos dicotomizado los
resultados a partir de la media de modo que nos resulta la siguiente tabla:
2CARRO,J. (1994): Psicoestadstica descriptiva. Salamanca: Amaru, p. 201.
AB
D C
+
- +
|
+- ++
-- -+
Y-
X-
-
8/13/2019 Relacin entre las Variables
20/40
Estadstica elemental L. SALVADOR
85
6
2010
4030=
==
BC
ADrt
Consultando la Tabla 10 nos encontramos con un valor de rt= 0,61
En este otro ejemplo, tenemos datos de 100 sujetos en dos variables X (CI
dicotomizada por 100) e Y (neuroticismo dicotomizada a partir de la media) resultando la
tabla de contingencia siguiente:
dado que AD
-
8/13/2019 Relacin entre las Variables
21/40
Estadstica elemental L. SALVADOR
86
7.1.4.- Coeficiente
Este coeficiente se utiliza con variables cualitativas, las dos debern ser realmente
dicotmicas (ejs.: hombre-mujer, vivo-muerto...) o una dicotmica y la otra dicotomizada
artificialmente. Se requiere que N >100, no debe emplearse ninguna proporcin total que
sea inferior a 0,05 siendo peligroso emplear proporciones inferiores a 0,10.
Por ejemplo, queremos estudiar la relacin existente entre el sexo (X) y la respuesta
a una pregunta de un determinado cuestionario (Y). La variable X especifica el sexo
(0=hombre, 1=mujer) y la variable Y es clasificada como incorrecta (0) y correcta (1). Con
los datos obtenidos en una muestra de 100 sujetos hemos construido la tabla siguiente:
La frmula ms usual para calcular el coeficiente es la siguiente:
)())()(( cadbdcba
cbda
+++++
=
abd c
1
0 1
0
Y
X
35 15
20 30
ab
d c
1
0 1
0
Y
X
35 15
20 30
50
50
10055 45
-
8/13/2019 Relacin entre las Variables
22/40
Estadstica elemental L. SALVADOR
87
en nuestro caso
30,0)2035()3015)(3020)(3515(
)3035()2015(=
+++++
=
el valor es bajo y negativo, lo que quiere decir que la relacin entre ser mujer y contestar
correctamente (1,1) o entre ser hombre y contestar de manera incorrecta (0,0) es negativa.
Esto nos deber hacer pensar en que el signo del coeficiente deber interpretarse en funcin
de la organizacin de las celdas. Cuando es negativo predominan las casillas 1-0, 0-1 y
cuando es positivo las casillas (0-0, 1-1).
Algunas caractersticas del coeficiente
* El valor de slo alcanza la unidad en los dos casos siguientes:
a) Cuando las frecuencias de las celdas a y d son igual a 0, independientemente
del nmero de frecuencias que tengan las casillas b y c
b) Cuando las frecuencias de las celdas b y c son igual a 0, independientemente
del nmero de frecuencias que tengan las casillas a y d.
abd c
1
0 1
0
Y
X
55 0
0 45
55
45
10055 45
ab
d c
1
0 1
0
Y
X
0 35
45 0
35
45
8045 35
-
8/13/2019 Relacin entre las Variables
23/40
Estadstica elemental L. SALVADOR
88
En cualquier otro caso, ser menor que 1 y para interpretarlo hay que saber cul
sera el mximo de esos valores mediante la frmula:
1
1
2
2
pq
qp
mx =
siendo p1la frecuencia marginal mxima (en proporcin) de una variable, p2la de la otra
variables y q1y q2las complementarias de ambas.
En nuestro caso tenemos
9,0
55,0
45,0
5,0
5,0
1
1
2
2 ===
p
q
q
pmx
que supone un -0,33 sobre el mx
33,09,0
3,02 =
==mx
r
ste sera el verdadero , que se puede interpretar como r de Pearson en lo que respecta a
la relacin que implica.
5773,09,0 3,0max===
r
Hay una frmula directa para llegar a r con estos datos sin pasar por y mxque
es la siguiente:
12
1
1
2
2 qp
bcad
p
q
q
p
bcadr
=
=
ab
d c
1
0 1
0
Y
X
35 15
20 30
50
50
10055 45p1 q1
p2
q2
-
8/13/2019 Relacin entre las Variables
24/40
Estadstica elemental L. SALVADOR
89
Ejemplo:
))()()(( cadbdcba
bcad
++++
=
71,016,2459
1750
)1247)(383)(3812)(347(
)312()4738(==
++++
=
83,06949,049
51
59
41
50
50
1
1
2
2 =====p
q
q
pmx
92,08554,083,0
71,0
max
====
r
92,08536,02050
1750
4150
)123()3847(
===
=r
El coeficiente est relacionado con 2, de modo que, cuando la tabla de
contingencia es de 2x2, la relacin es la siguiente:
22 N=
N
2
=
-
8/13/2019 Relacin entre las Variables
25/40
Estadstica elemental L. SALVADOR
90
7.1.6.- Coeficiente de contingencia (C) y chi cuadrado ( 2)
El coeficiente de contingencia (C) es una medida del grado de asociacin entre dos
conjuntos de categoras pertenecientes a variables. Se utiliza, sobre todo, cuando las
variables estn divididas en ms de dos categoras cada una. Se obtiene en base 2
mediante la frmula siguiente:
NC
+=
2
2
1.- Concepto de 2de Pearson
Permite saber si existe o no asociacin entre dos variables. Indica la discrepanciaentre unos datos empricos y otros esperados en funcin de una hiptesis definida.
2 r
Afirma si existe o no la asociacin Afirma si existe o no relacin y el grado detal relacin
No indica el sentido de la asociacin S indica el sentido de la relacin
Sirve para variables nominales, ordinales y
de intervalo
Slo sirve para variables continuas
No exige una "distribucin especial" de lasvariables
Exige que ambas variables se distribuyannormalmente (homocedasticidad)
No exige funcin especial entre ambasvariables
Exige funcin rectilnea lineal entre lasvariables
2.- La lgica del test de 2de Pearson
El 2
es el clculo de la diferencia total que existe entre los resultados obtenidos(empricos) y los esperados (tericos) o que se daran tericamente entre dos variables que
no estuvieran asociadas (Ho=hiptesis nula).
Si el 2es tan grande que no puede explicarse por el azar se afirma la asociacin
entre las variables y se niega Ho. Es decir, si el 2emprico es que el 2terico (Tabla
7) a un determinado nivel de confianza ( ) y con unos grados de libertad (gl) determi-
nados, no podemos rechazar la hiptesis nula (diferencia igual a 0) y, por tanto, afirmare-
mos que la diferencia no es significativa. En el caso contrario, es decir, cuando el 2emp-
-
8/13/2019 Relacin entre las Variables
26/40
Estadstica elemental L. SALVADOR
91
rico es mayor que el 2terico (Tabla 7) a un determinado nivel de confianza ( ) y con
unos grados de libertad (gl) determinados, podemos rechazar la hiptesis nula (diferencia
igual a 0) y, por tanto, afirmaremos que la diferencia encontrada es significativa.
Clculo:
=t
te
f
ff2
2 )(
donde fecorresponde a las frecuencias empricas, observadas o reales
donde ftcorresponde a las frecuencias tericas o esperadas que se calculan para cada
casilla mediante la frmula siguiente: N
FK
f
ji
t
=
donde Kies el sumatorio de las
fe de la columna, Fjel de las filas y N el total de casos.
A la diferencia entre ambas en cada casilla o celda se denomina residual o residuo.
3.- Los grados de libertad (gl,df,k)
Clculo:
gl=(F-1)(K-1) siendo F el nmero de filas y K el de columnas de la Tabla. Cuando
slo existe una fila,gl = FK
Los grados de libertad son el nmero de elementos observados menos el nmero de
relaciones que los ligan. O, dicho de otra forma, el nmero de grados de libertad en una
tabla es la diferencia entre los datos que pueden variar y las condiciones que se imponen
externamente (nmero de sujetos total y total por categoras)
Veamos algunos ejemplos: en una tabla 2x2 slo tengo un grado de libertad o una
nica opcin para colocar los datos (los de una casilla) ya que, a partir de ah, todos los
dems vienen determinados. Sean las variables del ejemplo (sexo: H y M, nacionalidad: N y
E).
-
8/13/2019 Relacin entre las Variables
27/40
Estadstica elemental L. SALVADOR
92
H M Marginales filas
N 700 300 1000
E 200 800 1000
Marginales columnas 900 1100 2000
En funcin de los totales de que disponemos podramos repartir tericamente a los
hombres (H) de muchas maneras; sin embargo, en cuanto elijamos una, todas las dems
casillas sern dependientes. Si en la casilla E, H colocamos 200 nos veremos obligados a
poner 700 en N, H y as sucesivamente para que los totales marginales de filas y columnas
se mantengan.
Si tuviramos una tabla 3x2
H M Marginales filas
Licenciados 300 100 400
Bachilleres 400 200 600
Estudios Prim. 200 800 1000
Marginales columnas 900 1100 2000
En teora, podramos colocar a los 900 H como quisiramos, ahora bien, una vez que
determinemos las frecuencias de dos celdas el resto se ven forzadas a asumir otras deter-
minadas. Si colocamos 200 H con Estudios primarios, esto nos obliga slo a colocar 800 M (1
gl), si adems (2 gl) colocamos a 300 H Licenciados, nos obliga a poner 400 H Bachilleres,
200 M Bachilleres y 100 M Licenciadas, con lo que hemos completado la Tabla. Por lo que
tenemos 2 gl, como se resulta de la frmula
gl=(F-1)(K-1)=(3-1)(2-1)=2
Una vez obtenido el valor de 2, determinado los grados de libertad y elegido el nivel
de confianza, vamos a la Tabla 7 y buscamos el 2donde se cruzan los gl o k y el nivel
establecido. Si el 2emprico es menor o igual que el de la tabla, se considera como no
significativo. Si el 2 emprico es mayor, se considera significativo estadsticamente. En la
citada Tabla con un gl=1, para cada nivel , hay una equivalencia con la escala z
(distribucin normal) como sigue 2=z Por ej.: un 2de 3,841 se corresponde con una
-
8/13/2019 Relacin entre las Variables
28/40
Estadstica elemental L. SALVADOR
93
z de 1,9598 ~ 1,96 que incluye al 95% y adopta una p=0,05.
4.- Utilidad de 2
Prueba de bondad de ajuste: se trata de comprobar si la distribucin emprica se
ajusta a una distribucin hipottica (terica) previamente fijada. Mediante la
aplicacin de la frmula ya expresada, se comprueba la bondad del ajuste entre las
frecuencias tericas y las empricas comprobando la significatividad del 2obtenido.
Prueba de independencia: igualmente podemos determinar si dos variables estn o
no relacionadas, es decir, si son dependientes o independientes. Para ello, lo primero
que hay que hacer es calcular las frecuencias tericas (aquellas que se obtendran si
fueran independientes o no hubiese relacin), luego se extrae 2y, finalmente, se
comprueba su significatividad.
Vamos a utilizar el ejemplo siguiente que relaciona el tipo de msica que le gusta
(VD) y nivel de estudios (VI) para revisar todos los aspectos tratados.
EstudiosMsica
primarios secundarios universitariosTotalfilas
Rock 10 30 60 100 fe empiricas16,0 40,0 44,0 ft teoricas
10,0 30,0 60,0 100,0 %filas
25,0 30,0 54,5 40,0 %columnas
-6,0 -10,0 16,0 res residuos
-1,5 -1,6 2,4 resT
-2,1 -2,6 4,2 resC
Pop 20 40 30 90 fe
14,4 36,0 10,0 ft
22,2 44,4 33,3 100,0 %filas
50,0 40,0 27,3 36,0 %columnas
5,6 4,0 20,0 res1,5 0,7 6,3 resT
2,0 1,1 10,2 resC
Clasico 10 30 20 60 fe
9,6 24,0 26,4 ft
16,7 50,0 33,3 100,0 %filas
25,0 30,0 18,2 24,0 %columnas
0,4 6,0 -6,4 res
0,1 1,2 -1,2 resT
0,2 1,8 -1,9 resC
Total col 40 100 110 250
-
8/13/2019 Relacin entre las Variables
29/40
Estadstica elemental L. SALVADOR
94
residuos tipificados:resT deber ser mayor que 1residuos corregidos o ajustados: resC se interpretan como punt. Tpicas +-1,96=95% y+-2,58=99%
g.l.=(F-1)*(C-1) 4 signif.
Chi2 18,586 0,00
C 0,263
Cmax 0,816
C--->r 0,610
C--->r2 37,202
Significatividad: comprobar en tabla
o usar funcin de excel
Proceso:
a) Las ftde cada celda se calculan a partir de los totales de filas y columnas divididos
por el N total. Por ejemplo para la celda A 16250
10040=
=
=
N
FKf
ji
t
que sera el N que se correspondera con el % de sujetos respecto al total que incluye
dicha celda.
b) Se calculan los residuales. En cada casilla (fe- ft). Hay que comprobar cuntas celdas
hay con ft menores que 5. Si hay un porcentaje elevado (entorno al 20% o ms) losdatos no se ajustan al modelo.
c) Se calcula 2que, en este caso, es como sigue:
9,184,26
)4,6(
24
)6(
6,9
)4,0(
6,39
)6,9(
36
)4(
4,14
)6,5(
44
)16(
40
)10(
16
)6()( 22222222222 =
+++++++
+
=
= t
te
f
ff
d) Se determinan los grados de libertad: gl=22=4
e) Se establece el nivel de confianza (p=0,01)
f) Se interpreta su significatividad. Dado que el 2 obtenido es mayor que el que
aparece en las tablas (13,277), podemos rechazar la hiptesis nula (Ho =
independencia) e indicar que, al nivel establecido, se puede afirmar que hay
dependencia o relacin entre las dos variables. Los resultados obtenidos, por tanto,
son significativamente distintos de los esperados, por lo que esa diferencia se puede
-
8/13/2019 Relacin entre las Variables
30/40
Estadstica elemental L. SALVADOR
95
atribuir a la relacin entre las variables o entre algunos de los cruces de sus
categoras. Tambin podemos comprobarlo usando la funcin DISTR.CHI (valor de
chi; g.l.) de Excel que nos devuelve la significatividad del coeficiente por lo que dicho
valor deber ser
-
8/13/2019 Relacin entre las Variables
31/40
Estadstica elemental L. SALVADOR
96
5.- Observaciones
1) Para usarlo se requiere un N50.
2)Para calcularlo en una tabla 2x2 se puede hacer directamente (sin calcular las ft)
mediante la frmula
))()()((
)( 22dbcadcba
bcadN
++++
=
+ -
+ a b
- c d
N
3) Correccin de Yates (tablas 2x2) o correccin de continuidad: gl=1, datos poco
numerosos (entre 20 y 50) de modo que en una o ms casillas de la tabla las ftsonmenores que 5 o incluso menores que 10.
))()()((
)5,0( 22dbcadcba
NcbdaN
++++
=
Si calculamos 2con la frmula normal, la ecuacin de Yates consiste en
restar 0,5 a las diferencias entre fey ftde cada casilla en valores absolutos mediante
la frmula sera la siguiente:
t
te
f
ff2
2 )5,0( =
4) Cuando 2se extrae de una tabla de ms de 30 gl es necesario transformarlo a z ya
que la distribucin 2a partir de dichos gl comienza a distribuirse normalmente. Una
vez transformado, se interpreta como la puntuacin tpica z.
122 2 = glz
5) Cuando hay celdas con ft(frecuencias tericas o esperadas) menores que 5 que
-
8/13/2019 Relacin entre las Variables
32/40
Estadstica elemental L. SALVADOR
97
superan el 20% del nmero total de celdas, podemos considerar que el modelo de
anlisis no se ajusta a la distribucin de 2por lo que habra que hacer lo siguiente:
agrupar categoras, suprimir categoras o ampliar el nmero de sujetos de la
muestra.
Con el clculo de 2determinamos si existe o no una asociacin significativa entre
las variables. Sin embargo, para determinar la cuanta o grado de la asociacin necesitamos
calcular C mediante la frmula ya expuesta. En el ejemplo de autoestima y nivel de estudios
resultara lo siguiente:
26,09,18250 9,182
2
=+=+= NC
Interpretacin de C:
1) Siempre es positivo, como 2y, para interpretar su sentido, hay que ver cmo estn
organizadas las categoras en la tabla.
2)C se aproxima a 0 cuando no hay relacin, pero nunca podr llegar a la unidad ya
que el denominador siempre es mayor que el numerador. El coeficiente mximo que
podemos alcanzar viene dado por la siguiente frmula:K
KCmx
1= donde K es el
n de categoras (cuando en una tabla el n de categoras en las variables es distinto
se utiliza el menor).
Tabla de Cmx
K Cmx
23456789
10
0,7070,8160,8680,8940,9130,9260,9350,9430,949
3) C no es directamente comparable con r. Sin embargo, el cociente C/Cmxes un
-
8/13/2019 Relacin entre las Variables
33/40
Estadstica elemental L. SALVADOR
98
equivalente de r2por lo quemxC
Cr =2 o
mxC
Cr= En el ejemplo utilizado ocurrira
lo siguiente
318,0816,0
26,02 ==r 5644,0816,0
26,0==r
EJEMPLOS DE ANLISIS DE TABLAS DE CONTINGENCIA (SPSS)
Vamos a tratar de averiguar si hay asociacin y en qu grado entre dos variables. En
un caso cada una de ellas tiene 2 dimensiones (tabla 2x2) y en otro 3 (tabla 3x3). Para ello
utilizaremos el test de 2
como prueba de independencia.
Dos variables son independientes si coinciden las frecuencias esperadas o tericas (ft)
con las empricas (fe) o si la probabilidad de que un caso caiga en una celda es, sim-
plemente, el producto de las probabilidades marginales de las dos categoras que definen la
celda. En el ejemplo siguiente se puede comprobar que para los varones que seguiran
trabajando si les tocara la lotera se esperan216 casos (35% de los 616 totales), mientras
que los observados o empricos son 234 (18 ms que los esperados: residuos). El
cociente entre estos residuos y las frecuencias tericas proporcionan el ndice 2
que dacuenta de la independencia o dependencia de las variables.
-
8/13/2019 Relacin entre las Variables
34/40
Estadstica elemental L. SALVADOR
99
Ejemplo 1: Tabla 2x2.
Intentamos ver si hay asociacin (independencia o dependencia) entre dos variables:
el sexo (varn, mujer) y la continuidad laboral caso de que nos tocara la lotera (si, no).
CROSSTABS A BY B/ CELLS COUNT EXPECTED RESI D/ STAT=CHI SQ.
A SEXO by B TOCA LOTERI A Y CONTI NUA TRABAJ ANDO
CountExp ValResi dual
SI
1
NO
2RowTot al
VARON
1
234216. 018. 0
89107. 0- 18. 0
32352. 4%
MUJ ER
2
178196. 0- 18. 0
11597. 018. 0
29347. 6%
Col ummTot al
41266. 9%
20433. 1%
616100. 0%
Chi _Square Val ue DF Si gni f i cance____________________ ___________ ____ ____________Pearson 9. 48683 1 . 00207Cont i nui t y Corr ect i on 8. 96619 1 . 00275Li kel i hood Rati o 9. 49642 1 . 00206Mant el _Haenszel t est f or 9. 47144 1 . 00209
l i near associ at i on
Mi ni mum Expect ed Fr equency _ 97. 032
Se puede comprobar el clculo de las fty de los residuos.
Celda 1,1 216616
123412=
=
=
N
FKf
ji
t
Hemos obtenido un 2= 9,48683 que es significativo estadsticamente (p=0,0207).
Lo que quiere decir que, para ese nivel de confianza y gl=1, rechazamos la Ho
(independencia de las variables) y admitimos que hay dependencia entre las variables.
La magnitud del 2obtenido depende no slo de la bondad de ajuste al modelo de
independencia sino tambin del tamao de la muestra. Si el tamao de la muestra de una
tabla concreta se incrementa n veces, del igual modo lo hara el valor de 2. As, pueden
aparecer valores de chi cuadrado grandes en aplicaciones en las que los residuos son
pequeos respecto a las frecuencias tericas, pero donde el tamao de la muestra es gran-
de. Por ello se requiere que las ftsean cuando menos 5 en las celdas. El SPSS nos indica el
mnimo valor esperado que aparece y el n(%) de celdas con ft
-
8/13/2019 Relacin entre las Variables
35/40
Estadstica elemental L. SALVADOR
100
el mensaje ya que no hay ninguna celda que rena esta condicin.
En una tabla 2x2, como es el caso, se aplica la correccin de Yates o Correccin
de continuidadpara calibrar mejor el ndice 2. El SPSS lo realiza descontando 0,5 a los
residuos positivos y sumando 0,5 a los negativos antes de su elevacin al cuadrado. Com-
prubese cmo aparece este dato en el ejemplo de tabla 2x2 y no aparece en el siguiente
(tabla 3x3). El ordenador nos da un valor de 8,96619 frente al 9,48683 de Pearson.
La prueba exacta de Fisheres una prueba alternativa para las tablas 2x2 que
calcula las probabilidades exactas de obtener los resultados observados si las dos variables
son independientes y los marginales (totales filas, totales columnas, total) estn fijados. Es
ms til cuando el tamao de la muestra es pequeo y los valores esperados son pequeos.
SPSS calcula la prueba exacta de Fisher si cualquier valor esperado de las celdas en una
tabla 2x2 es menor que 5. Obsrvense las modificaciones en los datos de la Tabla siguiente:
A SEXO by B TOCA LOTERI A Y CONTI NUA TRABAJ ANDO
CountExp ValResi dual
SI
1
NO
2RowTot al
VARON
1
20
21. 6- 1. 6
7
5. 41. 6
2760. 0%
MUJ ER
2
1614. 41. 6
23. 6- 1. 6
1840. 0%
Col ummTot al
3680. 0%
920. 0%
18100. 0%
Chi _Square Val ue DF Si gni f i cancePearson 1. 48148 1 . 22354Cont i nui t y Corr ect i on . 70023 1 . 40271Li kel i hood Rati o 1. 57511 1 . 20947
Mant el _Haenszel t est f or 1. 44856 1 . 22876l i near associ at i on
Fi sher ' s Exact Test :One_Tai l . 00000
Two_Tai l . 00000Mi ni mum Expect ed Fr equency _ 3. 600Cel l s wi t h Expect ed Fr equency < 5 _ 1 OF 4 ( 25. 0%)Number of Mi ssi ng Obser vat i ons: 0
Una vez que hemos determinado si existe o no asociacin, el paso siguiente es
determinar el grado de la misma. Para ello se utilizan diversos ndices dependientes de 2.
Todos ellos intentan minimizar la influencia del tamao de la muestra, de los grados de
libertad y encerrarse en un rango entre 0 y 1.
-
8/13/2019 Relacin entre las Variables
36/40
Estadstica elemental L. SALVADOR
101
CROSSTABS A BY B/CELLS COUNT EXPECTED RESID
/STAT=CHISQ PHI CC.
A SEXO by B TOCA LOTERI A Y CONTI NUA TRABAJ ANDO
CountSI
1
NO
2RowTot al
VARON
1234 89 323
52. 4%
MUJ ER
2178 115 293
47. 6%
Col ummTot al
41266. 9%
20433. 1%
616100. 0%
Chi _Square Val ue DF Si gni f i cance____________________ ___________ ____ ____________Pearson 9. 48683 1 . 00207Cont i nui t y Corr ect i on 8. 96619 1 . 00275Li kel i hood Rati o 9. 49642 1 . 00206Mant el _Haenszel t est f or 9. 47144 1 . 00209
l i near associ at i onMi ni mum Expect ed Fr equency _ 97. 032
Appr oxi mat eSt at i st i c Val ue ASE1 T_val ue Si gni f i cance
____________________ _________ ________ _______ ____________Phi . 12410 . 00207 *1Cr amer ' s V . 12410 . 00207 *1Cont i ngency Coef f i ci ent . 12315 . 00207 *1
*1 Pear son chi _squar e pr obabi l i t yNumber of Mi ssi ng Obser vat i ons: 0
1) Coeficiente :
12410,0616
48683,92====
N
En una tabla 2x2 = r
Para tablas con alguna dimensin mayor de 2 categoras no podr estar entre 0-1
ya que el 2puede ser mayor que el N de la muestra. De ah que para obtener una medida
entre 0 y 1, Pearson sugiriese el uso del coeficiente C.
-
8/13/2019 Relacin entre las Variables
37/40
Estadstica elemental L. SALVADOR
102
2) Coeficiente C:
12315,061648683,9
48683,92
2
=+
=+
=N
C
Nunca llegar a 1 (ver comentarios sobre Cmx). Para lograr que el ndice pudiera llegar a la
unidad, Cramer introdujo la siguiente variante.
3) Coeficiente V de Cramer:
12410,0)12(616
48683,9
)1(
2
=
=
=kN
V
donde k es el n ms pequeo de entre el nmero de filas y columnas. El ndice puedealcanzar un mximo de 1 y, si una de las dimensiones es 2, V y sern idnticos como es
el caso (0.1241).
La interpretacin de los resultados se realiza en funcin de la significatividad y el
sentido o direccin de la relacin teniendo presente la tabla de contingencia. En el ejemplo,
claramente se ve que en un grado muy pequeo ambos sexos seguiran trabajando y los
hombres seguiran trabajando en mayor medida que las mujeres. Cuando la interpretacin
no est tan clara, asumimos una variable como dependiente y nos fijamos en la categora deresultados (marginales) que incluye el mayor porcentaje de sujetos (categora modal) es el
caso de los que SI continuaran trabajando (66.9%).
Esto quiere decir que, a la hora de interpretar los ndices que nos ofrece la salida de
resultados, ste sera el ms adecuado para determinar el grado de asociacin entre las
variables.
-
8/13/2019 Relacin entre las Variables
38/40
Estadstica elemental L. SALVADOR
103
Ejemplo 2: Tabla 3x3.
Queremos ver la relacin que existe entre nivel de estudios (superiores, medios y
primarios) y autoestima (baja, media, alta) en base a la siguiente tabla de resultados:
CROSSTABS A BY B/ CELLS COUNT EXPECTED RESI D ASRESI S/ STAT=CHI SQ.
A NI VEL ESTUDI OS by B AUTOESTI MA
CountExp ValResi dualAdj Res
BAJ A
1
MEDI A
2
ALTA
3Row
Tot al
LI C. 1
1016. 0- 6. 0- 2. 1
3040. 0- 10. 0- 2 . 6
6044. 016. 04. 2
10040. 0%
BACH. 2
2014. 45. 62. 0
4036. 04. 01. 1
3039. 6- 9. 6-2 .5
9036. 0%
PRI M 3
109. 6
. 4. 2
3024. 0
6. 01. 8
2026. 4
- 6. 4-1 .9 6024. 0%
Col ummTot al
4016. 0%
10040. 0%
11044. 0%
250100. 0%
Chi _Square Val ue DF Si gni f i cance____________________ ___________ ____ ____________Pearson 18. 58586 4 . 00095Li kel i hood Rat i o 18. 56849 4 . 00096Mant el _Haenszel t est f or 10. 31135 1 . 00132
l i near associ at i onMi ni mum Expect ed Fr equency _ 9. 600Number of Mi ssi ng Obser vat i ons: 0
-
8/13/2019 Relacin entre las Variables
39/40
Estadstica elemental L. SALVADOR
104
CROSSTABS A BY B/ STAT=PHI CC.
A NI VEL ESTUDI OS by B AUTOESTI MA
Count BAJ A1
MEDI A2
ALTA3
RowTot al
LI C.
1 10 30 6010040. 0%
BACH.
2 20 40 309036. 0%
PRI M
3 10 30 20
60
24. 0%
Col ummTot al
4016. 0%
10040. 0%
11044. 0%
250100. 0%
Appr oxi mat eSt at i st i c Val ue ASE1 T_val ue Si gni f i cance
____________________ _________ ________ _______ ____________Phi . 27266 . 00095 *1Cr amer ' s V . 19280 . 00095 *1Cont i ngency Coef f i ci ent . 26306 . 00095 *1*1 Pear son chi _squar e pr obabi l i t yNumber of Mi ssi ng Obser vat i ons: 0
Interpretacin:
El ndice de Pearson obtenido (18,58586) es estadsticamente significativo
(p=0,00095) por lo que podemos decir que hay dependencia entre nivel de estudios y
autoestima. El valor esperado mnimo es 9,6 (casilla 3,1) por lo que no hay ninguno que sea
menor que 5. No hay correccin de continuidad al estar trabajando con una tabla 3x3.
Igualmente V y no coinciden por el mismo motivo.
El grado de la asociacin tambin es significativo y nos viene determinado por C(0,26306), por (0,27266) y por V (0,19280). Dada la estructura de la tabla, a mayor nivel
de estudios mayor autoestima y viceversa.
Sin embargo, esta relacin se puede matizar por el anlisis de los residuos
estandarizados del SPSS. En el ejemplo concreto, vemos que las diferencias entre valores
observados y esperados es positiva y significativa (>1.96) en los Lic. con autoestima alta .
Es igualmente significativa, aunque negativa (valores observados menores que los
esperados), en los Lic. con autoestima baja y media. En el caso de los Bach. aparecen
-
8/13/2019 Relacin entre las Variables
40/40
Estadstica elemental L. SALVADOR
residuos significativos en las categoras baja y alta (negativo) y con un sentido inverso al
caso de los Lic. Finalmente, en el caso de los que tienen estudios Prim. no aparecen
diferencias significativas.
De todo este anlisis se podra concluir que a mayor nivel de estudios mayor nivel de
autoestima (concretamente en el caso de los que tienen el nivel ms elevado), invirtindose
la tendencia en los que tienen un nivel de Bach. yno siendo estadsticamente significativa en
los que tienen menor nivel de estudios.
Si quisiramos aproximarnos a la interpretacin de C como una r de Pearson,
hallaramos el cociente C/Cmx
como un equivalente de r2por lo quemxC
Cr =2 o
mxC
Cr=
En el ejemplo utilizado el resultado sera el siguiente
3222,0816,0
26306,02 ==r 5676,0816,0
26306,0==r
por lo que estaramos hablando de un 32,22% de grado de asociacin entre las variables.