PROFESOR: RONNY GODOY GÁLVEZ 1
GUÍA DE APOYO AL APRENDIZAJE N°4
ESTADÍSTICA BIVARIADA INTRODUCCIÓN
En el campo de la estadística hay muchos problemas que requieren un análisis combinado de dos variables. En administración, en educación y en muchas otras materias, a menudo es necesario contestar preguntas como las siguientes: “¿Están relacionadas estas dos variables? En caso afirmativo, ¿de qué manera? ¿Existe una correlación entre las variables?” Las relaciones bajo análisis no son de causa efecto, sino de las de tipo matemático que permiten predecir el comportamiento de una variable con base en el conocimiento que se tiene sobre la otra. Considere los siguientes ejemplos:
– A medida que una persona crece, por lo general aumenta de peso. Alguien podría preguntar:”¿Existe alguna relación entre la estatura y el peso?”
– Los médicos que se dedican a la investigación prueban fármacos nuevos (y obsoletos también) al prescribir dosis diferentes y observar las respuestas de sus pacientes. Una pregunta que podría plantearse es: “¿La dosis del medicamento prescrito determina la cantidad de tiempo de recuperación que necesita el paciente?”
– La orientadora vocacional de una universidad desea predecir el éxito académico que tendrán en la universidad los egresados de su escuela. En casos como éste, el valor predicho (nota promedio de las calificaciones en la universidad) depende de muchos rasgos de los estudios: 1° cuán aceptable fue su desempeño en la universidad, 2° su inteligencia y habilidades, 3° su deseo por tener éxito en la universidad, etc.
Para contestar las preguntas anteriores, se requiere del análisis de datos bivariados o de dos variables, es decir, .dada cierta población y dos variables asociadas a esa población, se requiere estudiar las posibles relaciones que existen entre ellas. Ejemplo: La siguiente información representa una tabla de doble entrada, con variables;
=X Edad. =Y Sueldo (en miles de $).
EDAD
SUELDO (en miles de $)
100 – 200
200 – 300
300 – 400
400 – 500
in
iMC
20 – 30
6
12
3
8
29
25
30 – 40
2
7
4
10
23
35
40 – 50
0
1
2
5
8
45
jn
8
20
9
23
60=N
jMC
150
250
350
450
PROFESOR: RONNY GODOY GÁLVEZ 2
Observación: Las frecuencias para cada una de las variables en forma independiente in y
jn , se llaman “Frecuencias Marginales”.
Las frecuencias marginales, así como las marcas de clase (para variables continuas), se puede escribir de la siguiente manera:
xi fnxiableladeinalMFrecuencia =: var arg
xi MCMCxiableladeClasedeMarca =: var
yj fnyiableladeinalMFrecuencia =: var arg
yj MCMCyiableladeClasedeMarca =: var
Interpretación de la tabla de doble entrada. Interprete:
11n ,
23n ,
1•n ,
•3n y N .
11n = 6 personas con edad entre 20 y 30 años cuyo sueldo está entre $100.000 y $200.000.
23n = 4 personas con edad entre 30 y 40 años cuyo sueldo está entre $300.000 y $400.000.
1•n = 8 personas cuyo sueldo está entre $100.000 y $200.000.
•3n = 8 personas con edad entre 40 y 50 años.
N = 60 personas (la tabla de doble entrada tiene una población de 60 personas). PROMEDIOS DE LAS VARIABLES.
N
nMCX ii� ⋅
= 5,3160890.1
6084523352925 ==⋅+⋅+⋅=X
Interpretación: la edad promedio de las personas es de 31,5 años.
N
nMCY jj� ⋅
= 333,32860700.19
60234509350202508150 ==⋅+⋅+⋅+⋅=Y
Interpretación: el sueldo promedio de las personas es de $328.333.
PROFESOR: RONNY GODOY GÁLVEZ 3
PROMEDIOS CONDICIONALES. .
Es el promedio de una de las variables, sólo para aquellos elementos de la población que cumplan cierta condición para la otra variable. Podemos estar interesados en determinar el promedio de una de las variables, sólo para aquellos elementos de la población que cumplen cierta condición para la otra variable. Consideremos el ejemplo anterior, para calcular los siguientes promedios condicionales:
a) La edad promedio de las personas que tienen un sueldo igual o mayor a $200.000.
iMC
in
iiMC n⋅
25
23
575
35
21
735
45
8
360
TOTAL
52
1.670
1,3252670.1 ==cX
Interpretación: la edad promedio de las personas que tienen un sueldo igual o mayor a
$200.000 es de 32,1 años.
b) El sueldo promedio de las personas que tienen entre 30 y 40 años.
jMC
jn
jjMC n⋅
150
2
300
250
7
1.750
350
4
1.400
450
10
4.500
TOTAL
23
7.950
652,34523950.7 ==cY
Interpretación: las personas que tienen entre 30 y 40 años de edad tienen un sueldo
promedio de $345.652.
PROFESOR: RONNY GODOY GÁLVEZ 4
c) El sueldo promedio de las personas que tienen menos de 40 años.
jMC
jn
jjMC n⋅
150
8
1.200
250
19
4.750
350
7
2.450
450
18
8.100
TOTAL
52
16.500
308,31752500.16 ==cY
Interpretación: las personas que tienen menos de 40 años de edad tienen un sueldo promedio de $317.308.
PROBLEMA PROPUESTO La siguiente tabla muestra las utilidades (en millones de $) y el número de trabajadores de un grupo de empresas de la región metropolitana.
Consideremos para el problema:
=X Utilidades (en millones de $). =Y N° de trabajadores.
UTILIDADES
(en millones de $)
N° DE TRABAJADORES
0 – 100
100 – 200
200 – 300
0 – 6
10
1
5
6 – 12
0
10
0
12 – 18
4
4
1
18 – 24
1
3
12
a) Determine el número de empresas estudiadas.
b) ¿Cuál es promedio de trabajadores del grupo de empresas?
c) ¿Cuál es la utilidad promedio de las empresas?
d) ¿Cuál es el promedio de trabajadores de las empresas con utilidades menores de $12.000.000?
e) ¿Cuál es la utilidad promedio de las empresas que tienen más de 100 trabajadores?
PROFESOR: RONNY GODOY GÁLVEZ 5
Soluciones:
a) 51 empresas.
b) El promedio de trabajadores es de aprox. 156 trabajadores.
c) La utilidad promedio es de aprox. $11.941.118.
d) El número de trabajadores promedio que tienen las empresas con utilidades menores de $12.000.000 es de aprox. 131 trabajadores.
e) Las empresas que tienen más de 100 trabajadores tienen utilidades promedio de
aprox. $13.833.333.
MEDIDAS DE CORRELACIÓN
La Correlación es una técnica estadística usada para determinar si existe una relación entre dos o más variables. Algunas medidas de Correlación que estudiaremos, son: 1° Covarianza ( xyS )
La covarianza entre dos variables es una medida estadística para valorar la relación entre estas variables.
Fórmula: YXXYSxy ⋅−= ; Donde N
nMCMCXY ijji ⋅⋅
=�
Observaciones:
•••• La covarianza pertenece a los números reales. •••• Si �> 0xyS La relación entre la variable x e y es DIRECTA, es decir, si una de
las variables aumenta la otra también o si una de ellas disminuye la otra también. •••• Si �< 0xyS La relación entre la variable x e y es INVERSA, es decir, si una de
las variables aumenta la otra disminuye o si una de ellas disminuye la otra aumenta.
•••• Si �= 0xyS No existe relación entre la variable x e y.
PROFESOR: RONNY GODOY GÁLVEZ 6
Ejemplo: Una empresa desea estudiar la relación entre la edad de sus trabajadores y los
días no trabajados.
Consideremos para el problema:
=X Edad. =Y N° de días no trabajados.
EDAD
N° DÍAS NO TRABAJADORES
0 – 6
6 – 12
12 – 18
in
iMC
20 – 25
0 / 0
4 / 810
1 / 337,5
5
22,5
25 – 30
12 / 990
6 / 1.485
0 / 0
18
27,5
30 – 40
3 / 315
4 / 1.260
6 / 3.150
13
35
40 – 50
1 / 135
2 / 810
8 / 5.400
11
45
jn
16
16
15
47=N
jMC
3
9
15
a) ¿Cuál es la edad promedio de trabajadores con menos de 12 días no trabajados?
b) Calcule e interprete la covarianza ( xyS ).
c) ¿Qué es más variable, la edad o los días no trabajados? SOLUCIÓN:
a) ¿Cuál es la edad promedio de trabajadores con menos de 12 días no trabajados?
iMC
in
iiMC n⋅
22,5
4
90
27,5
18
495
35
7
245
45
3
135
TOTAL
32
965
156,3032965 ==cX
Interpretación: la edad promedio de los trabajadores con menos de 12 días trabajados es de aprox. 30 años.
7
b) Calcule e interprete la covarianza ( xyS ).
N
nMCX ii� ⋅
= � 138,3347
5,557.147
11451335185,2755,22 ==⋅+⋅+⋅+⋅=X
N
nMCY jj� ⋅
= � 872,847417
471515169163 ==⋅+⋅+⋅=Y
N
nMCMCXY ijji ⋅⋅
=�
� 606,31547
5,692.14 ==XY
Por lo tanto la covarianza, es: YXXYSxy ⋅−= � 872,8138,33606,315 ⋅−=xyS
06,21 >=xyS
Interpretación: la relación entre la edad y los días no trabajados de los trabajadores de la empresa es directa, es decir, a mayor edad, mayor número de días no trabajados.
c) ¿Qué es más variable, la edad o los días no trabajados?
iMC
in
iiMC n⋅
ii nMC ⋅2
22,5
5
112,5
2.531,25
27,5
18
495
13.612,5
35
13
455
15.925
45
11
495
22.275
TOTAL
47
1.557,5
54.343,75
103,5847
5,557.147
75,343.54 2222 =−=
⋅−
⋅= �
�
���
���
�
�
��
�
���N
nMC
N
nMCS iiii
x
622,7103,582 === xx SS � ( ) %23%100138,33
622,7%100 =⋅=⋅=
XxS
XCV
8
jMC
jn
jjMC n⋅
jj nMC ⋅2
3
16
48
144
9
16
144
1.296
15
15
225
3.375
TOTAL
47
417
4.815
728,2347
41747815.4 2
222 =−=
⋅−
⋅= �
�
���
�
���
�
�
���
�
���N
nMC
N
nMCS jjjj
y
871,4728,232 === yy SS � ( ) %9,54%100872,8
871,4%100 =⋅=⋅=
YyS
YCV
Interpretación: es más variable el número de días no trabajados que la edad de los
trabajadores, debido a que tiene un mayor coeficiente de variación. 2° Coeficiente de Correlación ( xyr )
En una distribución bidimensional (bivariada) puede ocurrir que las dos variables tengan algún tipo de relación entre si. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación entre ambas variables: mientras más alto sea el alumno, mayor será su peso. El Coeficiente de Correlación mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir, si representamos en un gráfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta). No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación de las variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado.
Fórmula: yx
xyxy SS
Sr
⋅=
Observaciones:
•••• El coeficiente de correlación pertenece al intervalo: 11 ≤≤− xyr .
9
•••• Si �≈ 1XY
r La relación entre la variable x e y es LINEAL CON PENDIENTE
POSITIVA, es decir, la nube de puntos puede aproximarse por una línea recta con pendiente positiva (una recta creciente). Por ejemplo, altura y peso: los alumnos más altos suelen pesar más.
•••• Si �−≈ 1
XYr La relación entre la variable x e y es LINEAL CON PENDIENTE
NEGATIVA, es decir, la nube de puntos puede aproximarse por una línea recta con pendiente negativa (una recta decreciente). Por ejemplo, peso y velocidad: los alumnos más gordos suelen correr menos.
•••• Si �≈ 0
XYr No existe relación lineal entre la variable x e y. Aunque podría
existir otro tipo de correlación (parabólica, exponencial, etc.).
Las gráficas de los casos mencionados anteriormente se verán en clases. Ejemplo: La siguiente tabla muestra el número de trabajadores y las utilidades (en millones
de $) de un grupo de 56 empresas.
Consideremos para el problema:
=X N° de trabajadores =Y Utilidades (en millones de $)
N° DE TRABAJADORES
UTILIDADES (en millones de $)
1 – 4
4 – 8
8 – 12
in
iMC
0 – 100
12 / 1.500
6 / 1.800
0 / 0
18
50
100 – 200
6 / 2.250
3 / 2.700
1 / 1.500
10
150
200 – 300
4 / 2.500
5 / 7.500
3 / 7.500
12
250
300 – 400
0 / 0
6 / 12.600
10 / 35.000
16
350
jn
22
20
14
56=N
jMC
2,5
6
10
Calcule e interprete el coeficiente de correlación ( xyr ).
10
SOLUCIÓN:
N
nMCX ii� ⋅
= � 428,19656000.11
561635012250101501850 ==⋅+⋅+⋅+⋅=X
N
nMCY jj� ⋅
= � 625,556315
561410206225,2 ==⋅+⋅+⋅=Y
N
nMCMCXY ijji ⋅⋅
=�
� 607,336.156850.74 ==XY
Por lo tanto la covarianza, es: YXXYSxy ⋅−= � 625,5428,196607,336.1 ⋅−=xyS
6995,231=xyS
(la covarianza indica que existe relación directa entre el n° de trabajadores y las utilidades de las empresas, es decir, a mayor n° de trabajadores, mayor utilidades)
102,630.1456000.11
56000.980.2 222
2 =−=⋅
−⋅
= ��
���
���
�
�
��
�
���N
nMC
N
nMCS iiii
x
955,120102,630.142 === xx SS
672,856315
565,257.2 2
222 =−=
⋅−
⋅= �
�
���
�
���
�
�
���
�
���N
nMC
N
nMCS jjjj
y
945,2672,82 === yy SS
Finalmente el coeficiente de correlación, es:
yx
xyxy SS
Sr
⋅= � 65,0
945,2955,1206995,231 =⋅
=xyr
Interpretación: el coeficiente de correlación nos indica que existe relación lineal entre el n° de trabajadores y las utilidades, con pendiente positiva (la proyección es regular, como veremos en la siguiente guía que explica el modelo de regresión lineal).
Top Related