Tarea 1 correlación y regresión lineal

69
ESTADISTICA DESCRIPTIVA UNIVERSIDAD POLITÉCNICA ESTATAL DEL CARCHI ESCUELA DE COMERCIO EXTERIOR Y NEGOCIACIÓN INTERNACIONAL Tulcán Ecuador 2012 ´ MCS : JORGE POZO CORRELACIÓN Y REGRESIÓN LINEAL MARÍA GORDÓN

Transcript of Tarea 1 correlación y regresión lineal

Page 1: Tarea 1 correlación y regresión lineal

ESTADISTICA DESCRIPTIVA

UNIVERSIDAD POLITÉCNICA ESTATAL DEL CARCHI

ESCUELA DE COMERCIO EXTERIOR Y NEGOCIACIÓN

INTERNACIONAL

Tulcán – Ecuador

2012

´

MCS : JORGE POZO

CORRELACIÓN Y REGRESIÓN LINEAL

MARÍA GORDÓN

Page 2: Tarea 1 correlación y regresión lineal

TEMA: Desarrollo de ejercicios de correlación y regresión lineal

Objetivos

Objetivo general

Desarrollar los ejercicios de correlación y regresión

Objetivos específicos

Interpretar los datos estadísticos

Realizar las gráficas relacionando dos variables

Analizar los resultados obtenidos en los coeficientes

JUSTIFICACIÓN

El presente trabajo tiene como finalidad la realización y el análisis de

ejercicios relacionados al comercio exterior aplicando los casos de

correlación y regresión lineal con el fin de que los estudiantes desarrollen las

capacidades de aprendizaje y aplicación en los problemas del contexto

nacional

MARCO TEÓRICO

CORRELACIÓN

TÉCNICAS DE CORRELACIÓN

En los capítulos anteriores, ustedes estudiaron las distribuciones de una sola

variable. A continuación abordaremos el estudio de dos variables y no

solamente de una. Particularmente estudiaremos qué sentido tiene afirmar

Page 3: Tarea 1 correlación y regresión lineal

que dos variables están relacionadas linealmente entre sí y cómo podemos

medir esta relación lineal.

RELACIONES LINEALES ENTRE VARIABLES

Supongamos que disponemos de dos pruebas una de ellas una prueba de

habilidad mental y la otra una prueba de ingreso a la Universidad.

Seleccionemos cinco estudiantes y presentamos en la tabla Nº4.1.1, los

puntajes obtenidos en estas dos pruebas.

TABLA Nº4.1.1

ESTUDIANTES

X PRUEBA

DE HABILIDAD

MENTAL

Y EXAMEN DE ADMISIÓN

María 18 82

Olga 15 68

Susana 12 60

Aldo 9 32

Juan 3 18

Observamos las cinco parejas de puntajes de la tabla Nº4.1.1 ¿podemos

afirmar que la prueba de habilidad mental se puede usar para pronosticar el

puntaje de examen de admisión?. La tabla nos dice que si podemos hacer

tal suposición ya que los estudiantes con puntajes altos en la prueba de

habilidad mental tienen también un puntaje alto en el examen de admisión y

los estudiantes con puntajes bajos en la prueba de habilidad mental, tienen

puntajes bajos en el examen de admisión. En circunstancias como la

presente (cuando los puntajes altos de una variable están relacionados con

los puntajes altos de la otra variable y los puntajes bajos de una variable

están relacionados con los puntajes bajos de la otra variable), afirmamos

que hay una relación lineal positiva entre las dos variables, entonces

podemos definir una relación lineal positiva entre ese conjunto de pares de

valores X y Y, tal como se muestra en la tabla Nº4.1.1.

Page 4: Tarea 1 correlación y regresión lineal

Supongamos que en lugar de los resultados de la tabla Nº 4.1.1, hubiéramos

obtenido los puntajes que se muestran en la tabla Nº 4.1.2 ¿Podríamos

afirmar que en esta situación los puntajes de la prueba de habilidad mental

pueden usarse para pronosticar los puntajes altos en el test de habilidad

mental aparecen con puntajes bajos en el examen de admisión y los sujetos

con puntajes altos en el examen de admisión, entonces podemos definir una

relación lineal negativa entre un conjunto de pares de valores X y Y (tal

como en la tabla Nº4.1.2), es decir, los puntajes altos de X están apareados

con los puntajes bajos de Y y los puntajes bajos de X están apareados con

los puntajes altos de Y.

TABLA Nº4.1.2

X Y

ESTUDIANTES

PRUEBA DE

HABILIDAD MENTAL

EXAMEN DE ADMISIÓN

María 18 18

Olga 15 32

Susana 12 60

Aldo 9 68

Juan 3 82

TABLA Nº4.1.3

X Y

ESTUDIANTES

PRUEBA DE

HABILIDAD MENTAL

EXAMEN DE ADMISIÓN

María 18 18

Olga 15 82

Susana 12 68

Aldo 9 60

Page 5: Tarea 1 correlación y regresión lineal

Juan 3 32

Examinemos ahora la tabla Nº4.1.3. en este caso ya no podemos afirmar

que los puntajes de la prueba de habilidad mental sirvan para pronosticar los

puntajes del examen de admisión, ya que unos puntajes altos del test de

habilidad mental están aparejados con otros puntajes bajos del examen de

admisión y algunos puntajes bajos del test de habilidad mental están

apareados con otros puntajes altos del examen de admisión, entonces, en

este caso, decimos que no existe una relación lineal entre las variables X y

Y.

DIAGRAMA DE DISPERSIÓN

En las situaciones que se presentan en la vida real no tenemos solamente

cinco parejas de valores para ambas variables, sino muchísimas parejas.

Otra forma alternativa de ver si existe o no relación lineal entre dos variables

sería hacer una gráfica de los valores X y Y en un sistema de coordenadas

rectangulares, este tipo de gráfica es conocido con el nombre de diagrama

de dispersión, gráfico de dispersión o nube de puntos. Dibujemos el

diagrama que corresponde a la tabla Nº4.1.1. lo haremos haciendo

corresponder a cada valor de la variable independiente X, un valor de la

variable dependiente Y, es decir, para la alumna Susana haremos

corresponder su puntaje en la prueba de habilidad mental (12) con su

puntaje de la prueba de admisión (60); al alumno Juan le hacemos

corresponder su puntaje del test de habilidad mental (3) con su puntaje del

examen de admisión (18). Luego ubicaremos los cinco pares de puntajes en

el sistema de ejes rectangulares y obtendremos los gráficos Nº4.1.1 y

Nº4.1.2.

Observaremos en el gráfico Nº4.1.1, que tabla Nº4.1.1, es descrita por el

diagrama de dispersión. Vemos en este gráfico que los cinco puntos dan la

sensación de ascender en línea recta de izquierda a derecha. Esto es

Page 6: Tarea 1 correlación y regresión lineal

característico en datos en los que existe una relación lineal positiva. Aunque

estos cinco datos no configuren una línea recta en forma perfecta, se puede

trazar una línea recta que describa en estos puntos en forma bastante

aproximada, conforme se ve en el gráfico Nº4.1.2 y por esto decimos que la

relación es lineal.

Si ocurre que todos los puntos de la gráfica de dispersión están incluidos en

una sola línea en forma exacta afirmamos que la relación lineal es perfecta.

El grado en que se separan los puntos de una sola línea recta nos da el

grado en que la relación lineal no es perfecta. Así cuando menos puntos se

encuentran en una sola línea decimos que la relación lineal entre las dos

variables es menos fuerte y cuando más puntos queden incluidos en una

línea recta afirmaremos que la relación lineal es más fuerte.

GRÁFICO Nº4.1.1.

GRÁFICO Nº4.1.2

Page 7: Tarea 1 correlación y regresión lineal

Usando los datos de la tabla Nº4.1.2 y utilizando la misma forma de razonar

empleada hasta ahora podemos construir el correspondiente gráfico de

dispersión, tal como se muestra en el gráfico Nº4.1.3.

Podemos observar en el gráfico Nº4.1.4 que la nube de puntos de la gráfica

puede delinearse bien por una línea recta, lo que nos indica que hay una

relación lineal entre las dos variables X y Y. vemos también que la línea

desciende de izquierda a derecha (tienen pendiente negativa) por lo que

decimos que la relación lineal entre las dos variables es negativa.

Si tenemos en cuenta la tabla Nº4.1.3 podemos obtener una figura como se

muestra en la gráfica Nº4.1.5. Notamos, en esta situación, que resultará

inútil cualquier línea recta que trate describir adecuadamente este diagrama

de dispersión.

GRÁFICO Nº4.1.3

Page 8: Tarea 1 correlación y regresión lineal

GRÁFICO Nº4.1.4

GRÁFICO Nº4.1.5

Page 9: Tarea 1 correlación y regresión lineal

COEFICIENTE DE CORRELACIÓN RECTILINEA DE PEARSON

Con ayuda de las gráficas nos podemos formar una idea si la nube de

puntos, o diagrama de dispersión, representa una relación lineal y si esta

relación lineal es positiva o negativa, pero con la sola observación de la

gráfica no podemos cuantificar la fuerza de la relación, lo que si

conseguiremos haciendo uso del coeficiente r de Pearson.

El coeficiente de correlación r de Pearson, forma valores comprendidos entre

-1 y +1 pasando por 0. El número -1 corresponde a una correlación negativa

perfecta (los puntos del diagrama de dispersión deben encontrarse formando

perfectamente una línea recta). El coeficiente de correlación r=0 se obtiene

cuando no existe ninguna correlación entre las variables. Los valores

negativos mayores que -1 indican una correlación negativa y los valores

positivos menores que 1 indican una correlación positiva. Referente a la

magnitud de r podemos decir que independientemente del signo, cuando el

valor absoluto de r esté más cerca de uno, mayor es la fuerza de la

correlación, as así que -0.20 y +0.20 son iguales en fuerza (ambos son dos

valores fuertes).

Page 10: Tarea 1 correlación y regresión lineal

CÁLCULO DEL COEFICIENTE r DE PEARSON UTILIZANDO UNA

MÁQUINA CALCULADORA CUANDO LOS DATOS NO SON MUY

NUMEROSOS

Dadas dos variables X y Y con sus respectivos valores. Tabla Nº4.1.4,

podemos calcular el coeficiente r de Pearson con una máquina calculadora

mediana la siguiente fórmula.

TABLA AUXILIAR Nº4.1.4.

(1)

x

(2)

Y

(3)

x2

(4)

(5)

XY

18

15

12

9

3

∑x = 57

82

68

60

32

18

∑y= 260

324

225

144

81

9

∑x² = 783

6724

4624

3600

1024

324

∑y² = 16296

1476

1020

7200

288

54

∑xy = 3558

Con los datos de la tabla Nº4.1.1, se ha elaborado la Tabla Auxiliar Nº4.1.4.

En las columnas (1) y (2) se han escrito los valores de X y Y. en la columna

(3), se han elevado al cuadrado los valores de X. en la columna (4) se han

elevado al cuadrado los valores de Y. en la columna (5) se ha efectuado el

producto de cada pareja de valores X y Y. aplicando los datos en la fórmula

4.1.1, se tiene:

Page 11: Tarea 1 correlación y regresión lineal

INTERPRETACIONES DE UN COEFICIENTE DE CORRELACIÓN

¿Qué tan elevado es un coeficiente de correlación dado?. Todo coeficiente

de correlación que no sea cero indica cierto grado de relación entre dos

variables. Pero es necesario examinar más esta materia, porque el grado de

intensidad de relación se puede considerar desde varios puntos de vista. No

se puede decir que un r de 0.50 indique una relación dos veces más fuerte

que la indicada por r de 0.25. ni se puede decir tampoco que un aumento en

la correlación de r=0.40 a r=0.60 equivalga a un aumento de r=0.70 a r=0.90.

es de observar que una correlación de -0.60 indica una relación tan estrecha

como una correlación de +0.60, la relación difiere en la dirección.

Siempre que esté establecida fuera de toda duda razonable una relación

entre dos variables, el que el coeficiente de correlación sea pequeño puede

significar únicamente que la situación medida está contaminada por algún

factor o factores no controlados. Es fácil concebir una situación experimental

en la cual, si se han mantenido constantes todos los factores que no sean

pertinentes, el r podría haber sido 1 en lugar de 0.20. por ejemplo:

generalmente la correlación entre la puntuación de aptitud y el

aprovechamiento académico es 0.50 puesto que ambos se miden en una

población cuyo aprovechamiento académico también es influenciable por el

esfuerzo, las actitudes, las peculiaridades de calificación de los profesores,

etc. Si se mantuvieran constantes todos los demás factores determinantes

Page 12: Tarea 1 correlación y regresión lineal

del aprovechamiento y se midieran exactamente la aptitud y las notas, el r

sería 1 en vez de 0.50.

Una conclusión práctica a la correlación es que ésta es siempre relativa a la

situación dentro de la cual se obtiene y su magnitud no representa ningún

hecho natural absoluto. El coeficiente de correlación es siempre algo

puramente relativo a las circunstancias en que se ha obtenido y se ha de

interpretar a la luz de esas circunstancias y sólo muy rara vez en algún

sentido absoluto.

Además podemos agregar que la interpretación de un coeficiente de

correlación como medida del grado de relación lineal entre dos variables, es

una interpretación como medida del grado de relación lineal entre dos

variables, es una interpretación matemática pura y está completamente

desprovista de implicaciones de causa y efecto. El hecho de que dos

variables tiendan a aumentar o disminuir al mismo tiempo no implica que

obligadamente una tenga algún efecto directo o indirecto sobre la otra.

A continuación calcularemos con la fórmula Nº4.1.1, antes indicada

coeficiente de Pearson de la relación presentada en la tabla Nº4.1.2

CUADRO AUXILIAR 4.1.5

(1) x

(2) Y

(3) x2

(4) y²

(5) XY

18 18 324 324 324

15 32 225 1024 480

12 60 144 3600 720

9 68 81 4624 612

3 82 9 6724 246

∑x = 57 ∑y= 260 ∑x² = 783 ∑y² = 16296 ∑xy = 2382

Page 13: Tarea 1 correlación y regresión lineal

Vemos que la correlación es fuerte y negativa.

Ahora calculemos con la misma fórmula de Pearson Nº4.1.1, el Coeficiente

de Correlación lineal con los datos de la tabla Nº4.1.3.

CUADRO AUXILIAR 4.1.6

(1) x

(2) Y

(3) x2

(4) y²

(5) XY

18 18 324 324 324

15 32 225 6724 1230

12 60 144 4624 816

9 68 81 3600 542

3 82 9 1024 96

∑x = 57 ∑y= 260 ∑x² = 783 ∑y² = 16296 ∑xy = 3006

Page 14: Tarea 1 correlación y regresión lineal

La correlación es muy débil y positiva.

CORRELACIÓN ENTRE DOS CONJUNTOS DE DATOS AGRUPADOS EN

CLASES

El presente tema nos conduce a calcular el coeficiente de correlación r, que

nos proporciona información de la fuerza de la relación que existe entre dos

conjuntos de datos que se encuentran agrupados, cada uno de ellos

formando por separados una distribución de frecuencias, mejor dicho

teniendo por separado sus intervalos de clase con sus respectivas

frecuencias.

Para realizar una exposición del tema en forma más entendible,

presentamos el ejemplo del Cuadro Nº 4.1.7.

Ejemplo:

Calcular el grado de correlación entre las puntaciones obtenidas en

inventario de hábitos de estudio y los puntajes obtenidos en un examen de

Matemática, aplicados a un total de 134 alumnos de un colegio de la

localidad.

Page 15: Tarea 1 correlación y regresión lineal

CUADRO Nº 4.1.7

X Hábitos de estudio

Y Matemática

20 30

30 40

40 50

50 60

Total

70 80 3 2 2 7

60 70 1 0 4 5 10

50 60 2 6 16 3 27

40 50 4 14 19 10 47

30 40 7 15 6 0 28

20 30 8 2 0 1 11

10 20 1 1 2 4

Total 23 40 48 23 134

Podemos notar que el problema no es tan simple, como el caso anterior,

dado que ahora los datos se han clasificado en una tabla de doble entrada

Nº 4.1.7. Este cuadro muestra, en la primera columna del lado izquierdo los

intervalos de clase de la variable Y, los que cubren todos los posibles datos

acerca de las puntuaciones alcanzadas por los estudiantes en la prueba de

Matemática. Nótese que los intervalos crecen de abajo hacia arriba. En la

fila superior se presentan los intervalos de clase todos los 134 posibles datos

acerca de los puntajes obtenidos por los estudiantes en la variable hábitos

de estudios representados por la letra X.

Dentro del Cuadro Nº 4.1.7 en los casilleros interiores o celdas de la tabla,

se encuentran las frecuencias de celdas que corresponden a puntajes

que pertenecen tanto a un intervalo de la variable Y como a un intervalo de

la variable X.

En la fila interior del Cuadro se presentan los totales de los puntajes de la

variable X, hábitos de estudio. Esos totales se llaman frecuencias marginales

de la variable X y se representan por .

Page 16: Tarea 1 correlación y regresión lineal

En la última columna de la derecha se encuentran los totales de los puntajes

de la variable rendimiento en matemática. Estos totales se denominan

frecuencias marginales de la variable Y.

Cuando los datos se presentan tal como el presente caso, formando tablas

de doble entrada, es conveniente usar el método clave que expondremos a

continuación porque con este procedimiento se evita manejar grandes

números, como sería el caso si se emplearán las fórmulas para trabajar con

la calculadora de bolsillo.

La fórmula que utilizaremos es la siguiente:

Para obtener los datos que deben aplicarse en la fórmula Nº 4.1.2., vamos a

construir el cuadro auxiliar Nº 4.1.8, al mismo tiempo que se explica el

significado de los símbolos de esa fórmula.

Lo primero que hacemos es reemplazar los intervalos horizontales y

verticales por sus respectivas marcas de clase; a continuación

adicionaremos al Cuadro Nº 4.1.7, cinco columnas por el lado derecho;

cuyos encabezamientos son: para la primera para la segunda,

para la tercera, para la cuarta y para la quinta columna.

Por la parte inferior del cuadro le adicionamos cuatro filas que se nombran:

para la primera para la segunda fila que está debajo de la anterior,

para la tercera fila y por último, para la cuarta fila que está debajo de

todas; de esta manera se va elaborando el Cuadro Auxiliar Nº 4.1.8.

1) Para determinar las frecuencias marginales que se deben colocar en la

columna para la primera para la segunda, para la tercera,

sumamos las frecuencias de las celdas que están en la misma fila de la

marca de clase 75, obtenemos: 3+2+2=7, número que se escribe en el

Page 17: Tarea 1 correlación y regresión lineal

primer casillero o celda de la columna para la primera para la

segunda, para la tercera, En la fila de la marca de clase 65,

sumamos 1+4+5=10, número que se escribe debajo del 7.

Para la fila de la marca de clase 55, tenemos: 2+6+16+3=27.

Para la fila de la marca de clase 45, se tiene: 4+14+19+10=47.

En igual forma: 7+15+6=28.

Lo mismo: 8+2+1=11

Y en la última fila: 1+1+2=4

A continuación sumamos estas frecuencias marginales de la variable Y:

7+10+27+47+28+11+4=134 es el total general.

2) Ahora a determinar las frecuencias marginales de la variable X: En

columna encabezada con la marca de clase 25 sumemos verticalmente

las frecuencias: 1+2+4+7+8+1=23.

En la columna encabezada con 35, tenemos: 3+6+14+15+2=40

En la siguiente: 2+4+16+19+6+1=48

En la última: 2+5+3+10+1+2=23

3) Centremos nuestra atención en la columna encabezada para la

primera para la segunda, para la tercera, este signo significa

desviación unitaria, y procedemos en la misma forma que en las Tablas

Nº 2.1.2 y Nº 2.1.3 (b). recuerden que las desviaciones unitarias

positivas: +1, +2, y +3 corresponden a los intervalos mayores y por el

contrario las desviaciones unitarias negativas: -1, -2 y -3 corresponden a

los intervalos menores. Como origen de trabajo se tomó la marca de

clase 45 y por lo tanto su desviación unitaria es cero.

4) Luego vamos a determinar las desviaciones unitarias horizontales de la

variable X. el origen de trabajo es la marca de clase 45 que se halla en la

fila superior del cuadro, por esa razón, escribimos cero debajo de la

frecuencia marginal 48. Las desviaciones unitarias negativas: -1 y -2 se

escriben a la izquierda cero, porque se corresponden con los intervalos

de clase que tienen menores marcas de clase y que están a la izquierda

Page 18: Tarea 1 correlación y regresión lineal

de 45. La desviación unitaria positiva, se corresponde con el intervalo de

mayor marca de clase, 55 (en parte superior del Cuadro Nº 4.1.8.)

5) A continuación vamos a determinar los valores que deben colocarse en la

columna encabezada ; este símbolo indica que se debe multiplicar

cada valor de por su correspondiente valor de , así: 7(+3)=21;

10(+2)=20; 27(+1)=27; 47(0)=0; 28(-1)=-28; 11(-2)=-22 y 4(-3)=-12.

Sumando algebraicamente, tenemos: 21+20+27=68 los positivos: y

(-28)+ (-22)+ (-12)=-62 los negativos.

Por último: 68-62=6 total, que se coloca en la parte inferior de la columna

Para obtener los valores de la cuarta columna encabezada debemos

tener en cuenta que ( , por lo tanto basta multiplicar cada

valor de la segunda columna por su correspondiente valor de la tercera

columna así se obtiene el respectivo valor de la cuarta columna. En efecto:

(+3)(21)=63; (+2)(20)=40; (+1)(27)=27; 0*0=0; (-1)(-28)=28; (-2)(-22)=44 y (-

3)(-12)=36

La suma: 63+40+27+28+44+36=238

Ahora nos fijamos horizontalmente en la tercera fila. Tenemos que

( = por consiguiente basta multiplicar verticalmente un valor de la

primera fila por su correspondiente valor de la segunda dila para obtener el

respectivo valor de la tercera fila.

(23)(-2)=-46; (40)(-1)=-40; (48)(0)=0 y (23)(+1)=23

Sumando horizontalmente:

(-46)+ (-40)+ (23)=-86+23=-63

Page 19: Tarea 1 correlación y regresión lineal

Vamos por la cuarta fila; vemos que . Luego basta

multiplicar cada elemento de la segunda fila por su correspondiente

elemento de la tercera fila para obtener el respectivo elemento de la cuarta

fila así:

(-2)(46)=92; (-1) (-40)=40; 0*0=0 y (+1) (23)=23

Para obtener los valores de la quinta columna observamos que

hay tres factores; el 1º es la frecuencia de la celda o casillero que se está

considerando, el segundo factor es la desviación unitaria , el tercer factor

es la desviación unitaria . Por tanto el procedimiento será el siguiente:

Tomemos el número 3 que es la frecuencia de la celda determinada por el

cruce de los intervalos que tienen la marcha de clase 75 horizontalmente y

35 verticalmente.

Bajemos la vista del número 3 hacia donde se halla el respectivo valor (-1)

de la desviación unitaria (ver la línea punteada).

Para indicar el tercer factor corremos la vista del número 3 hacia su derecha

hasta llegar a la columna de las desviaciones unitarias y ubicamos el

número +3 (ver la línea punteada) formemos el producto de estos tres

números: (3) (-1) (+3)=-9. Este número -9 encerrado en un semicírculo lo

escribimos en la celda elegida.

En la misma fila tomamos la celda siguiente: (2) (0) (+3)=0

Continuando hacia la derecha: (2) (+1) (+3)=6

Page 20: Tarea 1 correlación y regresión lineal

CUADRO AUXILIAR Nº 4.1.8

Page 21: Tarea 1 correlación y regresión lineal

CUADRO CORREGIDO DELCUADRO AUXILIAR Nº 4.1.8

La fórmula del paso (9) lleva el signo para indicar que se deben sumar

horizontalmente los números que están encerrados en los semicírculos de

esa primera fila elegida, así: -9+0+6=-3. Este número se escribe en la quinta

columna.

Trabajemos con la siguiente fila: (1) (-2) (+2)=-4 se encierra en un

semicírculo.

(0)(-1)(+2)=0

(4)(0)8+2)=0

(5)(+1)(+2)=10

Sumando 0+0+10=10

Page 22: Tarea 1 correlación y regresión lineal

Ahora con la tercera fila:

(2)(-2)(+1)=-4

(6)(-1)(+1)=-6

(16)(0)(+1)=0

(3)(+1)(+1)=3

Sumando: (-4)+(-6)+0+3=-7

Cuarta fila:

(7)(-2)(-1)=14

(15)(-1)(-1)=15

(6)(0)(-1)=0

(0)(+1)(-1)=0

La suma es: 14+15=29

(8)(-2)(-2)=32

(2)(-1)(-2)=4

(0)(0)(-2)=0

(1)(+1)(-2)=-2

La suma es: 32+4-2=34

Séptima fila:

(1)(-2)(-3)=6

(1)(0)(-3)=-6

(2)(1)(-3)=-6

Sumando: 6+0-6=0

Sumando los valores de la columna quinta.

Page 23: Tarea 1 correlación y regresión lineal

-3+6-7+0+29+34+0=69-10=59

Reuniendo los resultados anteriores, se tienen los datos para aplicar en

fórmula Nº 4.1.2.

n=134

EJERCICIO RESUELTO Nº2 DE CÁLCULO DEL COEFICIENTE DE

CORRELACIÓN ENTRE DOS CONJUNTOS DE DATOS AGRUPADOS

Page 24: Tarea 1 correlación y regresión lineal

Calcular el coeficiente de correlación lineal de las puntuaciones en

matemáticas de 100 estudiantes de la Facultad de Ciencias de la

Universidad MN.

CUADRO Nº4.1.9

CUADRO Nº4.1.10

Page 25: Tarea 1 correlación y regresión lineal

En este problema tenemos que calcular el coeficiente de correlación lineal r

para dos conjuntos de datos, constituidos por los calificativos en una escala

de 0 a 100, en matemáticas y en física para 100 estudiantes de la Facultad

de Ciencias de cierta Universidad.

Los datos se muestran en el cuadro Nº4.1.9. Notemos que a lo largo de la

línea horizontal superior se encuentran los intervalos que contienen los

calificativos de matemáticas desde 40 hasta 100.

Igualmente en la primera columna vertical izquierda, se encuentran los

calificativos para física de los mismos estudiantes, desde el calificativo 40

hasta 100. Nótese que en la columna de los calificativos de física los datos

crecen de abajo hacia arriba y para la fila horizontal superior vemos que los

calificativos en matemáticas crecen de izquierda a derecha.

A continuación procedemos a calcular el coeficiente de correlación r para

estos datos aplicando el mismo método que utilizamos en el problema

anterior.

1) Traslademos los datos del cuadro Nº4.1.9 al cuadro Nº4.1.10.

llamaremos fxy a cualquiera de las frecuencias de los casilleros interiores

del cuadro Nº4.1.9. en el cuadro Nº4.1.10 podemos observar que se han

agregado cinco columnas por el lado derecho y cuatro filas por la parte

inferior.

Observaremos en el cuadro Nº4.1.10 quelos intervalos para la puntuación en

matemáticas y para la puntuación en física se han reemplazado por las

marcas de clase correspondientes. Así en la fila horizontal superior se ha

reemplazado el primer intervalo 4050 por su marca de clase 45, el

segundo intervalo 5060 por su marca de clase 55 y de esta manera se

Page 26: Tarea 1 correlación y regresión lineal

han reemplazado los demás intervalos por sus marcas de clases en el

cuadro Nº4.1.10.

De igual forma para la columna primera de la izquierda vemos que los

intervalos se han reemplazado por sus respectivas marcas de clase así, para

la puntuación en física el primer intervalo superior 90 100 se han

reemplazado por su marca de clase 95, el segundo intervalo superior

8090 se ha reemplazado por su marca de clase 85 y así sucesivamente

hasta llegar el intervalo inferior 4050 que se ha reemplazado por su marca

de clase 45.

Ahora vamos a realizar los pasos siguientes:

1) Para determinar las frecuencias marginales sumemos todos los

valores de la primera fila que tiene la marca de clase 95. De esta

forma tenemos: 2+5+5=12. Para la segunda fila que corresponde a la

marca de clase 85, obtenemos: 1+3+6+5=15 que escribimos en el

segundo casillero de . Continuando con la suma de los números, de

las filas llenamos la columna . .

2) Dediquemos nuestra atención a las frecuencias marginales . El primer

resultado de lo obtenemos sumando las frecuencias para la

columna que tiene la marca de clase 45, de esta forma tenemos:

2+4+4=10 que se escribe en el primer casillero de la fila . Para el

segundo casillero tenemos el número 15 que se obtiene sumando

verticalmente las frecuencias de la columna que tiene la marca de

clase 55. Continuando con la suma de las de las demás columnas,

llenamos las frecuencias marginales .

3) Atendamos ahora la columna . La columna tiene en total 6 casilleros

arbitrariamente escogemos uno de estos casilleros como origen de

trabajo le asignamos el número. Observemos ahora la primera columna

de la izquierda en donde están las marcas de clase de los puntajes de

Page 27: Tarea 1 correlación y regresión lineal

física. Aquí observamos que las marcas de clase crecen de abajo hacia

arriba, entonces las desviaciones unitarias en la columna crecerán de

abajo hacia arriba. Entonces del 0 hacia abajo, las desviaciones unitarias

son números negativos que van decreciendo hacia abajo.

Desde el 0 hacia arriba las desviaciones unitarias serán positivas y

crecientes.

De manera que podemos observar que la columna está conformada

por los siguientes números que crecen del cero hacia arriba: 1,2 y desde

el cero hacia abajo decrecen: -1, -2, -3.

4) Veamos la fila

Notamos que en la fila horizontal superior las marcas de clase crecen de

izquierda a derecha, de igual forma las desviaciones unitarias crecerán

de izquierda a derecha. Elegimos como origen de trabajo arbitrariamente

uno de los casilleros de , el tercero contando de izquierda a derecha, y

vamos asignando números positivos crecientes hacia la derecha del 0,

así tenemos 1, 2 y 3 y hacia la izquierda, a partir del cero, tendremos: -1

y -2.

5) Expliquemos la columna multipliquemos cada valor de por su

correspondiente valor de y se obtiene un valor . Por ejemplo el

número 24 se obtiene multiplicando la frecuencia marginal por su

correspondiente desviación unitaria esto es, 12x2=24. Para el

segundo casillero multiplicamos 15x1=15; para el tercero 25x0=0, así

hasta terminar con 11 x (-3)=-33.

6) Observamos la columna . La primera celda de esta columna tiene el

número 48 que se obtiene multiplicando el valor de la segunda

columna por su correspondiente valor =24, de la tercera columna, es

decir, 2 x 24 = 48. Para el segundo casillero de la columna ,

tenemos 15 que es igual a 1 x 15. De esta forma continuamos llenando

los demás valores de la columna .

Page 28: Tarea 1 correlación y regresión lineal

7) Veamos ahora la fila . El número -20 del primer casillero de esta fila

se obtiene multiplicando la frecuencia marginal por su

correspondiente desviación unitaria , es decir: 10(-2)=-20.

Para el segundo casillero de , multiplicamos (-1) x (-15) = 15 y así

sucesivamente hasta 12 x 3 = 36.

8) Veamos la fila . El primer casillero de esta fila es 40 y es el

resultado de multiplicar -2 del primer casillero de la fila por -20 de

su correspondiente primer casillero de la fila esto es. (-2) x (-20) = 40.

Para el segundo casillero de multiplicamos -1 del segundo casillero

por -15 de su correspondiente segundo casillero de , luego

obtenemos (-1) x (-15) = 15. Así continuamos multiplicando los valores de

los valores de los casilleros de la fila por sus correspondientes

valores de la fila hasta llegar a (3) (36) =108.

9) Interesa ahora obtener los números encerrados en semicírculos, por

ejemplo, el número 4, que corresponde a la marca de clase 75 para la

puntuación en matemáticas y a la marca de clase 95 de la puntuación en

física.

Para saber cómo se obtiene este número 4, corramos nuestra vista hacia la

derecha dirigiéndose hacia la columna y obtenemos el número 2. Del

número 4, encerrado en semicírculo, bajemos la vista con dirección a la fila

y obtenemos 1. La frecuencia del casillero donde está el 4, encerrado en

semicírculo, es . Multiplicando estos tres factores

tendremos: .

Podemos enunciar la siguiente regla:

Para obtener los valores encerrados en semicírculos en los casilleros

interiores del cuadro Nº4.1.10, multiplicamos el valor de la frecuencia del

Page 29: Tarea 1 correlación y regresión lineal

casillero para la cual estamos haciendo el cálculo, por los valores de las

desviaciones unitarias y , obtenidas corriendo la vista hacia la derecha

hasta columna y también hacia abajo hasta llegar a la fila .

Así por ejemplo, para el casillero que corresponde a las marcas de clase 75

en matemática y 85 en física, tenemos la frecuencia de la celda , los

otros dos factores son: y =1.

Luego (3) x (1) x (1) = 3 que es el valor encerrado en semicírculo.

Para el casillero correspondiente a la marca de clase 55 en matemáticas

marca de clase 45 en física, tenemos:

, ,

que es el valor encerrado en semicírculo. Así

podemos proceder para obtener todos los demás valores encerrados en

semicírculos.

Sumando las frecuencias marginales de la columna , se tiene .

Sumando los valores de la tercera columna se obtiene . La

suma de los valores de la quinta columna:

=150

Para todas las filas, en el último casillero de la derecha se tiene la suma de

los valores de la fila. Así por ejemplo, ; .

Para la tercera fila: .

Para la cuarta fila:

Estos totales de filas y columnas reemplazamos en la fórmula Nº4.1.2.

Page 30: Tarea 1 correlación y regresión lineal

Vemos que el coeficiente de correlación en este caso es 0,79

EJERCICIO PROPUESTO Nº1 DEL CÁLCULO DEL COEFICIENTE DE

CORRELACIÓN ENTRE DOS CONJUNTOS AGRUPADOS DE DATOS.

Supongamos que tenemos 30 sujetos a los que hemos aplicado una prueba

de conocimientos de Psicología General (variable x) y un test de inteligencia

(variable y). los datos se muestran en el Cuadro Nº4.1.11.

Aplicando los datos tomados del Cuadro Auxiliar Nº4.1.12 en la fórmula

Nº4.1.2, tenemos:

Resultado:

Page 31: Tarea 1 correlación y regresión lineal

REGRESIÓN LINEAL SIMPLE

REGRESIÓN LINEAL SIMPLE

Al comenzar a estudiar las técnicas de correlación afirmamos que

estudiaríamos dos variables y no solamente una. Llamamos en esa ocasión

x a una de las variables y a la otra. En el tema que nos ocuparemos ahora,

estudiaremos la forma tabla Nº4.2.1, similar a lo que utilizamos correlación,

conocimiento el puntaje en la prueba de habilidad mental (variable x) para un

alumno determinado, podemos anticipar el puntaje del examen de admisión

(variable y) del mismo alumno.

Consideramos la relación lineal expresada por el cuadro Nº4.2.1. si

dibujamos esa relación, obtenemos el gráfico Nº4.2.1. como podemos

observar todos los puntos se alinean “exactamente” en una sola línea recta

lo que recibe el nombre de línea de regresión. Teniendo en cuenta esta

línea, podemos predecir cualquiera de los valores de y conociendo el valor

de x: Para x = 25, según la recta, corresponde y = 35, para x =20,

corresponde y=30, etc. En este caso se trata de una correlación positiva

perfecta cuyo coeficiente de correlación es +1.

CUADRO Nº4.2.1

PRUEBA DE HABILIDAD MENTAL

X EXAMEN DE ADMISIÓN Y

Susana 5 15

Iván 10 20

Lourdes 15 25

Aldo 20 30

Juan 25 35

María 30 40

César 35 45

Olga 40 50

Page 32: Tarea 1 correlación y regresión lineal

Recordemos el gráfico Nº4.2.1 que dibujamos cuando estudiamos

correlación, en este gráfico observamos el diagrama de dispersión

“aproximado” por una línea recta, la recta es mejor “ajuste”, a los puntos del

diagrama de dispersión, es decir, en la mejor medida procure dejar igual

números de puntos del diagrama de dispersión por encima de ella que igual

número de puntos de abajo, se llama línea de regresión.

ECUACIÓN DE LA REGRESIÓN RECTILÍNEA

La ecuación que describe la línea de regresión es.

X-r

En donde:

Media de variable y en la muestra

EJEMPLO PROPUESTO Nº2 DEL CÁLCULO DEL COEFICIENTE DE

CORRELACIÓN ENTRE DOS CONJUNTOS DE DATOS AGRUPADOS

Supongamos que se tiene 50 vendedores de cierta compañía. Estos

vendedores durante un año 1985 han realizado ventas tal como lo muestra

el cuadro Nº4.1.13, el que también muestra el número de años de

experiencia que tienen como vendedores.

Para dicho cuadro, se pide calcular el coeficiente de correlación lineal r.

Page 33: Tarea 1 correlación y regresión lineal

CUADRO Nº4.1.13

Tomando los datos obtenidos en el Cuadro Auxiliar Nº4,1,14 apliquemos en

la fórmula Nº4.1.12, se tiene:

Resultado:

Page 34: Tarea 1 correlación y regresión lineal

CUADRO AUXILIAR Nº4.1.14

GRÁFICO Nº 4.2.1

Page 35: Tarea 1 correlación y regresión lineal

= media de la variable X en la muestra.

X = un valor de la variable X

r = coeficiente de Pearson, de la correlación lineal entre las variables X y Y

desviación estándar de Y en la muestra

desviación estándar de X en la muestra

valor Y resultante del cálculo de la fórmula.

Veamos cómo podemos predecir los valores de Y a partir de los valores de

X. Estudiemos el Cuadro Nº 4.2.1. Cómo el gráfico de este cuadro es una

línea recta ascendente sabemos que su coeficiente de correlación de

Pearson r=+1. Además tenemos los siguientes resultados:

=22.5 11.46 11.46 =32.5

Estos resultados se pueden calcular a partir de los datos del cuadro Nº4.2.1.

Apliquemos estos datos a la fórmula Nº4.2.1, obtenemos la siguiente

expresión:

X-(1)

Simplificando términos obtenemos:

Escojamos cualquier valor de X del Cuadro Nº4.2.1 por ejemplo para María

X=30, reemplazando este valor en (b).

Page 36: Tarea 1 correlación y regresión lineal

Vemos en el Cuadro Nº4.2.1 el valor que corresponde a María efectivamente

es 40. Es decir, podemos usar la ecuación Nº4.2.1 para predecir los valores

de Y conociendo los valores de X.

Esta fórmula de regresión se puede para dos variables X y Y, entre las

cuales no es obligatorio que exista una correlación lineal perfecta, es decir,

no es obligatorio que r para la correlación entre X y Y sea siempre igual a 1.

Este valor de r para otras aplicaciones de la regresión, puede tomar

cualquier valor distinto.

EJERCICIO RESUELTOS DE REGRESIÓN LÑINEAL SIMPLE

Al aplicar un test de inteligencia a una muestra representativa constituida por

800 alumnos, se obtuvo la puntuación media de 30,4 puntos, con la

desviación estándar de 12.6 puntos.

La edad media de la muestra fue de 14.5 años, con la desviación estándar

de 3.2 años.

El coeficiente de correlación lineal de Pearson entre la variable Y, edad de

sujetos estudiados y la variables X, rendimiento mental de los mismos

sujetos, fue r=0,89

Con estos datos se pide determinar la ecuación de regresión rectilínea de

edad en base del puntaje del rendimiento mental.

¿Qué edad corresponde a los sujetos que alcanzan puntuaciones de:

25 puntos

Page 37: Tarea 1 correlación y regresión lineal

?

Datos:

=14.5

3.2

12.6

Aplicando estos datos en la fórmula Nº 4.2.1 se tiene:

X-0.89

. Es la ecuación de regresión buscada

Respuesta de la primera pregunta

Segunda pregunta

Tercera pregunta

Page 38: Tarea 1 correlación y regresión lineal

Cuarta pregunta

Quinta pregunta

Sexta pregunta

RELACIONES

La correlación se ocupa de establecer la magnitud y la dirección de las

relaciones. Antes de profundizar en estos aspectos particulares de las

relaciones, analizaremos algunas características generales de éstas, con las

cuales podemos comprender mejor el material específico acerca de la

correlación.

Page 39: Tarea 1 correlación y regresión lineal

RELACIONES LINEALES

Para iniciar nuestro análisis de las relaciones, veamos una relación entre dos

variables. La siguiente tabla muestra el salario mensual que percibieron

cinco agentes ventas y el valor en dólares de la mercancía vendida por cada

uno de ellos en ese mes.

AGENTE VARIABLE X MERCANCÍA

VENDIDA ($)

Y VARIABLE

SALARIO ($)

1

2

3

4

5

0

1000

2000

3000

4000

500

900

1300

1700

2100

Podemos analizar mejor la relación entre estas variables si trazamos una

gráfica utilizando los valores X y Y, para cada agente de ventas, como los

puntos de dicha gráfica. Él es una gráfica de dispersión o dispersigrama.

Una gráfica de dispersión o dispersigrama es una gráfica de parejas

de valores X y Y.

La gráfica de dispersión para los datos de los agentes de ventas aparece

en la figura 6.1. En relación con esta figura, vemos que todos los puntos

caen sobre una línea recta. Cuando una línea recta describe la relación

entre dos variables, se dice que esta relación lineal.

Page 40: Tarea 1 correlación y regresión lineal

Una relación lineal entre dos variables es aquella que puede

representarse con la mejor exactitud mediante una línea recta.

Observe que no todas las relaciones son lineales; algunas son

curvilíneas. En este caso, al trazar una gráfica de dispersión para las

variables X y Y, una línea curva ajusta mejor a los datos que una línea

recta.

Page 41: Tarea 1 correlación y regresión lineal

CÁLCULO DE LA (r) DE PEARSON

La ecuación para calcular la r de Pearson mediante datos:

Donde es la suma de los productos de cada pareja de puntajes z.

Para utilizar esta ecuación, primero hay que convertir cada dato en bruto en

su valor transformado. Esto puede tardar mucho tiempo y crear errores de

redondeo. Con algún álgebra, esta ecuación se puede transformar en una

ecuación de cálculo que utilice datos en bruto:

ECUACIÓN PARA EL CÁLCULO DE LA (r) DE PEARSON

Dónde: es la suma de los productos de cada pareja X y Y,

también se llama la suma de productos cruzados.

La tabla 6.4 contiene algunos de los datos hipotéticos reunidos a partir de

cinco sujetos.

Datos hipotéticos para el cálculo de la r de Pearson

Page 42: Tarea 1 correlación y regresión lineal

TABLA 6.4

SUBJETIVO X Y XY

A 1 2 1 4 2

B 3 5 9 25 15

C 4 3 16 9 12

D 6 7 36 49 42

E 7 5 49 25 35

TOTAL 21 22 111 112 106

Utilicemos estos datos para calcular la r de Pearson:

es la suma de los productos cruzados; se determina multiplicando los

datos X y Y para cada sujeto y luego sumando los productos resultantes. El

cálculo de y de los otros términos aparece en la tabla 6.4. Al sustituir

estos valores en la ecuación anterior, obtenemos.

Page 43: Tarea 1 correlación y regresión lineal

PROBLEMA DE PRÁCTICA 6.1

Resolvamos otro ejercicio. Esta utilizaremos los datos de la tabla 6.1. Para

su conveniencia, hemos reproducido estos datos en las primeras tres

columnas de la tabla 6.5. En este ejemplo tenemos una relación lineal

imperfecta y estemos interesados en calcular la magnitud y dirección de la

relación mediante la r de Pearson. La solución también aparece en la tabla

6.5.

IQ y el promedio de las calificaciones: cálculo de la r de Pearson

TABLA 6.5

Page 44: Tarea 1 correlación y regresión lineal

ESTUDIANTE

NÚMERO

IQX PROMEDIO

DE

DATOS Y

1

2

3

4

5

6

7

8

9

10

11

12

110

112

118

119

122

125

127

130

132

134

136

138

1.0

1.6

1.2

2.1

2.6

1.8

2.6

2.0

3.2

2.6

3.0

3.6

12,100

12,544

13,924

14,161

14,884

15,625

16,129

16,900

17,424

17,956

18,496

19,044

1.00

2.56

1.44

4.41

6.76

3.24

6.76

4.00

10.24

6.76

9.00

12.96

110.0

179.2

141.6

249.9

317.2

225.0

330.2

260.0

422.4

384.4

408.0

496.8

TOTAL 1503 27.3 189,187 69.13 3488.7

PROBLEMA DE PRÁCTICA 6.2

Page 45: Tarea 1 correlación y regresión lineal

Tratemos de resolver otro problema. ¿Se ha puesto a reflexionar si es

verdad que los opuestos se atraen? Todos hemos estado ante parejas en las

que sus miembros parecen ser muy diferentes entre sí. ¿Pero esto es lo

usual? ¿Qué fomenta la atracción: las diferencias o las similitudes? Un

psicólogo social abordó este problema pidiendo a 15 estudiantes que

respondieran un cuestionario relacionado con un sus actitudes hacia una

amplia gama de temas. Tiempo después les mostró las “actitudes” de un

extraño hacia los mismos temas y les pidió que evaluaran su agrado o

inclinación por el extraño y si, probablemente, disfrutarían el trabajar con él.

En realidad, las “actitudes” del extraño fueron elaboradas por el

experimentador y variaron de sujeto a sujeto, con respecto a la proporción

de actitudes similares que hubo entre el extraño y el individuo que participó

en el experimento. De esa manera, se obtuvieron datos, para cada sujeto a

sus actitudes y la atracción que sintió hacia un extraño, basada en las

actitudes de este último hacia los mismos temas. Si los iguales se atraen,

entonces debería existir una relación directa entre la atracción hacia un

extraño y la proporción de actitudes similares. Los datos se presentan en la

tabla 6.6. Entre mayor sea la atracción, más alto será el puntaje. El puntaje

de atracción máximo es de 14. Calcule el coeficiente de correlación r de

Pearson * para determinar si existe una relación directa entre la similitud de

actitudes y el grado de atracción.

Datos y solución del problema de práctica 6.2

TABLA 6.6

ESTUDIANTE

NÚMERO

PROPORCIÓN DE

ACTITUDES

ATRACCIÓN

Y

Page 46: Tarea 1 correlación y regresión lineal

SIMILARES X

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

0.30

0.44

0.67

0.00

0.50

0.15

0.58

0.32

0.72

1.00

0.87

0.09

0.82

0.64

0.24

8.9

9.3

9.6

6.2

8.8

8.1

9.5

7.1

11.0

11.7

11.5

7.3

10.0

10.0

7.5

0.090

0.194

0.449

0.000

0.250

0.022

0.336

0.102

0.518

1.000

0.757

0.008

0.672

0.410

0.058

79.21

86.49

92.16

38.44

77.44

65.61

90.25

50.41

121.00

136.89

132.25

53.29

100.00

100.00

56.25

2.670

4.092

6.432

0.000

4.400

1.215

5.510

2.272

7.920

11.700

10.005

0.657

8.200

6.400

1.800

TOTAL 7.34 136.5 4.866 1279.69 73.273

Por lo tanto, con base en estos estudiantes, existe una relación muy fuerte

entre las similitudes y las atracciones.

Page 47: Tarea 1 correlación y regresión lineal

Una segunda interpretación de la r de Pearson. La r de Pearson también

se puede interpretar en términos de la variabilidad de Y explicada por medio

de X. este punto de vista produce más información importante acerca de r y

la relación entre X y Y. Considere, por ejemplo, la figura 6.9, en la cual se

muestra una relación imperfecta entre X y Y. En este ejemplo, la variable X

representa una competencia de ortografía y la variable Y la habilidad en la

escritura de seis estudiantes de tercer grado. Suponga que queremos

predecir la calificación en la escritura de María, la estudiante cuya

calificación en ortografía es de 88. Si no hubiese una relación entre la

escritura y la ortografía.

EJERCICIOS DE APLICACIÓN

1. En un largo curso de introducción a la sociología, un profesor hace

dos exámenes. El profesor quiere determinar si las calificaciones de

los estudiantes en el segundo examen correlacionadas con las

calificaciones del primero. Para facilitar la los, se elige una muestra de

ocho estudiar calificaciones aparecen en la siguiente tabla.

a. Construya una gráfica de dispersión para datos, utilizando la

calificación del primer examen como la variable X. ¿Parece

lineal la relación?

Page 48: Tarea 1 correlación y regresión lineal

b. Suponga que existe una relación lineal en calificaciones de los

dos exámenes, calcule la r de Pearson.

c. ¿Qué tan bien explican la relación, las calificaciones del

segundo examen?

0

20

40

60

80

100

120

0 20 40 60 80 100

Series1

Page 49: Tarea 1 correlación y regresión lineal

0,629531757

Se puede decir que es una relación Baja y positiva que los dos exámenes

tienen entre si

2. Un investigador realiza un estudio de la relación entre el consumo de

cigarros y las enfermedades determinan la cantidad de cigarros

fumados diariamente y de días de ausencia en el trabajo dura último

año debido a una enfermedad para 13 individuos en la compañía

donde trabaja este investigador. Los datos aparecen en la tabla

anexa.

SUJETO CIGARROS

CONSUMIDOS

DÍAS DE

AUSENCIA

1

2

3

4

5

6

7

8

9

10

11

12

0

0

0

10

13

20

27

35

35

44

53

60

1

3

8

10

4

14

5

6

12

16

10

16

Page 50: Tarea 1 correlación y regresión lineal

a. Construya una gráfica de dispersión para estos datos: ¿Se ve

una relación lineal?

b. Calcule el valor de la r de Pearson.

c. Elimine los datos de los sujetos 1, 2, 3, 10, 11 y 12. Esto

disminuye el rango de ambas variables. Vuelva a calcular r

para los sujetos restantes. ¿Qué afecto tiene la disminución del

rango sobre r?

d. A utilizar todo el conjunto de datos, ¿qué porcentaje de la

variabilidad en el número de días de ausencia es explicado por

la cantidad de cigarros fumados diariamente? ¿De qué sirve

ese valor?

0

2

4

6

8

10

12

14

16

18

0 20 40 60 80

Series1

Page 51: Tarea 1 correlación y regresión lineal

0,6753

0

2

4

6

8

10

12

14

16

0 10 20 30 40

Series1

Page 52: Tarea 1 correlación y regresión lineal

0,0318

3. Un educador ha construido un examen para las aptitudes mecánicas y

desea determinar si éste es confiable, mediante dos administraciones

con un lapso de 1 mes entre ellas. Se realiza un estudio en el cual 10

estudiantes reciben dos administraciones del examen, donde la

segunda administración ocurre un mes después que la primera. Los

datos aparecen en la tabla.

a. Construya una gráfica de dispersión para las parejas de datos.

b. Determine el valor de r.

c. ¿Sería justo decir que éste es un examen confiable? Explique esto al

utilizar .

Page 53: Tarea 1 correlación y regresión lineal

SUJETO ADMINISTRACIÓN 1 ADMINISTRACIÓN 2

1

2

3

4

5

6

7

8

9

10

10

12

20

25

27

35

43

40

32

47

10

15

17

25

32

37

40

38

30

49

0

10

20

30

40

50

60

0 20 40 60

Series1

Page 54: Tarea 1 correlación y regresión lineal

0,9881

La investigación no es confiable por que los datos son tomados en dos

fecha totalmente distintas

4. Un grupo de investigadores ha diseñado un cuestionario sobre la

tensión, consistente en 15 sucesos. Ellos están interesados en

determinar si existe una coincidencia entre dos culturas acerca de la

cantidad relativa de ajustes que acarrea cada suceso. El cuestionario

se aplica a 300 estadounidenses y 300 italianos. Cada individuo debe

utilizar el evento “matrimonio” como estándar y juzgar los demás

eventos en relación con el ajuste necesario para el matrimonio. El

matrimonio recibe un valor arbitrario de 50 puntos. Si se considera

que un evento requiere de más ajustes que el matrimonio, el evento

debe recibir más de 50 puntos. El número de puntos excedentes

depende de la cantidad de ajustes requeridos. Después de que cada

sujeto de cada cultura ha asignado puntos a todos los eventos, se

promedian los puntos de cada evento. Los resultados aparecen en la

siguiente tabla:

Page 55: Tarea 1 correlación y regresión lineal

EVENTOS ESTADOUNIDENSES ITALIANOS

Muerte de la esposa

Divorcio

Separación de la pareja

Temporada en prisión

Lesiones personales

Matrimonio

Despedido del trabajo

Jubilación

Embarazo

Dificultades sexuales

Reajustes económicos

Problemas con la familia

política

Problemas con el jefe

Vacaciones

Navidad

100

73

65

63

53

50

47

45

40

39

39

29

23

13

12

80

95

85

52

72

50

40

30

28

42

36

41

35

16

10

a. Suponga que los datos tienen al menos una escala de intervalo

y calcule la correlación entre los datos estadounidenses y la de

los italianos.

b. Suponga que los datos sólo tienen una escala ordinal y calcule

la correlación entre los datos de ambas culturas.

0

20

40

60

80

100

0 50 100 150

Series1

Page 56: Tarea 1 correlación y regresión lineal

0,8519

La r es alta y positiva es decir que los comportamiento de las dos

nacionalidades son bastante similares

Page 57: Tarea 1 correlación y regresión lineal

INDIVIDUO EXÁMEN CON LÁPIZ

Y PAPEL

SIQUIATRA

A

SIQUIATRA

B

1

2

3

4

5

6

7

8

9

10

11

12

48

37

30

45

31

24

28

18

35

15

42

22

12

11

4

7

10

8

3

1

9

2

6

5

9

12

5

8

11

7

4

1

6

2

10

3

5. Un psicólogo ha construido un examen lápiz - papel, a fin de medir la

depresión. Para comparar los datos del examen con los datos de los

expertos, 12 individuos “con perturbaciones emocionales” realizan el

examen lápiz – papel. Los individuos también son calificados de

manera independiente por dos siquiatras, de acuerdo con el grado de

depresión determinado por cada uno como resultado de entrevistas

detalladas. Los datos aparecen a continuación. Los datos mayores

corresponden a una mayor depresión.

a. ¿Cuál es la correlación entre los datos de los dos siquiatras?

b. ¿Cuál es la correlación entre las calificaciones del examen con

lápiz y papel y los datos de cada siquiatra?

Page 58: Tarea 1 correlación y regresión lineal

0,8519

La relación se da con un mismo criterio por los psiquiatras

0

2

4

6

8

10

12

14

0 5 10 15

Series1

Page 59: Tarea 1 correlación y regresión lineal

0,6973

La relación entre las dos variables es baja y positiva

0

2

4

6

8

10

12

14

0 20 40 60

Series1

Page 60: Tarea 1 correlación y regresión lineal

0,697

6. Para este problema, suponga que usted es un psicólogo que labora

en el departamento de recursos humanos de una gran corporación. El

presidente de la compañía acaba de hablar con usted acerca de la

importancia de contratar personal productivo en la sección de

manufactura de la empresa y le ha pedido que ayude a mejorar la

0

2

4

6

8

10

12

14

0 20 40 60

Series1

Page 61: Tarea 1 correlación y regresión lineal

capacidad de la institución para hacer esto. Existen 300 empleados

en esta sección y cada obrero fabrica el mismo artículo. Hasta ahora,

la corporación sólo ha recurrido a entrevistas para elegir a estos

empleados. Usted busca bibliografía y descubre dos pruebas de

desempeño, lápiz – papel, bien estandarizadas, y piensa que podrían

estar relacionados con los requisitos desempeño de esta sección.

Para determinar si alguna de ellas se puede utilizar como dispositivo

de selección, elige 10 empleados representativos de la sección de

manufactura, garantizando que un amplio rango de desempeño quede

representado en la muestra, y realiza las dos pruebas con cada

empleado. Los datos aparecen en la siguiente tabla.

Mientras mayor sea la calificación, mejor será el desempeño. Las

calificaciones de desempeño en el trabajo. Las calificaciones de

desempeño fabricados por cada empleado por semana, promediados

durante los últimos 6 meses.

a. Construya una gráfica de dispersión del desempeño en el

trabajo y la primera prueba, utilizando la prueba 1 como la

variable X. ¿Parece lineal la relación?

b. Suponga que la relación anterior es lineal y calcule el valor de

la r de Pearson.

c. Construya una gráfica de dispersión del desempeño en el

trabajo y la segunda prueba, utilizando la prueba 2 como la

variable X. ¿Parece lineal la relación?

d. Suponga que la relación anterior es lineal, calcule el valor de la

r de Pearson.

e. Si sólo pudiera utilizar una de las pruebas para la selección de

los empleados, ¿utilizaría alguna de ellas? En tal caso, ¿cuál

de ellas? Explique.

Page 62: Tarea 1 correlación y regresión lineal

EMPLEADO

1 2 3 4 5 6 7 8 9 10

Desempeño en el trabajo 50 74 62 90 98 52 68 80 88 76

Examen 1 10 19 20 20 21 14 10 24 16 14

Examen 2 25 35 40 49 50 29 32 44 46 35

0

20

40

60

80

100

120

0 10 20 30

Series1

Page 63: Tarea 1 correlación y regresión lineal

0,5917

0,9076

0

20

40

60

80

100

120

0 20 40 60

Series1

Page 64: Tarea 1 correlación y regresión lineal
Page 65: Tarea 1 correlación y regresión lineal

ESCUELA DE COMERCIO EXTERIOR Y NEGOCIACIÓN

INTERNACIONAL

EVALUACIÓN

SEXTO A NOCHE

CÁLCULO DEL COEFICIENTE r DE PEARSON Y REALICE LA GRÁFICA

ESTUDIANTE

NÚMERO

PROPORCIÓN DE

ACTITUDES

SIMILARES X

ATRACCIÓN Y

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

0.30

0.44

0.67

0.00

0.50

0.15

0.58

0.32

0.72

1.00

0.87

0.09

0.82

0.64

0.24

8.9

9.3

9.6

6.2

8.8

8.1

9.5

7.1

11.0

11.7

11.5

7.3

10.0

10.0

7.5

Page 66: Tarea 1 correlación y regresión lineal

EJERCICIO RESUELTO Nº2 DE CÁLCULO DEL COEFICIENTE DE

CORRELACIÓN ENTRE DOS CONJUNTOS DE DATOS AGRUPADOS

DETERMINANCDO EL CUADRO AUXILIAR Y REALICE LA GRÁFICA

PRUEBA DE HABILIDAD MENTAL

X EXAMEN DE ADMISIÓN Y

Susana 5 15

Iván 10 20

Lourdes 15 25

Aldo 20 30

Juan 25 35

María 30 40

César 35 45

Olga 40 50

Page 67: Tarea 1 correlación y regresión lineal

ESCUELA DE COMERCIO EXTERIOR Y NEGOCIACIÓN

INTERNACIONAL

EVALUACIÓN

SEXTO A NOCHE

EJERCICIO RESUELTO Nº2 DE CÁLCULO DEL COEFICIENTE DE

CORRELACIÓN ENTRE DOS CONJUNTOS DE DATOS AGRUPADOS

DETERMINANDO EL CUADRO AUXILIAR Y REALICE LA GRÁFICA

ESTADOUNIDENSES ITALIANOS

100

73

65

63

53

50

47

45

40

39

39

29

23

13

12

80

95

85

52

72

50

40

30

28

42

36

41

35

16

10

c. Suponga que los datos tienen al menos una escala de intervalo

y calcule la correlación entre los datos estadounidenses y la de

los italianos.

Page 68: Tarea 1 correlación y regresión lineal

d. Suponga que los datos sólo tienen una escala ordinal y calcule

la correlación entre los datos de ambas culturas.

Conclusiones

Desarrollo de ejercicios de correlación y regresión lineal en donde se

efectuó comparaciones de coeficientes y formulas estadísticas de las

variables determinadas.

Aplicación de gráficas para la determinación de la relación de las

variables dependientes e independientes.

Recomendaciones

Manejar y aplicar las fórmulas matemáticas para realizar un análisis

estadístico de comparación positivo.

Realizar un procedimiento con medidas específicas para la

elaboración de las gráficas.

Elaborar e interpretar con la mayor relación posible gráficas, datos y

fórmulas estadísticas.

BIBLIOGRAFÍA

Legoas, L. A. (2008). Estadística Básica. En L. A. Legoas, Estadística Básica (págs. 177-211).

Lima: San Marcos.

Mendano, J. (2007). Estadística General. En J. Mendano, Estadística General. México:

Majangrail.

Zamora, M. C. (2006). Estadística Inferencial. En M. C. Zamora, Estadística Inferencial. Lima:

Moshera.

Page 69: Tarea 1 correlación y regresión lineal