Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación....

34
[233] Introducción En el capítulo anterior se vio que es muy frecuente encontrar varia- bles que están relacionadas o asociadas entre sí; por ejemplo, las calificaciones de los estudiantes están relacionadas con el tiempo que dedican al estudio, el gasto familiar está relacionado con el ingreso familiar, etc. Existen muchas variables, en especial cuantitativas, que se relacionan en algún grado con otras; entonces, es posible que una de las variables pueda expresarse matemáticamente en función de la otra. Frecuentemente se nos formulan las siguientes preguntas: ¿El peso de las personas está relacionado con la estatura? ¿El tiem- po de servicio de trabajo activo tiene relación con la edad? ¿El ingreso o salario está relacionado con el nivel educativo? ¿El aho- rro familiar tiene relación con los ingresos? ¿La demanda de un producto dependerá de los precios?, etc. Estadísticamente nos interesa analizar la relación entre dos o más variables, siempre que se tenga un indicio de que entre ellas existe por lo menos cierto grado de dependencia o asociación. Lo importante es medir y expresar funcionalmente esta relación me- diante una función o modelo matemático. En el presente capítulo estudiaremos el análisis de regresión entre dos variables X e Y , y el grado de relación entre ellas me- diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 31/03/2006, 02:48 p.m. 233

Transcript of Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación....

Page 1: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

233[233]

Introducción

En el capítulo anterior se vio que es muy frecuente encontrar varia-bles que están relacionadas o asociadas entre sí; por ejemplo, lascalificaciones de los estudiantes están relacionadas con el tiempoque dedican al estudio, el gasto familiar está relacionado con elingreso familiar, etc.

Existen muchas variables, en especial cuantitativas, que serelacionan en algún grado con otras; entonces, es posible que unade las variables pueda expresarse matemáticamente en función dela otra. Frecuentemente se nos formulan las siguientes preguntas:¿El peso de las personas está relacionado con la estatura? ¿El tiem-po de servicio de trabajo activo tiene relación con la edad? ¿Elingreso o salario está relacionado con el nivel educativo? ¿El aho-rro familiar tiene relación con los ingresos? ¿La demanda de unproducto dependerá de los precios?, etc.

Estadísticamente nos interesa analizar la relación entre dos omás variables, siempre que se tenga un indicio de que entre ellasexiste por lo menos cierto grado de dependencia o asociación. Loimportante es medir y expresar funcionalmente esta relación me-diante una función o modelo matemático.

En el presente capítulo estudiaremos el análisis de regresión

entre dos variables X e Y, y el grado de relación entre ellas me-diante el análisis de correlación.

Capítulo VAnálisis de regresión y correlación lineal

05_cap5.p65 31/03/2006, 02:48 p.m.233

Page 2: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

234

Análisis de regresión lineal simple

Si se trata de predecir o explicar el comportamiento de una variableY, a la que se denomina dependiente o variable respuesta, en fun-ción de otra variable X denominada independiente o regresora,Y =f( X ), estamos frente a un problema de análisis de regresiónlineal simple; pero si deseamos investigar el grado de asociaciónentre las variables X e Y estamos frente a un problema de análisisde correlación.

Diagrama de dispersión¿Cómo encontrar la relación entre X e Y ? Una de las formas grá-ficas más sencillas es realizando el diagrama de dispersión, deno-minado también diagrama de nube de puntos.

Este tipo de gráfico se utiliza para visualizar la relación entrelas variables y, a partir de dicha relación, observar en qué medidase mantiene el incremento o disminución de una variable a partirdel aumento de otra variable.

Para su construcción, se trazan en el plano cartesiano los ejesde la abscisa ( X ) y de la ordenada (Y ). En el eje X se colocan losvalores de una de las variables y, en el eje Y , los valores de la otravariable. En la intersección correspondiente a cada valor de X y acada valor de Y se coloca un punto, y así tendremos la nube depuntos.

Mostraremos a continuación algunas formas que adquiere eldiagrama de dispersión.

Figura 1. Diagramas de dispersiónY Y

. . . . . . . . . . . . . . . . . .

. . . . . . X X

Y a bX= + Y a bX= − a) Relación lineal positiva b) Relación lineal negativa

05_cap5.p65 31/03/2006, 02:48 p.m.234

Page 3: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

235

Y Y

. . . . . . . . . . . . . . . .. . . . . . . . . . . . .. .

. . . . . . . . . X X

Y a= 2Y a bX cX= + +c) No hay relación lineal d) Relación no linealentre X e Y

Como se puede ver en el gráfico (a), los valores de Y seincrementan linealmente conforme X crece, es decir, el conjuntode datos se puede representar por una línea recta ascendente. Porejemplo, al aumentar la partida presupuestal asignada por el go-bierno a un colegio, aumenta la posibilidad de atender una mayordemanda escolar.

Es diferente en el gráfico (b), porque cuando los valores de Xcrecen, los valores de Y decrecen, es decir, el conjunto de datos sepuede representar por una línea recta descendente. Así, por ejem-plo, cuando aumenta el número de horas semanales que los es-tudiantes dedican a las distracciones, su rendimiento académicodisminuye.

En el gráfico (c) no hay ninguna relación entre X e Y ; mien-tras que el gráfico (d) muestra una relación de tipo curvilínea entreX e Y . Así, por ejemplo, cuando los estudiantes dedican diaria-

mente un mayor número de horas a ver programas de televisión,disminuye su rendimiento académico en el colegio.

Como se observa en los diagramas de dispersión, el términolineal empleado se refiere al tipo de relación entre X e Y .

Una vez visualizada la relación, los diagramas de dispersiónno son suficientes para determinar el grado de la relación entre lasvariables, por lo que debemos utilizar procedimientos estadísticospara determinar el modelo mas apropiado que exprese el compor-tamiento del conjunto de datos ( ),i ix y .

05_cap5.p65 31/03/2006, 02:48 p.m.235

Page 4: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

236

Ajuste de una función de regresión:Método de mínimos cuadrados

Ajustar una función de regresión significa encontrar, la funciónque exprese con mayor precisión la relación entre las variablesX e Y . Gráficamente será aquella función que mejor se adecue a

la nube de puntos. En este sentido, es recomendable como primerpaso construir el diagrama de dispersión o diagrama de nube depuntos para, luego de analizar su forma, decidir por el tipo defunción matemática (modelo) o la ecuación de regresión que expre-se la relación entre las variables X e Y . Luego, se estiman losparámetros del modelo, para lo cual existen varios métodos, sien-do el más usado el método de mínimos cuadrados.

Intentamos describir la dependencia de una variable Y sobreuna variable independiente X . Emplearemos la ecuación de regre-sión a fin de apoyar la hipótesis que postula la posible causalidadde los cambios de Y mediante los cambios en X ; para propósitosde predicción de Y en función de X ; y para propósitos de explica-ción de parte de la variación de Y por X utilizando la última va-riable como control estadístico. Los estudios de los efectos de latemperatura en el rendimiento académico, el contenido de nitróge-no en el suelo sobre la tasa de crecimiento de una planta, la edad deun estudiante sobre su presión sanguínea, la dosis de un insectici-da sobre la mortalidad de una población de insectos, el número dehoras de estudio sobre el rendimiento académico, son ejemplos típi-cos de regresión para los propósitos señalados.

Supondremos que el diagrama de dispersión sugiere que larelación entre las dos variables se puede expresar mediante unarecta L: Y a bX= + . El método de mínimos cuadrados garantizaque la recta que representa el comportamiento del conjunto de da-tos es la recta L, donde la suma de los cuadrados de las diferenciasde las ordenadas iy de los puntos observados ( ,i ix y ), y de lasordenadas ˆˆ ˆiy a bx= + de los puntos ( ˆˆ, i ix a bx+ ) que están en larecta L, sea mínimo. Esto es, se trata de obtener los valores de a yb de tal manera que el valor de la suma de cuadrados de los resi-duos, SSE, sea mínimo. Es decir:

( )2

1

ˆn

i ii

SSE y y=

= −∑ sea mínimo, (5.1)

05_cap5.p65 31/03/2006, 02:48 p.m.236

Page 5: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

237

donde:

iy : son los valores observados de la variable dependiente Y ,

ˆiy : son los valores estimados de Y ,

b : es la pendiente de la recta, llamada también coeficiente de

regresión, para predecir la variable Y ,a : es la constante o interceptoEntonces la ecuación de regresión estimada se expresa como:

ˆˆ ˆY a bX= +

Y recta de regresión para predecir Y .

.............................................

10 ..

0

X 0 5 10 15 20 25 30

Según el método de mínimos cuadrados, se demuestra que ay b valores de a y b que hacen mínima la SSE, satisfacen eldenominado sistema de ecuaciones normales:

1 1

n n

i ii i

y an b x= =

= +∑ ∑ 2

1 1 1

n n n

i i i ii i i

x y a x b x= = =

= +∑ ∑ ∑ . (5.2)

Resolviendo el sistema se deducen los siguientes valores para

las constantes a y b , denominados valores estimados de los co-eficientes de regresión:

2

1 1 1 12

2

1 1

ˆ

n n n n

i i i i ii i i i

n n

i ii i

y x x x ya Y bX

n x x

= = = =

= =

−= = −

∑ ∑ ∑ ∑

∑ ∑ (5.3)

05_cap5.p65 31/03/2006, 02:48 p.m.237

Page 6: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

238

1 1 12

2

1 1

ˆ ,

n n n

i i i ii i i

n n

i ii i

n x y x yb

n x x

= = =

= =

−=

∑ ∑ ∑

∑ ∑ (5.4)

La recta de regresión nos permite, basándonos en los datos dela muestra, estimar un valor de la variable Y —que denotaremoscon ˆiy — correspondiente a un valor dado ix de la variable X .Para ello es suficiente reemplazar el valor de ix en la recta deregresión y encontraremos el correspondiente valor estimado ˆiy .

Ejemplo 1Con los datos de la tabla 1, correspondiente al rendimiento acadé-mico en el nivel superior (Y ) y al rendimiento académico en elnivel secundario ( X ) de 8 estudiantes:

a) Construiremos el diagrama de dispersión.b) Aplicaremos el método de mínimos cuadrados para encon-

trar los coeficientes de regresión lineal.c) Averiguaremos: ¿Cuál será el rendimiento en educación su-

perior de un estudiante con nota promedio de 12 en la edu-cación secundaria?

Tabla 1: Rendimiento académico en secundariay en educación superior de un grupo de alumnos

Estudiantes X Y1 16 152 13 113 15 174 12 145 11 116 16 147 13 158 10 12

Solucióna) Usando los comando del SPSS presentados en el capítulo VII, seobtiene el diagrama de dispersión presentado en la figura 2. Tam-bién presentamos los cálculos para encontrar los valores a y

05_cap5.p65 31/03/2006, 02:48 p.m.238

Page 7: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

239

b de la ecuación de regresión estimada por el método de mínimoscuadrados.

Figura 2

D iag ram a de d isp ers ió n d e re ndim iento en secun d ar iay re ndim iento en e ducac ió n su pe rio r

Rendim iento en educación superior

1 81 61 41 21 0

Ren

dim

ien

toen

secu

ndar

ia

1 7

1 5

1 3

11

9

El diagrama de dispersión nos sugiere que los datos se pue-

den representar mediante una recta Y a bX= + .b) Cálculos necesarios para estimar los coeficientes de regre-

sión y usando el método de mínimos cuadrados

ix iy 2

ix i ix y

16 15 256 240 13 11 169 143 15 17 225 255 12 14 144 168 11 11 121 121 16 14 256 224 13 15 169 195 10 12 100 120

Total 106 109 1440 1466

( )

8 8 8 82

1 1 1 12 28 8

2

1 1

109 1440 106 1466ˆ 5,51

8 1440 106

i i i i ii i i i

i ii i

y x x x ya

n x x

= = = =

= =

−× − ×= = =× − −

∑ ∑ ∑ ∑

∑ ∑

05_cap5.p65 31/03/2006, 02:48 p.m.239

Page 8: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

240

( )1 1 1

2 2

2

1 1

8 1466 106 109ˆ 0,618 1440 106

n n n

i i i ii i i

n n

i ii i

n x y x yb

n x x

= = =

= =

−× − ×= = =× − −

∑ ∑ ∑

∑ ∑Entonces, la recta de regresión de Y sobre X queda expresada

como:

ˆ 5,51 0,61Y X= +Si un estudiante obtiene un rendimiento de 12 en secundaria,

entonces su rendimiento esperado en educación superior se obtie-ne reemplazando X por el valor 12 en la recta definida, es decir:

ˆ 5,51 0,61 12 5,51 7,32 12,83Y = + × = + = .

Puede decirse que se estima que un alumno que tiene un ren-dimiento de 12 puntos en educación secundaria, en educaciónsuperior tendrá un rendimiento de 12,83 puntos.

Análisis de correlación lineal

Nos proponemos investigar si dos variables son independientes ocovarían, esto es, si varían conjuntamente. No expresamos una va-riable como función de la otra, así como tampoco hacemos distin-ción alguna entre variables dependientes e independientes. Puedemuy bien suceder que, de una pareja de variables cuya correlaciónse estudia, una sea causa de la otra, aunque nosotros no lo sepamosni lo sospechemos. Una hipótesis importante, aunque no esencial,es que las dos variables sean efectos de una causa común y lo que sedesea conocer es el grado en el que ambas variables varían conjunta-mente. Así, podríamos estar interesados en la correlación entre laslongitudes de las extremidades superiores y extremidades inferio-res en una población de estudiantes, o entre el peso y la estatura deun grupo de estudiantes, o entre los días necesarios para la madu-rez y el número de semillas en una siembra.

La correlación lineal mide el grado de la asociación lineal en-tre dos variables denotadas con X e Y . Analizando el diagramade dispersión o nube de puntos podemos visualizar el tipo de co-rrelación lineal entre las variables involucradas.

05_cap5.p65 31/03/2006, 02:48 p.m.240

Page 9: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

241

Figura 3. Tipos de correlación lineal

Y Y. .

... .. . . . . . . . . . . . . ..

. . .

X Xa) Correlación positiva b) Correlación negativa

Y. . .

. . . . . . . . . . . . . . .

. . : : : . . . . . . . . .

Xc) Correlación nula

Correlación positiva o directaEn la figura 3(a), las variables X e Y están correlacionadas posi-tivamente o su variación está en razón directa; es decir, el aumentode la medida de la variable X implica el aumento de la medida dela variable Y .

Ejemplo 2En la tabla 2 se presentan las puntuaciones en Literatura ( X ) ylas puntuaciones en Lenguaje (Y) de un grupo de alumnos de uncentro educativo. Se observará su relación a través de un diagramade dispersión.

05_cap5.p65 31/03/2006, 02:48 p.m.241

Page 10: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

242

Tabla 2: Puntuaciones en Literatura y enLenguaje de un grupo de alumnos

Nº Estudiante X Y1 5 122 8 203 12 304 16 305 16 426 24 407 28 50

SoluciónEl diagrama de dispersión, usando los comandos del SPSS presen-tados en el capítulo VII es el siguiente:

Figura 4 Puntuaciones en Literatura y Lenguaje de un grupo de alumnos

P untu ac iones en Li te ra tu ra

3 02 01 00

Pun

tua

cion

es

enLe

ngua

je

6 0

5 0

4 0

3 0

2 0

1 0

Como se puede observar, cuando aumenta el valor de la va-riable X (puntuaciones en Literatura) también aumenta el valorde la variable Y (puntuaciones en Lenguaje); luego, visualizandoque el tipo de correlación entre las puntuaciones en literatura ylenguaje es positiva.

Correlación negativa o inversa

Se dice que las variables X e Y están correlacionadas negativa-mente o su variación está en razón inversa, cuando el aumento de

05_cap5.p65 31/03/2006, 02:48 p.m.242

Page 11: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

243

la medida de la variable X implica la disminución de la medidade la variable Y , o la disminución de la medida de la variable Ximplica el aumento de la variable Y , como se puede observar en lafigura 3(b).

Ejemplo 3La tabla 3 nos muestra las puntuaciones en Literatura ( X ) y las

puntuaciones en Matemática (Y ) de un grupo de alumnos de undeterminado centro educativo. Mostraremos el diagrama de dis-persión.

Tabla 3Puntuaciones en Literatura y en Matemática de un grupo de alumnos

Nº Estudiante ix iy1 10 302 30 153 38 374 40 255 60 356 65 057 80 208 90 10

SoluciónEl diagrama de dispersión, usando los comandos del SPSS presen-tados en el capítulo VII es el siguiente:

Figura 5Puntuaciones en Literatura y Matemática de un grupo de alumnos

Pu n tu a cion es e n L ite ratu ra

10 0806040200

Pu

ntu

aci

on

es

en

Ma

tem

átic

a

40

30

20

10

0

05_cap5.p65 31/03/2006, 02:48 p.m.243

Page 12: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

244

Como se puede apreciar, frente al aumento de las puntuacionesen literatura ( X ) disminuyen las puntuaciones en Matemática (Y ),visualizando la correlación entre X e Y es negativa o inversa.

Correlación nula

En la figura 3(c) las variables no están correlacionadas entre sí; eseste caso, diremos que la correlación entre X e Y es nula; esto lopodemos observar en el siguiente ejemplo.

Ejemplo 4

En la tabla 4, la variable X corresponde a las puntuaciones endeporte y la variable Y corresponde a las puntuaciones en Mate-mática de un grupo de alumnos. Mostraremos el diagrama de dis-persión para identificar el tipo de correlación.

Tabla 4: Puntuaciones en deporte y enMatemática de un grupo de alumnos

Nº Estudiante X Y1 02 252 04 103 04 354 08 055 08 406 14 057 14 158 14 409 18 20

10 18 35

SoluciónEl diagrama de dispersión, usando los comandos del SPSS presen-tados en el capítulo VII es el siguiente:

05_cap5.p65 31/03/2006, 02:48 p.m.244

Page 13: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

245

Figura 6Puntuaciones en deporte y en Matemática

de un grupo de alumnos

P untuac ion es en de po rte

20100

Pu

ntu

aci

on

es

en

Mat

em

átic

a5 0

40

30

20

10

0

Como se puede apreciar, la correlación entre las puntuacionesen deporte ( X ) y las puntuaciones en matemática (Y ) es nula.

Coeficiente de correlación de Pearson ( r )

Existen numerosos coeficientes de correlación en Estadística. Elmás común de ellos es el denominado coeficiente de correlaciónproducto-momento, cuya formulación se debe a Karl Pearson.

El coeficiente de correlación de Pearson se utiliza en el análi-sis de información cuantitativa, cuando se desea medir el grado deasociación lineal entre dos variables cuantitativas.

Sus valores varían entre –1 y 1. El valor +1 indica que entre X eY existe una correlación lineal directa y perfecta; el valor –1, unacorrelación lineal inversa y perfecta. El valor 0 indica ausencia decorrelación lineal.

Para obtener este coeficiente hay una gran variedad de expresio-nes matemáticas que son equivalentes, destacando las siguientes:

a) Para puntuaciones directas o datos originales:

( )( )

( ) ( )2 22 2

i i i i

i i i i

n x y x yr

n x x n y y

−=

− −

∑ ∑ ∑

∑ ∑ ∑ ∑(5.5)

05_cap5.p65 31/03/2006, 02:48 p.m.245

Page 14: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

246

b) para puntuaciones Z (puntuaciones tipificadas):

x y

x

Z Zr

S= ∑

, (5.6)

donde:

ix

x

x XZ

S

−= .iy

y

y YZ

S

−=

Propiedades

El valor de r se encuentra entre –1 y +1, de donde se deduce que:a) Si r > 0, existe correlación directa o correlación positiva,b) Si r < 0, existe correlación inversa o correlación negativa.

En la interpretación clásica del coeficiente de correlación sededuce, por ejemplo, que si:

a) 0 0,20r≤ < , la correlación es muy baja,b) 0,20 0,40r≤ < , existe una correlación baja,c) 0,40 0,70r≤ < , existe una moderada correlación positiva,d) 0,70 1,00r≤ < , existe de moderada a buena correlación

positiva,e) 1,00r = , existe una perfecta correlación positiva,f) 1,0 0,70r− ≤ < − , existe de moderada a buena correlación

inversa,g) 1,00r = − , existe una perfecta correlación inversa.

Ejemplo 5Se desea saber el grado de relación entre los años de escolaridad dela madre ( X ) y las calificaciones de sus hijos en una prueba deMatemática (Y ). Los datos se presentan en la siguiente tabla.

Tabla 5: Años de escolaridad de la madre y calificacionesde sus hijos en una prueba de Matemática

Estudiantes X Y1 8 122 5 83 3 84 6 105 7 10

05_cap5.p65 31/03/2006, 02:48 p.m.246

Page 15: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

247

SoluciónEn la siguiente tabla se presentan los cálculos auxiliares:

Estudiantes ix iy i ix y 2ix 2

iy1 8 12 96 64 1442 5 8 40 25 643 3 8 24 9 644 6 10 60 36 1005 7 10 70 49 100

n= 5 29 48 290 183 472

Reemplazando los valores obtenidos en la ecuación (5.5) parapuntuaciones directas obtenemos:

( ) ( )( )( ) ( ) [ ]( ) ( )2 2

5 290 29 48 580,9

74x565 183 29 5 472 8r

−= = =

− − El valor del coeficiente de correlación es 0,9, significa una alta

correlación positiva; es decir, el nivel de escolaridad de la madreestá fuertemente relacionado al rendimiento académico de sushijos en Matemática.

Ejemplo 6En la segunda y tercera columna de la Tabla 6 se tiene la informa-ción sobre coeficientes de inteligencia y puntajes en Matemáticaspara una muestra aleatoria de 12 estudiantes que estudiaron elprimer año de secundaria en el colegio Cabrera Tapia en el año2000. Encontraremos el coeficiente de correlación de Pearson.

El primer día de clases, a todos ellos se les aplicó una pruebapara obtener sus coeficientes de inteligencia ( X ) en la escalaStanford-Binet y al término del año se les aplicó una prueba de 35ítems para evaluar su rendimiento en Matemática.

Solución

X : puntajes obtenidos en la prueba Stanford-Binet

Y : rendimiento en Matemáticas

05_cap5.p65 31/03/2006, 02:48 p.m.247

Page 16: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

248

Tabla 6: Rendimiento de los estudiantes en Matemática y puntajesobtenidos en la prueba Stanford-Binet

ix iy 2ix

2iy i ix y

1 120 17 14400 289 2040 2 112 15 12544 225 1680 3 110 15 12100 225 1650 4 120 19 14400 361 2280 5 103 12 10609 144 1236 6 126 20 15876 400 2520 7 113 15 12769 225 1695 8 114 17 12996 289 1938 9 106 14 11236 196 148410 108 14 11664 196 151211 128 19 16384 361 243212 109 14 11881 196 1526

Totales 1369 191 156859 3107 21993

Con la fórmula (5.5) obtenemos el coeficiente de correlación dePearson:

( )( ) ( )( )2 2

12(21993) 1369(191)0,953

12(156859) 1369 12(3107) 191r

−= =− −

Se observa muy buena correlación directa y positiva entre co-eficiente de inteligencia y el rendimiento académico en el curso dematemática.

Ejemplo 7En la tabla 7 se tiene información de una muestra aleatoria de 15alumnos del centro educativo Teresa Gonzales de Fanning. Se de-sea obtener el coeficiente de correlación entre los puntajes obteni-dos en Aritmética y Lenguaje para medir su grado de relación.

05_cap5.p65 31/03/2006, 02:48 p.m.248

Page 17: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

249

Tabla 7: Rendimientos de una muestra de estudiantesdel colegio Teresa Gonzales de Fanning, 1998.

Estudiante Aritmética Lenguaje 1 15 1 2 14 15 3 13 12 4 12 12 5 11 10 6 13 15 7 15 15 8 15 16 9 16 1710 12 1511 11 1212 8 913 10 1114 15 1415 13 15

SoluciónSe ilustran los cálculos auxiliares del coeficiente de correlación dePearson con los valores observados de las variables notas en Arit-mética ( X ) y notas en Lenguaje (Y).

Estudiante ix iy 2ix i ix y

2iy

1 15 16 225 240 256 2 14 15 196 210 225 3 13 12 169 156 144 4 12 12 144 144 144 5 11 10 121 110 100 6 13 15 169 195 225 7 15 15 225 225 225 8 15 16 225 240 256 9 16 17 256 272 28910 12 15 144 180 22511 11 12 121 132 14412 8 9 64 72 8113 10 11 100 110 12114 15 14 225 210 19615 13 15 169 195 225

2 2i193 204 2553 x 2691 2856i i i i ix y x y y= = = = =∑ ∑ ∑ ∑ ∑

Luego, el coeficiente de correlación entre las notas de Aritméticay Lenguaje es:

05_cap5.p65 31/03/2006, 02:48 p.m.249

Page 18: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

250

( ) ( )( ) ( ) ( ) ( )2 2

15 2691 193 2040,878

15 2553 193 15 2856 204r

−= =

− −

Se observa una correlación alta y positiva entre los puntajesobtenidos en los cursos de Aritmética y Lenguaje.

Ejemplo 8Para los datos del ejemplo 5, usando comandos del SPSS, se mos-trará el diagrama de dispersión y ajustará el modelo de regresiónlineal simple.

Solucióna) Usando comandos presentados en el capítulo VII se obtiene

el siguiente diagrama de dispersión.

Figura 7Años de escolaridad de la madre y calificaciones

de los hijos en una prueba de Matemática

A ñ os de esc o la rid ad de la m a dre

98765432

Cal

ifica

cio

nes

enM

atem

átic

a

13

12

11

10

9

8

7

Se observa que existe una relación lineal directa y positivaentre los años de escolaridad de la madre y las calificaciones enuna prueba de Matemática que rinden los hijos.

b) El siguiente cuadro, también obtenido a partir del SPSS, nosproporciona resultados para encontrar la ecuación de la recta deregresión ajustada por el método de mínimos cuadrados ordinarios.

05_cap5.p65 31/03/2006, 02:48 p.m.250

Page 19: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

251

Coefficients a

5,054 1,318 3,834 ,031

,784 ,218 ,901 3,597 ,037

(Constant)Años de escolaridad de la madre

Model1

B Std. E

Unstandardized Coefficients

Beta

Standardized

Coefficients

t Sig.

Dependent Variable: Calificaciones en una Prueba de Matemática a.

b aLa recta de regresión lineal simple ajustada por el método de

mínimos cuadrados es:

Y = 5,054 + 0,784 X ,donde nos indica que un incremento de un año en los años de

escolaridad de la madre, incrementará en promedio 0,784 puntosla calificación de sus hijos en la prueba de matemática.

Ejemplo 9Usando la información que corresponde a las variables califica-ción promedio y notas en el curso de álgebra de la base DATOS3-educación, se ajusta la recta de regresión usando el método demínimos cuadrados. A continuación se presentan el gráfico y lassalidas proporcionadas por el SPSS.

Solucióna) Usando comandos del SPSS se encuentra el siguiente

diagrama de dispersión:

Figura 8Notas de Álgebra y calificación promedio de

profesores de educación secundaria

N o ta s d e Á lg e b ra

161412108

05_cap5.p65 31/03/2006, 02:48 p.m.251

Page 20: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

252

Observamos que las notas de Álgebra y las calificaciones pro-medio de profesores que participaron en el programa de capacita-ción, tienen una relación directa o positiva.

b) El coeficiente de correlación de Pearson:

M odel Sum m ary

,9 25a ,8 55 ,8 52 ,5 2M ode l1

R R S q uareA d jus tedR S q uare

S td . E rro r o fth e E s tim a te

P red ic to rs : (C o ns tan t), N O TA S D E Á LG E B R Aa.

r = 0,925 coeficiente de correlación lineal.

Se encuentra una correlación alta y positiva entre las notas deálgebra y las calificaciones promedio que alcanzaron los profeso-res que participaron en el programa de capacitación.

c) Los coeficientes de la recta de regresión:C oefficien ts a

3 ,8 5 3 ,4 7 7 ,0 0 0

,7 0 8 ,0 4 3 ,9 2 5 1 6 ,2 9 9 ,0 0 0

(C o n s ta n t)

N O T A S D E A L G E B R A

M o d e l1

B S td . E rro r

U n s ta n d a rd iz e dC o e ffic ie n ts

B e ta

S ta n d a rd iz e d

C o e ffic ie nts

t S ig .

D e p e n d e n t Va r ia b le : N O TA S P R O M E D IOa .

a bcon los que se obtiene la ecuación de la recta de regresión

ajustada por el método de mínimos cuadrados:

Y = 3,853 + 0,708 X ,

donde vemos que un incremento en la notas de Álgebra de unpunto, incrementará la calificación promedio de los profesores deeducación secundaria, en promedio en 0,708 puntos.

05_cap5.p65 31/03/2006, 02:48 p.m.252

Page 21: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

253

Análisis de regresión lineal múltiple

La ecuación de regresión lineal simple estudiada en la secciónanterior, se puede generalizar a una ecuación de regresión linealmúltiple, cuando se tenga dos o más variables independientes oregresoras 1 2, ,...., kX X X , y una variable independiente o res-puesta Y .

Explicaremos el análisis de regresión lineal múltiple con losdatos del ejemplo 10, en el que se muestran los coeficientes de inte-ligencia (IQ), los promedios de las calificaciones y el tiempo quededican al estudio 12 estudiantes. Se desea predecir el promediode las calificaciones de estos estudiantes en función de sus coefi-cientes de inteligencia y de los tiempos que dedican al estudio. Setienen dos variables regresoras: coeficiente de inteligencia, 1X ytiempo dedicado al estudio, 2X , para explicar el comportamientode la variable dependiente o respuesta Y : calificación promediode los estudiantes.

Para el problema descrito se postula la forma general de laecuación de regresión lineal múltiple:

1 2ˆˆ ˆ ˆY a bX cX= + + (5.7)

donde:Y : valores estimados de la variable dependiente o respuesta,a , b , c : coeficiente de regresión de la ecuacuón de regre-sión lineal múltiple,

1X , 2X : variables independientes o regresoras,

Esta ecuación es muy similar a la utilizada en la regresiónlineal simple, excepto que agregamos otra variable independiente.

Para hallar los valores de a , b , c , se toma una muestra de los

valores ( iy , 1ix 2ix ) 1,...,i n= , y para cada punto se tiene el

sistema de ecuaciones, 1 2i i iy a bx cx= + + , donde iy es el

i-ésimo valor de la variable Y , 1ix , 2ix , los i-ésimos valores

de las variables independientes 1X , 2X , . Luego, se usa el método

05_cap5.p65 31/03/2006, 02:48 p.m.253

Page 22: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

254

de mínimos cuadrados para encontrar los valores a de a , b de

b y c de c , que hacen mínima la suma de cuadrados de los

errores, es decir, que minimizan ( )2

1

ˆn

i ii

SSE y y=

= −∑ .

Cabe resaltar que el método de mínimos cuadrados conduce aun sistema de ecuaciones denominadas ecuaciones normales, apartir de las cuales, utilizando conceptos de algebra matricial seencuentran los estimadores a , b , c de los parámetros a , b , ctema que está fuera de los objetivos del presente libro y que no seráabordado aquí.

Todos los problemas de regresión múltiple serán resueltos conel soporte del SPSS, puesto que en la mayoría de las investigacio-nes el número de observaciones y el número de variables es gran-de, lo que dificulta el trabajo manual.

Ejemplo 10Para una muestra de 12 estudiantes se dispone de sus coeficientesde inteligencia , tiempo semanal dedicado al estudio y los prome-dios de sus calificaciones . Vamos a ajustar la ecuación de regre-sión lineal múltiple, la que explique en función de y , usando elmétodo de mínimos cuadrados.

Promedio de calificaciones, Coeficiente intelectual yTiempo dedicado al estudio

Estudiante IQ Tiempo de estudio Promedio de calificaciones

( )1X ( )2X ( )Y

1 110 8 1,02 112 10 1,63 118 6 1,24 119 13 2,15 122 14 2,66 125 6 1,87 127 13 2,68 130 12 2,09 132 13 3,210 134 11 2,611 136 12 3,012 138 18 3,6

05_cap5.p65 31/03/2006, 02:48 p.m.254

Page 23: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

255

SoluciónPostulamos la ecuación de regresión 1 2Y a bX cX= + + , para es-tudiar la relación entre Y y las variables 1X , 2X , donde:

1X : Coeficiente intelectual (IQ)

2X : Tiempo de estudio

Y : Promedio de calificaciones

Usamos las opciones del SPSS:Activar el SPSS y copiar los datos en un archivo de nombre:

COEFICIENTE.En VARIABLE VIEW, definir las siguientes variables: IQ, TIEM-

PO y CALIFICA con sus respectivas especificaciones y, en DATAVIEW, colocar los datos de la tabla. Ejecutar ANALYZE/REGRESSION/LINEAR/ ingresar en DEPENDENT la variableCALIFICA y en INDEPENDENT las variables IQ TIEMPO/OK.

El output del SPSS es el siguiente:

C oefficien ts

U n standard ized

, , , ,

a

Las estimaciones de los parámetros son:

ˆ 5,249a = − , b = 0,049 c = 0,118Luego, la ecuación de regresión lineal múltiple ajustada por

el método de mínimos cuadrados es:

b

c

05_cap5.p65 31/03/2006, 02:48 p.m.255

Page 24: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

256

1 2ˆ 5, 249 0,049 0,118Y X X= − + +

donde, manteniendo constante la variable tiempo de estudio,un incremento en el coeficiente intelectual (IQ) de un punto, porejemplo, es acompañado por un incremento en el promedio de ca-lificaciones de 0,049 puntos. En forma similar, manteniendo cons-tante la variable coeficiente intelectual, un incremento de 1 hora enel tiempo de estudio, es acompañado por un incremento en el pro-medio de calificaciones de 0,118 puntos.

Coeficiente de determinación

El coeficiente de determinación 2R , multiplicado por 100, indicael porcentaje de la variación de la variable dependiente y que esexplicado por las variaciones de las variables independientes delmodelo.

También se dice que mide la bondad del ajuste o de la recta deregresión ajustada por el método de mínimos cuadrados.

Se puede demostrar que la variabilidad de Y , expresada por

la suma de cuadrados total, SST= ( )2

iy y−∑ , se puede divi-

dir en dos componentes: la suma de cuadrados debido a la regre-

sión, ( )2ˆiSSR y y= −∑ , y la suma de cuadrados debido a los

residuos, ( )2ˆi iSSE y y= −∑ . Es decir: , donde:

SST: suma de cuadrados del total

SSR: suma de cuadrados debido a la regresión

SSE: suma de cuadrados debido a los residuos

Por ello, resulta natural definir el coeficiente de determina-ción como:

2 SSRR

SST=

Retomando nuestro ejemplo en el que la variable dependientees el promedio de calificaciones de un alumno y la variables inde-

05_cap5.p65 31/03/2006, 02:48 p.m.256

Page 25: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

257

pendientes, el coeficiente de inteligencia y el tiempo dedicado alestudio; calcularemos la SST, SSR, SSE y el coeficiente dedeterminación 2R , usando el SPSS.

El output del SPSS es el siguiente:

A NO VA

M od el

S u m o f Sq u are s

, , , ,

, ,

,

d f

2 SSRR

SST= =

2 6,3890,91

7, 022R = =

El coeficiente de determinación 0,91 significa que el 91% delas variaciones observadas en la calificación promedio de los alum-nos son explicadas por las variaciones del puntajes de coeficientede inteligencia y del tiempo dedicado al estudio.

El valor 0,09 = 1 – 0,91, llamado coeficiente de alienación,indica que el 9% de las variaciones observadas en la calificaciónpromedio de los alumnos no son explicables por las variaciones enlos puntajes del coeficiente de inteligencia y del tiempo dedicadoal estudio, sino por otras variables o factores no considerados en elmodelo.

Coeficiente de correlación parcial

A veces, una alta correlación entre dos variables cuantitativas seinterpreta equivocadamente como una relación de causa y efectoentre ellas; pero esa alta correlación puede deberse a la influenciade otras variables subyacentes, denominadas variables espurias.Así, por ejemplo, si se observa una relación positiva entre la asis-tencia a la iglesia los domingos y la honestidad de las personasmayores, esto no implica necesariamente que las personas sonhonestas porque van a misa los domingos, pues una razón subya-cente para que las dos variables estén correlacionadas puede en-

05_cap5.p65 31/03/2006, 02:48 p.m.257

Page 26: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

258

contrarse en variables subyacentes como el entrenamiento tempra-no en asistir a la iglesia y en enseñar a los niños a tener actitudeshonestas.

El coeficiente de correlación parcial mide la relación linealentre dos variables, eliminando la influencia que puedan ejercerotras variables. Así, para las variables X1, X2 y X3, el coeficiente decorrelación parcial entre las dos primeras variables mide la rela-ción lineal entre las variables X1, X2 eliminando la influencia quepuede ejercer la tercera variable X3. La fórmula de cálculo es lasiguiente:

( ) ( )12 13 23

12 3 2 2

13 231 1r r rr

r r•

−=

− − (5.8)

donde 12.3r es el coeficiente de correlación parcial entre X1, yX2, controlando X3.

El coeficiente de correlación parcial entre X1, y X2, controlan-

do X3 y 4X se define como:

( )( )12 3 14.3 24 3

12 34 2 2

14 3 24 31 1r r rr

r r• •

• •

−=

− −

La fórmula de obtención del coeficiente de correlación parcial

entre las variables iX y jX , controlando las variables

1 1 1 1 1,..., , ,...., , ,....i i j j kX X X X X X− + − + , 1,2,...., 1, 1,...., 1, 1,...,ij i i j j kr • − + − + ,

es la siguiente:

1,2,...., 1, 1,...., 1, 1,...,

1,2,...., 1, 1,...., 1, 1,...,1,2,...., 1, 1,...., 1, 1,..., 1,2,...., 1, 1,...., 1, 1,...,

ij i i j j k

ij i i j j kii i i j j k jj i i j j k

sr s s

• − + − +• − + − +

• − + − + • − + − +

=

donde:

1,2,...., 1, 1,...., 1, 1,...,ii i i j j ks • − + − + :varianza de la variable iX ,

controlando las variables 1 1 1 1 1,..., , ,...., , ,....i i j j kX X X X X X− + − + ;

05_cap5.p65 31/03/2006, 02:48 p.m.258

Page 27: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

259

1,2,...., 1, 1,...., 1, 1,...,jj i i j j ks • − + − + : varianza de la variable jX , con-

trolando las variables 1 1 1 1 1,..., , ,...., , ,....i i j j kX X X X X X− + − + .

Ejemplo 11Con la base de DATOS3-educación se ilustra el cálculo del coefi-ciente de correlación parcial entre la nota promedio y la nota deÁlgebra, controlando la nota de Aritmética.

1X : notas promedio

2X : notas de Álgebra

3X : notas de Aritmética

Solucióna) Considerar la base DATOS3- educación y calcular los coefi-cientes de correlación simple entre los pares de variables 1X , 2X

3X , usando los comandos del capítulo VII, la salida es:

1 ,925 ,903 ,925 1 ,893 ,903 ,893 1

Pearson Correlation

Pearson Correlation

Pearson Correlation

NOTAS PROMEDIO

NOTAS DE ARITMÉTICA

NOTAS

PROMEDIO

NOTAS DE

ÁLGEBRA

NOTAS DE

ARITMÉTICA

NOTAS DE ÁLGEBRA

donde:

12 13 230,925; 0,903; 0,893r r r= = =

y se obtiene el valor del coeficiente de correlación parcial entre

la nota promedio ( 1X ) y la nota de álgebra ( 2X ), manteniendo

constante la nota en aritmética ( 3X ), usando la ecuación (5.8):

( )( )( )12 3

2 2

0,925 0,903 0,893 0,11860,6117

0,03741 0,903 1 0,893r •

−= = =

− − .

El coeficiente de correlación entre la nota promedio y la notaen álgebra es 0,925, en tanto que la correlación entre ellas elimi-nando la influencia de la nota de aritmética es 0,6117; lo que signi-

05_cap5.p65 31/03/2006, 02:48 p.m.259

Page 28: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

260

fica que la correlación lineal entre la nota de Álgebra y la notapromedio estaba influenciada por la nota en Aritmética.

b) Usando el SPSS, se abre la base de DATOS3-EDUCACIONy con los comandos del capítulo VII se tiene el siguiente cuadro:

Control NOTAS NOTAS DEVariables PROMEDIO ÁLGEBRANOTAS DE NOTAS Correlation 1,000 ,611ARITMÉTICA PROMEDIO

NOTAS DE Correlation ,611 1,000ÁLGEBRA

Como puede observarse, el valor del coeficiente de correlaciónparcial coincide con el valor ya encontrado.

Ejemplo 12Se sabe que la disposición de las mujeres a trabajar fuera de casano ha sido la misma en todas las épocas, y también que varía de unlugar a otro y de unos grupos sociales a otros. En estas condicio-nes, puede preguntarse qué variables influyen para que las muje-res estén más o menos dispuestas a trabajar fuera de casa. Estaspreguntas se plantean hoy día los sociólogos y consideran que sila variable dependiente fuera el porcentaje de mujeres trabajado-ras, estaría explicada por algunas variables como: el salario queperciben las mujeres, el salario percibido por el marido, el númerode hijos, edad de las mujeres, tasa general de desempleo, entreotras. En la base DATOS7-mujeres, se tienen los valores observa-dos de las variables:

3Z : logaritmo ( 2X / 1X )

1X : salario promedio de las mujeres

2X : salario promedio de los hombres

3X : número promedio de hijos por familia

4X : edad promedio de las mujeres, para una muestra deseñoras casadas.

a) Encontrar el coeficiente de correlación lineal entre los sala-rios de las mujeres y los salarios de los hombres.

05_cap5.p65 31/03/2006, 02:48 p.m.260

Page 29: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

261

b) Se propone encontrar el coeficiente de correlación parcialentre los salarios de los hombres y las mujeres, controlando la va-riable edad de las mujeres.

Solucióna) Abrir la base de DATOS7-mujeres y seleccionar los comandosdel SPSS del capítulo VII (procedimientos estadísticos) que permi-ten obtener el coeficiente de correlación simple. El output del SPSSnos proporciona el coeficiente de correlación simple entre los sa-larios de los hombres y las mujeres.

CorrelationsSalario de Salario demujeres hombres

Salario de mujeres Pearson Correlation 1 ,807Salario de hombres Pearson Correlation ,807 1

b) Abrir la base DATOS7- mujeres y seleccionar los comandosdel capítulo VII que permiten obtener el coeficiente de correlación

parcial, de 1X y 2X controlando 4X .

El output del SPSS nos proporciona el coeficiente de correla-ción parcial entre los salarios de los hombres y las mujeres, contro-lando la edad de las mujeres.

CorrelationsControl Salario de Salario deVariables las mujeres los hombresEdad de las Salario de las Correlation 1,000 ,806mujeres mujeres

Salario de Correlation ,806 1,000los hombres

Así, 12 0,807r = es el valor del coeficiente de correlación linealentre los salarios de las mujeres y los salarios de los hombres, valorque indica una buena relación directa entre las variables. Por otrolado, 12 4 0,806r • = , es el valor del coeficiente de correlación entrelos salarios de los hombres y los salarios de las mujeres controlan-do la edad de las mujeres. Se observa que la correlación entre lossalarios de las mujeres y de los hombres no está influenciada por la

05_cap5.p65 31/03/2006, 02:48 p.m.261

Page 30: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

262

edad de la mujer, puesto que se sigue manteniendo alta cuando lavariable edad de las mujeres es controlada.

Ejercicios

1. En los siguientes casos identifique en caso de ser posible la(s)variable(s) dependiente(s) e independiente(s).

a) El presupuesto familiar destinado a la educación de los hi-jos y los ingresos familiares.

b) El volumen de ventas de una empresa y la inversión en pro-paganda.

c) El número de hijos por familia y el nivel educativo de lospadres.

d) El analfabetismo, lugar de residencia y la expansión del ser-vicio educativo.

e) La edad y el tiempo efectivo de servicio de los docentes afi-liados al sindicato de profesores.

2. A 10 candidatos del programa de doctorado en Psicología se lesaplica una prueba de personalidad ( X ) y un examen general deconocimientos (Y ). Las puntuaciones fueron las siguientes:

Candidato A B C D E F G H I JX 2,96 2,46 3,36 3,40 2,43 2,12 2,85 3,12 3,20 2,75Y 529 506 591 610 474 509 550 600 575 540

Realice el análisis de regresión y correlación lineal.

3. Un profesor de Estadística realiza un estudio para investigar larelación que existe entre la ansiedad y el rendimiento de susestudiantes en los exámenes. Elige a 10 estudiantes para el expe-rimento y, antes de asistir al examen final, los 10 estudiantesrespondieron un cuestionario de ansiedad. A continuación setienen las calificaciones de la prueba final y los puntajes obteni-dos en el cuestionario de ansiedad.

Ansiedad 28 41 35 39 31 42 50 46 45 37Examen 82 58 63 89 92 64 55 70 51 72Final

05_cap5.p65 31/03/2006, 02:48 p.m.262

Page 31: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

263

a) Elabore el diagrama de dispersión. Utilice la ansiedad comola variable regresora o independiente.

b) Describa la relación que muestra el diagrama de dispersión.c) Suponga que la relación es lineal y calcule el valor del co-

eficiente de correlación e interprete.d) Determine la recta de regresión por mínimos cuadrados

para predecir la calificación del examen final dado el nivelde ansiedad.

e) Si un estudiante tiene un nivel de ansiedad de 38, ¿qué va-lor podría predecirse para su calificación en el examen fi-nal?

4. Se realiza un estudio con 10 estudiantes de postgrado en Educa-ción. 1X es el número de problemas resueltos correctamente porun estudiante en clase, 2X son las puntuaciones obtenidas alaplicarles una prueba psicológica que mide la autoestima, e Yes el número de problemas que cada estudiante espera resolvercorrectamente en el examen final. Con los datos que se presentana continuación realice el análisis de regresión lineal múltipleusando el SPSS.

Estudiante Número Puntuación en Número deproblemas autoestima problemas que esperaresueltos resolver en el examen finalen clase

1 14 5 142 8 15 53 9 19 84 13 33 115 10 39 156 11 38 147 14 74 188 15 74 199 11 11 710 16 78 17

5. Se aplicó a un grupo de 18 adolescentes sordomudos la pruebade inteligencia de Wechsler para adultos (Wais) y cuatro subtest.Las puntuaciones de ambas aplicaciones son las siguientes:

05_cap5.p65 31/03/2006, 02:48 p.m.263

Page 32: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

264

Adolescentes Wais Razonamiento Razonamiento Relaciones Velocidad y mecánico abstracto espaciales exactitud

1 48 22 38 15 25 2 48 19 38 15 40 3 47 20 37 20 21 4 46 20 37 17 20 5 46 17 35 19 18 6 43 21 34 15 17 7 42 21 34 14 31 8 42 19 33 20 35 9 41 17 33 13 3510 40 15 32 15 2711 39 15 32 12 1712 32 11 25 15 2813 31 17 25 9 2914 30 16 23 9 3715 29 15 22 13 2916 29 15 21 9 3917 28 16 20 11 2818 27 16 18 11 38

a) Realice un análisis de regresión lineal simple de Y con cadauno de los cuatro subtest.

b) Realice un análisis de regresión lineal múltiple.

6. Se conocen las edades ( X ) y la presión sanguínea (Y ) de 12mujeres. Si

2 2628, 1684, 34416, 238822, 89894.ii i i i ix y x y x y= = = = =∑ ∑ ∑ ∑ ∑

a) Encuentre la recta de regresión de Y sobre X .b) Si una mujer tiene 49 años, ¿cuál sería su presión sanguí-

nea?c) Si una mujer tiene 72 años, ¿cuál es la presión sanguínea

esperada?

7. La siguiente tabla muestra las calificaciones obtenidas por 10estudiantes en dos pruebas de Estadística:

X : Primera prueba 12 10 16 16 14 12 20 8 18 14

Y : Segunda prueba 16 14 14 20 10 16 20 12 16 12

05_cap5.p65 31/03/2006, 02:48 p.m.264

Page 33: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

265

a) Construya el diagrama de dispersión.b) Obtenga la recta de regresión de Y sobre X .c) Si un estudiante obtuvo 14,7 en la primera prueba, ¿cuánto

se espera que obtenga en la segunda prueba?

8. Dos profesores, con el propósito de examinar cuál es la influen-cia que los métodos de enseñanza basados en el trabajo libre ycreativo del alumno ejercen sobre su rendimiento escolar, lleva-ron a cabo una investigación con 122 niños y niñas, en los queevaluaron los siguientes aspectos:

Creatividad : CREAT Coeficiente intelectual :C.I.Capacidad de orden : ORDEN Rendimiento escolar :RENDIM.

CASO ORDEN C.I. RENDIM. CREAT. CASO ORDEN C.I. RENDIM. CREAT.1 8 114 0,85 8,00 31 4 109 0,84 4,502 6 103 0,87 4,00 32 7 113 0,88 7,503 5 97 0,90 8,00 33 7 123 0,86 6,004 3 94 0,80 2,00 34 10 106 0,91 8,005 4 88 0,70 9,00 35 7 110 0,74 6,006 6 76 0,70 4,00 36 6 95 0,62 5,507 7 116 1,00 10,0 37 9 125 0,92 7,008 4 86 0,73 5,50 38 6 100 0,62 2,009 4 97 0,99 3,00 39 7 112 0,72 2,0010 3 91 0,75 8,00 40 3 53 0,14 5,0011 6,5 123 1,50 3,50 41 3,5 77 0,21 1,5012 5 63 0,73 1,00 42 7 100 0,65 3,5013 3 92 0,90 6,00 43 8 105 0,78 5,0014 5 86 0,82 8,00 44 5 89 0,48 0,0015 5,5 84 0,81 5,00 45 6 105 0,91 4,5016 4,5 63 0,62 5,00 46 4 92 0,97 6,0017 4 88 0,77 7,00 47 3 98 0,62 2,0018 10 128 0,99 7,00 48 3 91 0,84 4,0019 7 102 0,78 6,00 49 6 90 0,63 0,0020 8 115 0,98 7,00 50 6 98 0,89 6,5021 6 93 0,74 6,00 51 6 113 1,05 6,0022 10 130 0,94 7,00 52 4 92 0,84 3,0023 7 90 0,76 4,00 53 8 98 0,74 5,0024 5 90 0,81 5,00 54 7 86 0,58 0,5025 9 102 0,2 8,00 55 5 88 0,82 2,0026 7 102 0,85 7,00 56 5 88 0,82 1,5027 7 99 0,91 6,00 57 5 102 0,75 3,0028 6 100 0,73 6,00 58 5 101 0,88 6,5029 6 88 0,64 5,00 59 6 76 0,81 4,0030 4 74 0,45 3,00 60 4 94 0,65 0,00

05_cap5.p65 31/03/2006, 02:48 p.m.265

Page 34: Capítulo V Análisis de regresión y correlación lineal · diante el análisis de correlación. Capítulo V Análisis de regresión y correlación lineal 05_cap5.p65 233 31/03/2006,

266

a) Use comandos del SPSS para crear el archivo de datos.b) ¿Existe relación entre inteligencia y creatividad?c) Sobre la base de los datos obtenidos en esta experiencia, ¿pode-

mos afirmar que, a mayor creatividad, corresponde una menorcapacidad de orden?

d) Sobre la base de los datos obtenidos en esta experiencia, ¿pode-mos afirmar que existe relación lineal entre rendimiento escolary creatividad?

e) ¿Cuál es la recta que mejor permite predecir la variable rendi-miento escolar en función de la variable creatividad? Interprete.

f) ¿Manteniendo constante la capacidad intelectual de los alum-nos, la creatividad está relacionada con el rendimiento escolar?

g) Sobre la base de los datos obtenidos en esta experiencia, ¿pode-mos afirmar que existe relación lineal entre el rendimiento esco-lar y la inteligencia?

h) ¿Cuál es la ecuación de la recta que permite predecir el rendi-miento escolar en función de la variable inteligencia? Interprete.

05_cap5.p65 31/03/2006, 02:48 p.m.266