2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... ·...

14
40 2.4.3 Regresión y correlación simple “Un vaso medio vacío de vino es también uno medio lleno, pero una mentira a medias, de ninguna manera es una media verdad” Jean Cocteau “Entre afirmar que la calidad de un proceso es 50% buena o afirmar que es 50% mala, se marca el futuro del empleo del gerente” MOVE OBJETIVOS Explicar los conceptos propios de la regresión y la correlación Ajustar una recta de mínimos cuadrados Aplicar un modelo de regresión lineal Calcular e interpretar el coeficiente de correlación Calcular y analizar el coeficiente de determinación. Hasta el momento los temas vistos han sido para datos univariados. En este capítulo se tratarán algunos conceptos importantes relacionados con datos bivariados. Estos datos son los que se obtienen al analizar dos variables en forma simultánea. Por ejemplo el peso y la estatura de cada persona, el tiempo de estudios y el nivel de ingresos por empleado o los costos de publicidad y los ingresos por ventas. En el estudio de las relaciones entre dos variables se distinguen dos tipos de técnicas: CORRELACIÓN: ¿Existe dependencia entre las variables? ¿Cuál es el grado de dependencia? REGRESIÓN: ¿Cuál es el tipo de dependencia entre las dos variables? ¿Pueden estimarse los valores de la dependiente en función de los de la independiente? 2.4.3.1 COEFICIENTE DE CORRELACION r El coeficiente de correlación r mide el grado de asociación entre dos variables. Fórmula;

Transcript of 2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... ·...

Page 1: 2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... · determinar el coeficiente de correlación y la ecuación de regresión lineal simple. ...

40

2.4.3 Regresión y correlación simple

“Unvasomediovacíodevinoestambiénunomediolleno,perounamentiraamedias,deningunamaneraesunamediaverdad”

JeanCocteau

“Entreafirmarquelacalidaddeunprocesoes50%buenaoafirmarquees50%mala,semarcaelfuturodelempleodelgerente”

MOVE

OBJETIVOS

• Explicar los conceptos propios de la regresión y la correlación • Ajustar una recta de mínimos cuadrados • Aplicar un modelo de regresión lineal • Calcular e interpretar el coeficiente de correlación • Calcular y analizar el coeficiente de determinación.

Hasta el momento los temas vistos han sido para datos univariados. En este capítulo se tratarán algunos conceptos importantes relacionados con datos bivariados. Estos datos son los que se obtienen al analizar dos variables en forma simultánea. Por ejemplo el peso y la estatura de cada persona, el tiempo de estudios y el nivel de ingresos por empleado o los costos de publicidad y los ingresos por ventas.

En el estudio de las relaciones entre dos variables se distinguen dos tipos de técnicas:

CORRELACIÓN:

¿Existe dependencia entre las variables?

¿Cuál es el grado de dependencia?

REGRESIÓN:

¿Cuál es el tipo de dependencia entre las dos variables?

¿Pueden estimarse los valores de la dependiente en función de los de la independiente?

2.4.3.1 COEFICIENTE DE CORRELACION r El coeficiente de correlación r mide el grado de asociación entre dos variables.

Fórmula;

Page 2: 2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... · determinar el coeficiente de correlación y la ecuación de regresión lineal simple. ...

41

EJEMPLO

Se quiere establecer la relación entre el número de comerciales que se transmiten al día sobre un producto y las ventas semanales del producto en miles de unidades monetarias. Para esto se obtiene la siguiente información:

Número de comerciales X: 4 4 5 6 9 11 13 14 17 18

Ventas semanales Y: 2.,0 1,3 1,5 2,0 2,8 3,0 3,5 3,0 4,0 4,5

Estos valores corresponden a parejas ordenadas (x, y) que podemos llevar al plano cartesiano y marcar los puntos respectivos obteniendo un gráfico llamado “Diagrama de Dispersión” o Nube de Puntos.

La realización del diagrama de dispersión es fundamental. A partir de él visualizamos el comportamiento de los datos y nos indica, en forma aproximada, el tipo de relación que hay entre las variables.

Enseguida elaboramos la siguiente tabla, que facilita la aplicación de las fórmulas para determinar el coeficiente de correlación y la ecuación de regresión lineal simple.

X

Y

XY

X2

Y2

4 2,0 8 16 4

4 1,3 5,2 16 1,69

Page 3: 2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... · determinar el coeficiente de correlación y la ecuación de regresión lineal simple. ...

42

5 1,5 7,5 25 2,25

6 2,0 12 36 4

9 2,8 25,2 81 7,84

11 3,0 33 121 9

13 3,5 45,5 169 12,25

14 3,0 42 196 9

17 4,0 68 289 16

18 4,5 81 324 20,25

101

27,6

327,4

1273

86,28

r=0,962

El valor de este coeficiente da entre –1 y 1 es decir,

de tal forma que:

Si r se acerca a 1 hay correlación positiva entre las variables

si se acerca a –1 la correlación es negativa y

si se acerca a 0 las variables son independientes, no tiene que ver la una con la otra.

El siguiente diagrama resume el análisis del coeficiente de correlación, entre dos variables:

Correlación negativa Ninguna correlación Correlación positiva

Perfecta perfecta

Page 4: 2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... · determinar el coeficiente de correlación y la ecuación de regresión lineal simple. ...

43

-1 - 0,5 0 0,5 1

Correlación negativa fuerte Correlación negativa débil correlación positiva débil correlación positiva fuerte

Este coeficiente se interpreta teniendo en cuenta su valor como tal y su signo.

Si el valor se acerca a 1 o a –1 existe una fuerte correlación entre las variables. Si se acerca a 0 no hay relación.

Si el signo es positivo indica que hay una relación directa entre X y Y, es decir, a mayores valores de X mayores valores de Y y si es negativo, la relación es inversa, es decir, a mayores valores de X menores valores de Y.

En el ejemplo el coeficiente de correlación con un valor de 0,962 indica que existe una relación fuerte entre el número de comerciales y las ventas semanales del producto. Como el resultado es positivo, indica que a medida en que aumenta el número de comerciales, aumentan las ventas semanales.

Una vez establecida la relación entre variables, es importante establecer la Influencia que tiene la variable independiente, número de comerciales, sobre la variable dependiente, ventas semanales.

Para cuantificar dicha relación y tener una aproximación de la magnitud de la influencia de los gastos en publicidad sobre las ventas, se debe trabajar el modelo de regresión lineal.

2.4.3.2 Regresión lineal simple Sobre la nube de puntos se traza una línea recta que cobije la mayoría de los puntos. La mejor ecuación que tiene las mínimas distancias con respecto a los puntos reales, se establece con el método conocido como método de mínimos cuadrados.

La regresión lineal establece para el análisis de las dos variables la ecuación de una línea recta:

: simboliza la variable dependiente calculada para diferenciarla de la real u observada.

A: Es el intercepto o punto de corte de la recta con el eje Y. Si la pendiente es positiva indica el valor mínimo estimado de Y, si es negativa indica el valor máximo estimado de Y.

B: Es la pendiente de la recta. Indica el incremento que sufre la variable Y cuando la variable X aumenta en una unidad.

Page 5: 2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... · determinar el coeficiente de correlación y la ecuación de regresión lineal simple. ...

44

A y B son conocidos como los parámetros del modelo. Son valores desconocidos que se pueden calcular por el método de mínimos cuadrados.

Para determinar el valor A que representa el punto de corte de la recta con el eje Y y B que representa la pendiente de la recta, se emplean las siguientes ecuaciones:

En el ejemplo anterior:

Primero se calcula la pendiente B porque se requiere para el cálculo de A

El punto de corte indica que si X=0 es decir si no hay comerciales, se estiman ventas mínimas de 0,8175 unidades monetarias.

La pendiente indica que al aumentar los comerciales las ventas aumentan en 0,1923 unidades monetarias.

2.4.3.2.1 Coeficiente de Determinación El coeficiente de determinación mide el porcentaje de valores de la variable dependiente Y, que caen sobre la línea recta, se interpreta como el porcentaje de valores de Y que son explicados por el modelo lineal en función de la variable X.

El coeficiente de determinación se simboliza con r2 y se obtiene como el cuadrado del coeficiente de correlación.

Este coeficiente siempre da un valor entre 0 y 1 y para la interpretación se multiplica por 100 para expresarlo en porcentaje. Un modelo de regresión lineal presenta buen ajuste (el modelo es bueno) si el coeficiente de determinación es

Page 6: 2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... · determinar el coeficiente de correlación y la ecuación de regresión lineal simple. ...

45

mayor o igual al 75%.

r2≥75% el modelo presenta buen ajuste

Para el modelo del ejemplo anterior se tiene que:

r = 0,962 entonces r2= (0,962)2

r2 = 0,9254

(Se multiplica por 100 y se expresa en porcentaje).

El 92,54% de las ventas son explicadas por el modelo de regresión lineal en función del número de comerciales. El modelo presenta un buen ajuste para los datos.

EJEMPLO

Se quiere medir la relación que existe entre el número de empleados (X) y las ventas semanales (en millones de $) (Y), para un grupo de almacenes del sector de los alimentos en una ciudad. Los datos obtenidos son los siguientes:

X 12 16 20 28 30 32 36 40

Y 20 30 36 44 80 60 95 98

a) Dibuje el gráfico de dispersión que muestre el comportamiento de las dos variables.

b) Encuentre el modelo de regresión lineal para estimar las ventas semanales en función del número de empleados.

c) Interprete los parámetros del modelo

Page 7: 2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... · determinar el coeficiente de correlación y la ecuación de regresión lineal simple. ...

46

d) ¿Cuál es el nivel o grado de asociación entre variables?

e) ¿Qué porcentaje de las ventas son explicadas por el modelo lineal en función del número de empleados?

f) Estime las ventas para un almacén que tiene 50 empleados.

SOLUCIÓN

a) Gráfico de dispersión:

Sobre el eje X se colocan los valores para el número de empleados utilizando una escala de valores apropiada, teniendo en cuenta el valor máximo y el mínimo de los datos. En forma similar se colocan los valores de Y y se ubican las parejas ordenadas de valores.

b) para construir el modelo de regresión lineal: se completan los valores dados inicialmente de la siguiente forma:

X Y XY X2 Y2

12 20 240 144 400

16 30 480 256 900

Page 8: 2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... · determinar el coeficiente de correlación y la ecuación de regresión lineal simple. ...

47

20 36 720 400 1296

28 44 1232 784 1936

30 80 2400 900 6400

32 60 1920 1024 3600

36 95 3420 1296 9025

40 98 3920 1600 9604

214 463 14332 6404 33161

Los resultados obtenidos se van reemplazando en las fórmulas establecidas para obtener los parámetros del modelo de regresión lineal.

Reemplazando en la ecuación del modelo de regresión lineal queda:

c) En este modelo el valor de A=-18,763 indica que si no hay empleados (X=0) se estaría dejando de vender $18`763.000.

El valor de B=2,8649 indica que por cada empleado se estima que las ventas semanales aumentan en $2`864.900.

d) El nivel o grado de asociación entre variables se mide con el coeficiente de correlación r:

Page 9: 2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... · determinar el coeficiente de correlación y la ecuación de regresión lineal simple. ...

48

El valor es positivo y cercano a 1, lo que indica que existe una correlación fuerte entre el número de empleados y las ventas semanales. El signo positivo indica que a mayor número de empleados, en los almacenes se tienen mayores ventas semanales.

e) El porcentaje de las ventas semanales explicadas por el modelo lineal en función del número de empleados, se mide con el coeficiente de determinación

El 87,6% de las ventas son explicadas por el modelo lineal, presentando un buen modelo para hacer estimación de valores (r2 mayor al 75%).

f) Ventas estimadas para un almacén con 50 empleados:

Se estiman ventas de $124`482.000 para un almacén con 50 empleados.

2. En un estudio de consumidores se quiere analizar el comportamiento del consumo semanal del producto (Y en libras), en función del precio del producto por libra (X en miles de pesos) y para esto se tiene información de los últimos meses, encontrando:

X Y XY X2 Y2

17 9 153 289 81

15 12 180 225 144

15 13 195 225 169

13 16 208 169 256

12 20 240 144 400

10 20 200 100 400

8 23 184 64 529

90 113 1360 1216 1979

a) Encontrar el modelo de regresión lineal

b) Estimar los parámetros del modelo

c) Calcular e interpretar el coeficiente de correlación

d) Calcular e interpretar el coeficiente de determinación

Page 10: 2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... · determinar el coeficiente de correlación y la ecuación de regresión lineal simple. ...

49

e) Estimar el consumo del producto para un precio de $20.000

a) para el modelo de regresión lineal:

Los parámetros del modelo quedan:

El modelo lineal es:

b) Para la interpretación de los parámetros A y B del modelo se tiene en cuenta que la pendiente es negativa.

El consumo máximo estimado es de 36,4271 unidades del producto, cuando el precio aumenta en $1.000 el consumo disminuye en 1,5776 unidades.

c) Coeficiente de correlación

Page 11: 2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... · determinar el coeficiente de correlación y la ecuación de regresión lineal simple. ...

50

Hay correlación negativa entre el precio del producto y el consumo, esto significa que a medida en que aumenta el precio disminuye el consumo.

d)

El 94,6% del consumo es explicado por el modelo lineal en función del precio del producto, el modelo presenta un buen ajuste para los datos.

e)

EJERCICIO 5

1. Un gerente de una empresa desea predecir los costos (Y) en millones de pesos, basándose en la cantidad de insumos de materias primas (X), cientos de libras, que recibe un fabricante de un producto.

Y 10 7 5 6 7 6

X 25 20 16 17 19 18

a) Encuentre el modelo de regresión lineal b) Interprete los parámetros del modelo c) Calcule e interprete el coeficiente de correlación d) Calcule e interprete el coeficiente de determinación e) Estime los costos si se reciben 22 (cientos de libras) en materias primas.

2. Un supermercado ha decidido ampliar el negocio y decide estudiar el número de cajas registradoras que va a instalar, para evitar grandes colas. Para ello, se obtuvieron los siguientes datos, procedentes de otros establecimientos similares, acerca del número de cajas registradoras (X) y el tiempo medio de espera (Y) en minutos.

Númerodecajasregistradoras 10 12 14 16 18 20

Tiempomediodeespera 59 51 42 32 26 22

Page 12: 2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... · determinar el coeficiente de correlación y la ecuación de regresión lineal simple. ...

51

(minutos)

a) ¿Existe relación entre el número de cajas y el tiempo de espera?

b) ¿ENo varia el tiempo de espera por cada caja adicional?

c) ¿En cuánto se estima el tiempo medio mínimo de espera?

c) Si se instalaran 22 cajas registradoras. ¿Cuál será el tiempo medio de espera?

d) ¿El pronóstico anterior es confiable?

3. La compañía de seguros “Segurísimo” desea determinar el grado de relación que existe entre el monto del seguro de vida (en unidades de diez mil pesos) en función del ingreso familiar semanal (miles de pesos). Para ello estableció la siguiente ecuación de regresión así como alguna información adicional:

Y = 2,5 + 1,78X

r = 0,9088

a) ¿Cuál es la variable dependiente y cuál la independiente? b) Interprete cada uno de los parámetros de la ecuación c) Interprete los coeficientes de correlación y de determinación d) Estime el monto del seguro para un ingreso familiar de $ 55.000 semanales

2.5 SÍNTESIS En esta unidad para datos univariados se analizan las medidas de tendencia central y las medidas de dispersión y para datos bivariados la regresión lineal y la correlación.

• Las medidas de tendencia central más utilizadas son la media aritmética o promedio aritmético, la mediana y la moda.

• La media aritmética proporciona el promedio de los datos o punto de equilibrio, el valor alrededor del cual están los valores de la variable.

La media se obtiene para los datos sin agrupar, sumando todos los valores de la variable (cuantitativa) y dividiendo entre el número de observaciones.

Para los datos agrupados, se pondera cada valor de la variable por la frecuencia correspondiente, se suman estos productos y luego se divide por el número de observaciones.

• La mediana es aquel valor de la variable que divide al grupo de datos en dos partes iguales y corresponde al percentil 50.

• La moda es el valor más común, el más frecuente.

• Por las características que posee la media la hacen la medida más común en los análisis estadísticos, no obstante, si se presentan valores extremos se recomienda usar la mediana en lugar de la media.

Page 13: 2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... · determinar el coeficiente de correlación y la ecuación de regresión lineal simple. ...

52

• Las medidas de dispersión son el rango, varianza, desviación estándar y coeficiente de variación. Estas medidas se usan para medir la cantidad de dispersión de un grupo de datos.

• Una propiedad de la desviación estándar es que nos da una medida de la dispersión de datos con respecto al valor promedio. Es diferente al rango, el cual da directamente la dispersión entre los dos datos más extremos.

• La varianza es el cuadrado de la desviación estándar.

• Por último el coeficiente de variación, que sirve como medida relativa de dispersión y permite comparar grupos de datos, para saber determinar dónde son más representativas la media y la desviación estándar.

• Un diagrama de dispersión es un método gráfico que se emplea para mostrar la relación entre dos variables.

La variable dependiente se localiza en el eje Y y es la que se estima.

La variable independiente se localiza en el eje X y se utiliza para estimar a Y.

• El coeficiente de correlación mide la intensidad entre dos variables.

El coeficiente de correlación puede variar entre -1 y 1

Si el coeficiente de correlación es 0 no hay asociación entre las dos variables.

Un valor de 1 significa correlación positiva perfecta. Un valor de -1 significa correlación negativa perfecta.

Un signo positivo indica que hay una relación directa entre las variables y un signo negativo indica que hay relación inversa.

• El análisis de regresión lineal expresa mediante la ecuación de la línea recta la relación entre las dos variables y permite estimar valores de la variable dependiente Y en función de la variable independiente X.

La recta de regresión de mínimos cuadrados es de la forma:

Es el valor estimado de Y para un valor dado de X

A: Es el intercepto o punto de corte de la recta con el eje Y. Si la pendiente es positiva indica el valor mínimo estimado de Y. Si es negativa indica el valor máximo estimado de Y.

B: Es la pendiente de la recta. Indica el incremento que sufre la variable Y cuando la variable X aumenta en una unidad.

Page 14: 2.4.3 Regresión y correlación simpleyamilemedina.weebly.com/uploads/6/4/1/1/6411426... · determinar el coeficiente de correlación y la ecuación de regresión lineal simple. ...

53

• El coeficiente de determinación mide el porcentaje de valores de Y explicados por la línea recta.

Puede tomar valores entre 0 y 1

Es el cuadrado del coeficiente de correlación.

2.6 GLOSARIO Amplitud: es la diferencia entre el valor mayor y el menor de un conjunto de datos.

Coeficiente de correlación: Expresión cuantitativa de la magnitud y dirección de una relación.

Coeficiente de variación: Magnitud relativa de la desviación estándar cuando ésta es comparada con la media aritmética.

Medidas de variabilidad o dispersión Los estadísticos de tendencia central o posición, nos indican dónde se sitúa un grupo de puntuaciones. Los estadísticos de variabilidad o dispersión nos indican si esas puntuaciones o valores están próximas entre sí o si están muy dispersas.

Parámetro: Número calculado sobre los datos de una población.

Ponderar: Asignar un peso relativo a los valores que puede tomar una variable.

Regresión: Tema que analiza la relación entre dos variables para una predicción.

Relación lineal: Relación entre dos variables que se presenta con mejor exactitud mediante una línea recta.

2.7 BIBLIOGRAFÍA (1) Lind D.A., Marchall W.G, Mason R.D. Estadística para Administración y Economía, 11

ed. Alfaomega 2004. (2) Lincoln L.CH.,Estadística para las Ciencias Administativas, 3 ed. Mc. Graw Hill 1993. (3) Webster A. L., Estadística aplicada a los negocios y la economía 3 ed. Mc. Graw

Hill,2000