Modulo de Regresión Lineal 2015 1

11
FACULTAD DE CIENCIAS EMPRESARIALES E.A.P. Administración y Negocios Internacionales UAD – CHEPÉN REGRESIÓN Y CORRELACIÓN En la investigación estadística es muy frecuente encontrar variables que están relacionadas entre si, algunas con mayor grado y otras casi nula. Por ello es posible que una variable dependiente de una o más variables independientes se puedan expresar matemáticamente en función de dichas variables. Por ejemplo, el peso de las personas se relaciona con sus alturas; la venta de refrescos se relaciona con la temperatura, el precio, la marca y otros factores o variables. Estadísticamente interesa analizar la relación entre dos o más variables, siempre que exista un indicio de asociación o dependencia entre ellas. Lo importante es medir y expresar funcionalmente esa relación mediante una función o modelo matemático. El análisis de regresión consiste en emplear métodos que permitan determinar la mejor relación o ajuste funcional entre dos o más variables relacionadas. El análisis de correlación estudia el grado de asociación de dos o más variables. La regresión y correlación se llama simple cuando se trata de relacionar o asociar dos variables (una dependiente y otra independiente) y se llama múltiple cuando se trata de modelar más de dos variables. Diagrama de dispersión (nube de puntos) Es la representación de los datos observados de dos variables X e Y cuantitativas para el ajuste sobre un sistema de coordenadas cartesianas. Por ejemplo: Sean los puntos , , ,… , es posible que se presenten algunos de los siguientes casos: Lic. Juan Luna Romero Estadística para Negocios II

Transcript of Modulo de Regresión Lineal 2015 1

FACULTAD DE CIENCIAS EMPRESARIALESE.A.P. Administracin y Negocios Internacionales

UAD CHEPN

REGRESIN Y CORRELACIN

En la investigacin estadstica es muy frecuente encontrar variables que estn relacionadas entre si, algunas con mayor grado y otras casi nula. Por ello es posible que una variable dependiente de una o ms variables independientes se puedan expresar matemticamente en funcin de dichas variables. Por ejemplo, el peso de las personas se relaciona con sus alturas; la venta de refrescos se relaciona con la temperatura, el precio, la marca y otros factores o variables.

Estadsticamente interesa analizar la relacin entre dos o ms variables, siempre que exista un indicio de asociacin o dependencia entre ellas. Lo importante es medir y expresar funcionalmente esa relacin mediante una funcin o modelo matemtico.

El anlisis de regresin consiste en emplear mtodos que permitan determinar la mejor relacin o ajuste funcional entre dos o ms variables relacionadas. El anlisis de correlacin estudia el grado de asociacin de dos o ms variables.La regresin y correlacin se llama simple cuando se trata de relacionar o asociar dos variables (una dependiente y otra independiente) y se llama mltiple cuando se trata de modelar ms de dos variables.

Diagrama de dispersin (nube de puntos)

Es la representacin de los datos observados de dos variables X e Y cuantitativas para el ajuste sobre un sistema de coordenadas cartesianas.

Por ejemplo: Sean los puntos , , , , es posible que se presenten algunos de los siguientes casos:

CORRELACIN LINEAL POSITIVA

CORRELACIN LINEAL NEGATIVA

CORRELACIN NO LINEAL

NO EXISTE CORRELACIN

Una vez decidido el tipo de funcin matemtica que mejor se ajusta (o representa nuestro concepto de la relacin exacta que existe entre las variables) se presenta el problema de elegir una expresin particular de esta familia de funciones; es decir, se ha postulado una cierta funcin como termino del verdadero estado en la poblacin y ahora es necesario estimar los parmetros de esta funcin (ajuste de curvas).

Como los valores de los parmetros no se pueden determinar sin errores por que los valores observados de la variable dependiente no concuerdan con los valores esperados, entonces la ecuacin general replanteada, estadsticamente, seria:

donde representa el error cometido en el intento de observar la caracterstica en estudio, en la cual muchos factores contribuyen al valor que asume

CovarianzaMide la forma en que vara conjuntamente dos variables X e Y. En el estudio conjunto de dos variables, lo que nos interesa principalmente es saber si existe algn tipo de relacin entre ellas. Veremos ahora una medida descriptiva que sirve para medir o cuantificar esta relacin:

Si Sxy >0 hay dependencia directa (positiva), es decir las variaciones de las variables tienen el mismo sentido.Si Sxy = 0 las variables estn incorreladas, es decir no hay relacin lineal, pero podra existir otro tipo de relacin.

Si Sxy < 0 hay dependencia inversa o negativa, es decir las variaciones de las variables tienen sentido opuesto.Regresin Lineal Simple

Cuando la relacin funcional entre las variables dependiente (Y) e independiente (X) es una lnea recta, se tiene una regresin lineal simple, dada por la ecuacin: Y = A + BX + Estimacin de parmetrosConsiste en determinar los parmetros A y B a partir de los datos muestrales observados; es decir, deben hallarse valores como a y b de la muestra, que represente a A y B, respectivamente.La funcin de regresin lineal simple es expresado como: Y = a + bX + Empleando el mtodo de los mnimos cuadrados, es decir minimizando la suma de cuadrados de los errores, se determinan los valores de a y b, as:.

Donde:

Coeficiente de regresin (pendiente de la recta, mide el cambio de la variable Y por unidad de cambio de X)

De manera prctica:

Intersecto de la recta con el eje Y.

Coeficiente de correlacin lineal simple ( r )

Para ver si existe relacin lineal entre dos variables X e Y, emplearemos un parmetro que nos mida la fuerza o grado de asociacin lineal entre ambas variables. La medida de asociacin lineal ms frecuentemente utilizada entre dos variables es r o coeficiente de correlacin lineal de Pearson; este parmetro se mide en trminos de covarianza de X e Y.

donde:

Si r = 1, existe una correlacin positiva perfecta entre X e Y

Si r = -1, existe una correlacin negativa perfecta entre X e Y

Si r = 0, no existe correlacin lineal, pudiendo existir otro tipo de relacin. Si , existe correlacin negativa y dependencia inversa, mayor cuanto ms se aproxime a - 1.

Si , existe correlacin positiva, y dependencia directa, mayor cuanto ms se aproxime a 1.De manera prctica:

Coeficiente de determinacin (r2)Si tenemos dos variables X e Y relacionadas linealmente, parte de la variabilidad de la variable Y, vendr explicada por variaciones de X (variabilidad explicada por el modelo), mientras que el resto responder a variaciones de fenmenos relacionados con la variable Y o con el azar (variabilidad no explicada por el modelo).

Por tanto nos conviene disponer de una medida que indique el porcentaje de la variabilidad de la variable explicada que se debe a la variabilidad de la variable explicativa. Esta medida es el coeficiente de determinacin lineal (r2), y si su valor es alto nos indicar que el ajuste lineal efectuado es bueno. Es decir el coeficiente de determinacin es el cuadrado del coeficiente de correlacin lineal de Pearson y se puede expresar en porcentajes (%).Ejemplo 1El responsable de mantenimiento del Departamento de transito de la empresa XYZ, debe determinar si existe relacin entre el costo anual de mantenimiento de los autobuses urbanos y los aos que llevan en operacin. La siguiente tabla presenta la informacin referida al caso.

AutobsCosto de mantenimiento ($)Tiempo en operacin (aos)

18708

26705

33003

410009

5140011

61502

71001

a) Identifique la variable independiente y dependiente.

b) Determinar el modelo de mejor ajuste.

c) Estime el costo de mantenimiento de un autobs con 6 aos de operacin.

d) Estime los aos de operacin de un autobs que tiene un costo de mantenimiento de $930.DESARROLLO

a) Se sabe que el costo de mantenimiento de un autobs depende de la antigedad y del uso del mvil por el desgaste de las piezas. Por ello:Variable independiente X: Tiempo en operacin Variable dependiente

Y: Costo de mantenimiento

b) Construyendo su diagrama de dispersin sobre un plano cartesiano, para determinar el tipo de correlacin y su modelo.

El tipo de correlacin es lineal positivaPara encontrar la recta de regresin, construimos la siguiente tabla, con los clculos respectivos.

CLCULOS PARA DETERMINAR EL MODELO DE REGRESINiXYXYX2Y2

18870696064756900

25670335025448900

33300900990000

4910009000811000000

5111400154001211960000

62150300422500

71100100110000

Total ()394490360103054288300

Aplicando las formulas y reemplazando los valores de la tabla:

Luego la recta de regresin es: Y = 125,34X 56,91Coeficiente de correlacin de Pearson:

Coeficiente de determinacin = r2 = 0,98922 = 97,8%El modelo de ajuste es confiable.

c) La estimacin del costo de mantenimiento de un autobs, donde x = 6 aos (tiempo de operacin)

Luego el costo de mantenimiento es de $695 aproximadamente.

d) Para estimar los aos de operacin de un autobs que tiene un costo de mantenimiento de $930. Es decir: Y = 930

Luego aproximadamente el autobs tiene 8 aos de operacin.

Problema 1En un proceso de extraccin se estudi la relacin entre el tiempo de extraccin (min) y los aos de experiencias en la empresa. A continuacin se presentan los datos recopilados de 8 trabajadores de la empresa.Tiempo extraccin (min)681211611147

Aos de experiencias54134214

a) Identificar la variable independiente y dependienteb) Construir el diagrama de dispersin y determinar el tipo de correlacin.

c) Determinar la ecuacin de la recta de regresin y que confiabilidad tiene el modelo.

d) Estimar el tiempo de extraccin para un trabajador con 6 aos de experiencia.Problema 2

La demanda de un tipo de impresora ha cambiado debido a una rpida variacin en el precio. Se ha observado la demanda Y (en unidades) y el precio unitario (S/.). Los resultados se presentan en la tabla adjunta:

Precio (S/.)300450500700400600800550

Demanda (unid)50004000300020003800250015002800

a) Construir el diagrama de dispersin y determinar el tipo de correlacin.

b) Determinar la ecuacin de la recta de regresin y su coeficiente de determinacin.

c) Estimar el precio de la impresora cuando la demanda es de 4500 unidadesProblema 3

En un estudio experimental sobre el crecimiento de una planta, se ha registrado la altura (cm) y el nmero de das transcurridos desde su germinacin. Tiempo (das)134710

Altura (cm)1231216

a) Construir el diagrama de dispersin y determinar el tipo de correlacin.

b) Determinar la ecuacin de la recta de regresin y su coeficiente de determinacin.

c) Investigar y determinar un mejor ajuste no lineal.

Problema 4

La empresa ABC tiene un grupo de 8 vendedores, cuyas ventas (Y) corresponden a sus aos de experiencia relacionado con el conocimiento del mercado (X), estos datos se presentan en el cuadro siguiente:Vendedoraos de experienciaventas $

16800

25600

31200

45500

52300

61250

73450

81150

a) Construir el diagrama de dispersin.b) Determinar dos modelos de regresin. Lic. Juan Luna Romero

Estadstica para Negocios II

_1495007399.unknown

_1495008726.unknown

_1495286278.unknown

_1495287069.unknown

_1495287155.unknown

_1495286871.unknown

_1495286547.unknown

_1495286091.unknown

_1495286108.unknown

_1495008776.unknown

_1495008506.unknown

_1495008573.unknown

_1495008027.unknown

_1494951268.unknown

_1494952490.unknown

_1494953708.unknown

_1494953955.unknown

_1494953507.unknown

_1494952331.unknown

_1494951237.unknown

_1494951251.unknown

_1494951189.unknown