Problemas de Regresion Lineal

7
7 - En un proceso de extracción se estudia la relación entre tiempo de extracción y rendimiento. Los datos obtenidos se encuentran en la siguiente tabla. Tiempo (min) Rendimiento (%) 10 64 15 81.7 20 76.2 8 68.5 12 66.6 13 77.9 15 82.2 12 74.2 14 70 20 76 19 83.2 18 85.3 a) ¿En este problema cual variable se considera independiente y cual independiente? - Se debe considerar el tiempo de extracción como variable independiente (x) y al rendimiento como la variable dependiente (y), dado que el rendimiento siempre va a variar conforme el tiempo y no viceversa. b) Mediante un diagrama de dispersión analice la relación entre estas dos variables. ¿Qué tipo de relación observa y cuales son algunos hechos especiales? Existe correlación lineal positiva ya que conforme aumenta el tiempo de extracción también aumenta el rendimiento, es razonable suponer que la relación entre estas variables la explique un modelo de regresión lineal simple.

Transcript of Problemas de Regresion Lineal

Page 1: Problemas de Regresion Lineal

7 - En un proceso de extracción se estudia la relación entre tiempo de extracción y rendimiento.

Los datos obtenidos se encuentran en la siguiente tabla.

Tiempo (min) Rendimiento (%)

10 64

15 81.7

20 76.2

8 68.5

12 66.6

13 77.9

15 82.2

12 74.2

14 70

20 76

19 83.2

18 85.3

a) ¿En este problema cual variable se considera independiente y cual independiente?

- Se debe considerar el tiempo de extracción como variable independiente (x) y al

rendimiento como la variable dependiente (y), dado que el rendimiento siempre va a

variar conforme el tiempo y no viceversa.

b) Mediante un diagrama de dispersión analice la relación entre estas dos variables. ¿Qué

tipo de relación observa y cuales son algunos hechos especiales?

Existe correlación lineal positiva ya que conforme aumenta el tiempo de extracción también

aumenta el rendimiento, es razonable suponer que la relación entre estas variables la explique un

modelo de regresión lineal simple.

Page 2: Problemas de Regresion Lineal

c) Haga un análisis de regresión (ajuste una línea recta a estos datos, aplique pruebas de

hipótesis y verifique residuos)

Para ajustar la mejor recta que pasa más cerca de todos los puntos y para calcular estimadores, se

usa método de mínimos cuadrados, se resumen los cálculos en la hoja de Excel:

X y X2 Y2 Xy Y estimado

e E2

Tiempo (min)

Rendimiento (%)

10 64 100 4096 640 69.93 -5.93 35.1649

15 81.7 225 6674.89 1225.5 75.88 5.82 33.8724

20 76.2 400 5806.44 1524 81.83 -5.63 31.6969

8 68.5 64 4692.25 548 67.55 0.95 0.9025

12 66.6 144 4435.56 799.2 72.31 -5.71 32.6041

13 77.9 169 6068.41 1012.7 73.5 4.4 19.36

15 82.2 225 6756.84 1233 75.88 6.32 39.9424

12 74.2 144 5505.64 890.4 72.31 1.89 3.5721

14 70 196 4900 980 74.69 -4.69 21.9961

20 76 400 5776 1520 81.83 -5.83 33.9889

19 83.2 361 6922.24 1580.8 80.64 2.56 6.5536

18 85.3 324 7276.09 1535.4 79.45 5.85 34.2225

Suma 176 905.8 2752 68910.36 13489 293.8764

Para ajustar la recta, se calcula:

( ) )

∑ [

(∑ )(∑

)

] = 13489 – [(176) (905.8) /12] = 203.93

[(∑ )

] = 2752 – [(176)2/12] = 170.66

[(∑ )

] = 68910.36 – [(905.8)2/12] = 537.55

Para encontrar los estimadores:

= 203.93 / 170.66 = 1.19492187

= 75.48333333 - 1.19492187 (14.66666667) = 57.9578125

Por lo tanto, la línea recta ajustada está dada por:

Page 3: Problemas de Regresion Lineal

Con esta ecuación podemos graficar la recta de regresión lineal:

Por lo que se observa, se concluye que los errores están distribuidos aleatoriamente, la prueba de hipótesis de interés plantea que la pendiente es significativamente diferente de 0.

Hipótesis a Establecer Análisis de Regresión

Para β1

H0 β1 = 0 HA β1≠ 0

t0 β1 /√

Para β0

H0 β0= 0 HA β0≠ 0

t0 β0 √CME [

]

En ambos casos H0 se rechaza si | |> t ( / 2 , n -2 )

Hipótesis a Establecer Análisis de Varianza

H0 β1 = 0 HA β1≠ 0

F0= CMR / CME

H0 se rechaza si | |> F( , n -2 )

Estadísticos obtenidos, Minitab: Con

5% de significancia para el análisis de

regresión, es obvio que para los dos

estimadores el estadísticos son mayores

(9.22; 2.88) que el del criterio de rechazo

(2.2281)

Para el análisis de Varianza es lo mismo

8.29 > 4.965

Por lo tanto se rechazan las hipótesis

nulas establecidas y se aceptan las

alternativas, las cuales indican que el

modelo es significativo

Page 4: Problemas de Regresion Lineal

d) ¿La calidad del ajuste es satisfactoria? Argumente

Determinemos si el modelo permite hacer estimaciones con una precisión aceptable:

Coeficiente de determinación

R2 = SCR / Syy = 243.68 / 537.55 = 0.4533

El 45 % de la variación observada en el rendimiento es explicada por el modelo, la calidad de ajuste

no es satisfactorio, veamos su ajuste…

Coeficiente de determinación ajustado

R2 aj = CMtotal - CME / CMtotal =48.8681 – 29.38 / 48.8681 = 0.3987

Para fines de predicción se recomienda un coeficiente de determinación ajustado de 0.7 este es otro

indicador de que nuestro modelo no hace estimaciones con precisión.

Coeficiente de Correlación

r = Sxy / √SxxSyy = 203.93 / √ (170.66) (537.55) = 0.6732

Observemos las gráficas 4 en uno del modelo de regresión:

Se observa que en la gráfica de probabilidad normal la mayor parte de los puntos tienden a ajustarse

a la línea recta pero en la de residuo contra valor ajustado hay cierto patrón, el modelo registra falla.

Se concluye que aunque el modelo es significativo, la intensidad de la relación

lineal entre las variables no es muy fuerte

Page 5: Problemas de Regresion Lineal

e) Destaque el valor de la pendiente de la recta e interprételo en términos prácticos

El valor de la pendiente de la recta es: 1.1949, en términos prácticos, tan solo es la cantidad que se

incrementa o disminuye la variable Y para cada unidad que se incrementa X.

f) Estime el rendimiento promedio que se espera a un tiempo de extracción de 25 minutos y

obtenga un intervalo de confianza para esta estimación.

El intervalo de confianza está dado por:

Y0 - t( / 2 , n -2 ) √ [

( )

] <= ( )<= Y0 +t( / 2 , n -2 )√ √ [

( )

]

Con X0 = 25 ; Y0 = 57.95781 + 1.19492 (25) = 87.83

87.83± 2.2281 √ [

( )

]

87.83± 2.2281 √ 0

87.83± 10.174

Por lo tanto el intervalo de confianza es:

77.65 <= ( )<= 98.004

Page 6: Problemas de Regresion Lineal

22.-se realizó un experimento para estudiar el sabor del queso panela en función de la cantidad del cuajo y la sal. La variable de respuesta observada es el sabor promedio reportado por un grupo de 5 panelistas que probaron todos los quesos y los calificaron con una escala hedónica. Los datos obtenidos se muestran a continuación:

Sal Cuajo sabor

6 0.3 5.67

5.5 0.387 7.44

4.5 0.387 7.33

4 0.3 6.33

4.5 0.213 7.11

5.5 0.213 7.22

5 0.3 6.33

5 0.3 6.66

a) ajuste el modelo

La ecuación de regresión es Y= 7.30 - 0.183 x1 + 1.26 x2

b) ¿el modelo explica la variación observada en el sabor? Argumente con base en la

significancia del modelo, los residuales y el coeficiente de determinación Para hablar de un modelo que tiene un ajuste satisfactorio es necesario que ambos coeficientes tengan valores superiores a 0.7, y en este caso muestro coeficiente de determinación presento un valor muy bajo del 0.05 (5%) y un coeficiente de determinación ajustado con valor negativo interpretando esto como un 0%. Esto se debe a que en nuestro modelo hay términos que no contribuyen de manera significativa por lo tanto debemos depurar el modelo. Análisis de residuos.- en la gráfica de probabilidad normal los puntos no se ajustan a la recta y presentan un cierto nivel de simetría en el comportamiento de los mismos por lo tanto podemos decir que el modelo no es aceptable. En la gráfica de residuos vs predichos si el modelo es adecuado se espera que en esta grafica los puntos no sigan ningún patrón y que, por lo tanto, estén distribuidos más o menos aleatoriamente a lo largo y ancho de la gráfica. Cuando esto ocurre significa que el modelo se ajusta de cualquier manera a lo largo de los modelos de Y. En el caso de nuestra grafica se observa que los puntos están distribuidos a lo largo del eje de las X de forma constante. Y por último en la gráfica de residuos vs observamos que el comportamiento de los residuos maneja un patrón, lo cual quiere decir que nuestro modelo no es adecuado.

c) Ajuste un modelo que incluya términos cuadráticos y analice con detalle la calidad del ajuste.

Y = 5.4 + 4.77 x1 - 70.4 x2 + 0.00 x1x2 - 0.495 x12 + 119 x2

2 Podemos prescindir del cuarto término de la ecuación, ya que su coeficiente es cero, quedando la ecuación de la siguiente manera: Y = 5.4 + 4.77 x1 - 70.4 x2 - 0.495 x1

2 + 119 x22

Se analiza la calidad del ajuste en la siguiente cuestión.

Page 7: Problemas de Regresion Lineal

d) Compare el error estándar de estimación (√ ) y los coeficientes de determinación

( ) para ambos modelos

En nuestro primer modelo al calcular los coeficientes de determinación y el ajustado del mismo, nos pudimos dar cuenta de que el modelo no era adecuado para explicar la relación de variables debido a que el valor era demasiado bajo y por lo tanto no era un modelo confiable. Al obtener nuestra ecuación con términos cuadráticos, nos dimos cuenta que este modelo si es significativo debido a los valores que nos arrojó el coeficiente de determinación y su ajustado, al ver una amplia mejoría en los resultados.

Error estándar de estimación

Es claro que la diferencia entre un modelo y otro es evidente. e) ¿Cuál modelo prefiere para explicar el sabor?

El segundo modelo con términos cuadráticos.

Primer modelo Segundo modelo

R2=0.054 = 5% R2

aj= -0.32 = 0%

R2=0.923 = 93.2% R2

aj= 0.761 = 76.1%

Primer modelo Segundo modelo

√ = 0.7127 √ = 0.3029