Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de...

15
Práctica 4 1 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de Peso sobre Altura Datos en Encuesta.sgd a) Estudio descriptivo de ambas variables Marco elementos atípicos: b) Obtener la recta de regresión y comprobar que el vector de medias muestrales pertenece a la recta. Relate/One Factor/Simple Regression…(linear) Interpretar la tabla de coeficientes estimados y la tabla ANOVA. b1) Obtener la recta de regresión…

Transcript of Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de...

Page 1: Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de …valentin/ging/materiales_web/practica5... · 2014-05-27 · inf y sup de Intervalos de Confianza para la respuesta

Práctica 4

1

EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de Peso sobre Altura Datos en Encuesta.sgd a) Estudio descriptivo de ambas variables

Marco elementos atípicos:

b) Obtener la recta de regresión y comprobar que el vector de medias muestrales pertenece a la recta. Relate/One Factor/Simple Regression…(linear) Interpretar la tabla de coeficientes estimados y la tabla ANOVA.

b1) Obtener la recta de regresión…

Page 2: Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de …valentin/ging/materiales_web/practica5... · 2014-05-27 · inf y sup de Intervalos de Confianza para la respuesta

Práctica 4

2

Solución: Recta de regresión (con todos los puntos) Peso kg = -115,18 + 1,06074*Altura cm

Page 3: Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de …valentin/ging/materiales_web/practica5... · 2014-05-27 · inf y sup de Intervalos de Confianza para la respuesta

Práctica 4

3

b2) … y comprobar que el vector de medias muestrales pertenece a la recta. Peso kg Altura cm Count 269 269 Average 70,7967 175,327 Standard deviation 12,6559 8,92991

De forma aproximada en la gráfica sobre la recta de regresión con Locate: De manera más precisa mediante Forecast

b3) Interpretar la tabla de coeficientes estimados y la tabla ANOVA. Coefficients Least Squares Standard T Parameter Estimate Error Statistic P-Value Intercept -115,18 10,0981 -11,4061 0,0000 Slope 1,06074 0,0575216 18,4407 0,0000 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 24046,2 1 24046,2 340,06 0,0000 Residual 18880,0 267 70,7116 Total (Corr.) 42926,2 268

Peso Kg= -115,18 + 1,06074 Altura cm Rechazo a todos los niveles habituales la hipótesis de no efecto del regresor “Altura” (Ho: 1=0) Cambios en la Altura provocan cambios en el peso medio correspondiente.

Page 4: Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de …valentin/ging/materiales_web/practica5... · 2014-05-27 · inf y sup de Intervalos de Confianza para la respuesta

Práctica 4

4

c) Hallar un intervalo de confianza al 95% para la pendiente. Relate/Multiple Factors/Multiple Regression… (confidence interval)

Intervalos de confianza del 95,0% para las estimaciones de los coeficientes

Error Parámetro Estimación Estándar Límite Inferior Límite Superior CONSTANTE -115,18 10,0981 -135,062 -95,2977 Altura cm 1,06074 0,0575216 0,947486 1,17399

Botón derecho > Options para modificar el nivel de confianz d) Guardar los valores ajustados, los residuos y los residuos estudentizados. Realizar un análisis de los residuos. Puedo salvar en la hoja de datos valores predichos, residuos, residuos estudentizados, leverages, limites inf y sup de Intervalos de Confianza para la respuesta y para la media en cada xi observado. No tengo los DFITS, que sí puedo conseguir dentro del módulo de Regresión Múltiple

Page 5: Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de …valentin/ging/materiales_web/practica5... · 2014-05-27 · inf y sup de Intervalos de Confianza para la respuesta

Práctica 4

5

Test de Normalidad de los residuos

Test de Normalidad de los residuos estudentizados

Page 6: Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de …valentin/ging/materiales_web/practica5... · 2014-05-27 · inf y sup de Intervalos de Confianza para la respuesta

Práctica 4

6

Para identificar mejor por su número los Outliers y puntos de influencia añado un contador en la base de datos, vble “caso”: Count(1;269;1)

e) Analizar si hay puntos de influencia y eliminarlos si es el caso. En REGRESION SIMPLE puedo obtener Residuos y Residuos Studentizados

Residuos Atípicos

Predicciones Residuos

Fila X Y Y Residuos Studentizados

22 171,0 84,0 66,2067 17,7933 2,13

26 184,0 103,0 79,9963 23,0037 2,78

41 165,0 78,0 59,8422 18,1578 2,18

75 190,0 110,0 86,3607 23,6393 2,87

Page 7: Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de …valentin/ging/materiales_web/practica5... · 2014-05-27 · inf y sup de Intervalos de Confianza para la respuesta

Práctica 4

7

77 175,0 91,0 70,4496 20,5504 2,47

97 171,0 49,0 66,2067 -17,2067 -2,06

121 173,0 90,0 68,3282 21,6718 2,61

122 120,0 39,0 12,109 26,891 3,54

215 188,0 105,0 84,2393 20,7607 2,51

216 185,0 103,0 81,057 21,943 2,65

279 172,0 120,0 67,2674 52,7326 6,80

El StatAdvisor La tabla de residuos atípicos enlista todas las observaciones que tienen residuos Estudentizados mayores a 2, en valor absoluto. Los residuos Estudentizados miden cuántas desviaciones estándar se desvía cada valor observado de Peso kg del modelo ajustado, utilizando todos los datos excepto esa observación. En este caso, hay 11 residuos Estudentizados mayores que 2, 2 mayores que 3. Es conveniente examinar detenidamente las observaciones con residuos mayores a 3 para determinar si son valores aberrantes que debieran ser eliminados del modelo y tratados por separado.

… y también los leverages hii (influencia potencial) PELIGRO cuando hii > 2 *(k+1)/n = 4/269= 0,01486989 (95%) (o 3* … 99%) Puntos Influyentes

Predicciones Residuos

Fila X Y Y Studentizados Influencia

122 120,0 39,0 12,109 3,54 0,146952

250 196,0 77,0 92,7252 -1,90 0,0237148

267 198,0 108,0 94,8467 1,59 0,0277713

277 155,0 45,0 49,2349 -0,51 0,0230515

Influencia Media de un punto = 0,00743494 El StatAdvisor La tabla de puntos influyentes enlista todas las observaciones que tienen valores de influencia mayores que 3 veces la de un punto promedio de los datos. Valor de Influencia es un estadístico que mide que tan influyente es cada observación en la determinación de los coeficientes del modelo estimado. En este caso, un punto promedio de los datos tendría un valor de influencia igual a 0,00743494. Hay 4 puntos con más de 3 veces el valor de influencia promedio, uno con más de 5 veces. Deberían examinarse cuidadosamente aquellos puntos con más de 5 veces el valor de influencia promedio para determinar que tanto podría cambiar el modelo si no estuvieran presentes.

En REGRESION MULTIPLE puedo obtener además los valores DFITS (influencia efectiva)

(por el contrario, NO puedo hacer predicción (Forecast) directamente ni PlotXY)

Residuos Atípicos

Y Residuo Fila Y Predicha Residuo Estudentizado 22 84,0 66,2067 17,7933 2,13 26 103,0 79,9963 23,0037 2,78 41 78,0 59,8422 18,1578 2,18 75 110,0 86,3607 23,6393 2,87 77 91,0 70,4496 20,5504 2,47 97 49,0 66,2067 -17,2067 -2,06 121 90,0 68,3282 21,6718 2,61 122 39,0 12,109 26,891 3,54 215 105,0 84,2393 20,7607 2,51 216 103,0 81,057 21,943 2,65 279 120,0 67,2674 52,7326 6,80

Page 8: Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de …valentin/ging/materiales_web/practica5... · 2014-05-27 · inf y sup de Intervalos de Confianza para la respuesta

Práctica 4

8

El StatAdvisor La tabla de residuos atípicos enlista todas las observaciones que tienen residuos Estudentizados mayores a 2, en valor absoluto. Los residuos Estudentizados miden cuántas desviaciones estándar se desvía cada valor observado de Peso kg del modelo ajustado, utilizando todos los datos excepto esa observación. En este caso, hay 11 residuos Estudentizados mayores que 2, 2 mayores que 3. Es conveniente examinar detenidamente las observaciones con residuos mayores a 3 para determinar si son valores aberrantes que debieran ser eliminados del modelo y tratados por separado.

Puntos Influyentes

Distancia de Fila Influencia Mahalanobis DFITS 26 0,00723709 0,950121 0,237352 41 0,00870782 1,34914 0,204698 75 0,0137914 2,73754 0,339255 122 0,146952 44,999 1,4677 215 0,0112323 2,03683 0,267236 216 0,00809552 1,18288 0,239356 250 0,0237148 5,48939 -0,296416 267 0,0277713 6,63046 0,268882 277 0,0230515 5,30372 -0,0781569 279 0,00423545 0,139407 0,443169

Influencia media de un solo punto = 0,00743494 PELIGRO si DFITS>2*RAIZ((k+1)/n) = 2*RAIZ(2/269)= 0,17245225 (95%) (o 3* … 99%)

El StatAdvisor La tabla de puntos influyentes enlista todas las observaciones que tienen valores de influencia mayores que 3 veces la de un punto promedio de los datos, ó que tienen un valor inusual de DFITS. Valor de Influencia es un estadístico que mide que tan influyente es cada observación en la determinación de los coeficientes del modelo estimado. DFITS es un estadístico que mide que tanto podrían cambiar los coeficientes estimados si la observación se eliminara del conjunto de datos. En este caso, un punto promedio de los datos tendría un valor de influencia igual a 0,00743494. Hay 4 puntos con más de 3 veces el valor de influencia promedio, uno con más de 5 veces. Deberían examinarse cuidadosamente aquellos puntos con más de 5 veces el valor de influencia promedio para determinar que tanto podría cambiar el modelo si no estuvieran presentes. Hay 9 datos con valores inusualmente grandes de DFITS.

e2) Elimino las observaciones siguientes:

279 DFITS=0,443169 >0,17245225 122 DFITS=1,4677 leverage hii=0,146952 > 0.015

Selecciono en el gráfico el punto a suprimir y pincho botón +/-

Page 9: Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de …valentin/ging/materiales_web/practica5... · 2014-05-27 · inf y sup de Intervalos de Confianza para la respuesta

Práctica 4

9

Regresión Simple - Peso kg vs. Altura cm Variable dependiente: Peso kg Variable independiente: Altura cm Lineal: Y = a + b*X Coeficientes Mínimos Cuadrados Estándar Estadístico Parámetro Estimado Error T Valor-P Intercepto -131,613 9,84199 -13,3726 0,0000 Pendiente 1,15265 0,0560026 20,5822 0,0000 Análisis de Varianza Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P Modelo 24295,2 1 24295,2 423,62 0,0000 Residuo 15197,9 265 57,3507 Total (Corr.) 39493,1 266 Coeficiente de Correlación = 0,784331 R-cuadrada = 61,5175 porciento R-cuadrado (ajustado para g.l.) = 61,3723 porciento Error estándar del est. = 7,57302 Error absoluto medio = 5,86925 Estadístico Durbin-Watson = 1,55717 (P=0,0001) Autocorrelación de residuos en retraso 1 = 0,221257 Número de filas excluídas: 2

Recta de regresión (eliminados los puntos 122 y 279) Peso kg = -131,613 + 1,15265*Altura cm

f) Con el modelo final, proporcionar un intervalo de confianza al 90% para la respuesta media y otro al 99% para la predicción del peso de una alumna nueva que mide 166.5 cm. En el plot XY de Regresión Simple, además de la recta ajustada, con Opciones, controlo si quiero las bandas o cotas de la confianza deseada, para Ey/ X=xo y/o para la respuesta y/X=xo En tabla Forecast, introduzco el valor x=166.5 y 90% Valores Predichos 90,00% 90,00% Predicciones Límite Predicción Límite Confianza X Y Inferior Superior Inferior Superior 166,5 60,3036 47,7521 72,8551 59,1702 61,437

I.de C. del 90% para la Respuesta Media

Page 10: Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de …valentin/ging/materiales_web/practica5... · 2014-05-27 · inf y sup de Intervalos de Confianza para la respuesta

Práctica 4

10

Subo la confianza al 99% para el I. de C. de la respuesta Valores Predichos

99,00% 99,00% Predicciones Límite Predicción Límite Confianza X Y Inferior Superior Inferior Superior 166,5 60,3036 40,5747 80,0325 58,5221 62,0851

I.de C. del 99% para la respuesta APENDICE

Ajustando por separado Hombres y Mujeres:

Page 11: Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de …valentin/ging/materiales_web/practica5... · 2014-05-27 · inf y sup de Intervalos de Confianza para la respuesta

Práctica 4

11

2.- REGRESIÓN LINEAL MÚLTIPLE Se ha diseñado un experimento para explicar la producción de oxígeno (O2UP), medida en miligramos de oxígeno por minuto, basándose en 5 medidas químicas:

• Demanda biológica de oxígeno; BOD. • Nitrógeno total; TKN. • Sólido total; TS. • Sólidos volátiles totales; TVS. • Demanda química de oxígeno; COD.

Todas estas variables están medidas en miligramos por litro. Los datos están en el fichero Oxigeno.sgd’. Plantea y valida un modelo de regresión múltiple que relacione la producción de oxígeno con las otras 5 variables. Interprétalo y utilízalo para realizar predicciones de la producción de oxígeno. Relate/Multiple Factors/Multiple Regression...

Suprimo la observación 1

Page 12: Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de …valentin/ging/materiales_web/practica5... · 2014-05-27 · inf y sup de Intervalos de Confianza para la respuesta

Práctica 4

12

Normalidad de los residuos:

Page 13: Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de …valentin/ging/materiales_web/practica5... · 2014-05-27 · inf y sup de Intervalos de Confianza para la respuesta

Práctica 4

13

Saco TVS del modelo Quedan 4 variables Dependent variable: O2UP Independent variables: BOD TKN TS COD Standard T Parameter Estimate Error Statistic P-Value CONSTANT -6,82193 1,13452 -6,01303 0,0000 BOD -0,00239808 0,00169378 -1,41581 0,1787 TKN 0,00886704 0,00415638 2,13335 0,0511 TS 0,00122322 0,000234285 5,22109 0,0001 COD 0,000408475 0,000262474 1,55625 0,1420 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 69,6587 4 17,4147 23,62 0,0000 Residual 10,3224 14 0,737313 Total (Corr.) 79,9811 18 R-squared = 87,094 percent R-squared (adjusted for d.f.) = 83,4065 percent Standard Error of Est. = 0,858669 Mean absolute error = 0,606915 Durbin-Watson statistic = 2,81821 (P=0,9322) Lag 1 residual autocorrelation = -0,449124 Number of excluded rows: 1 The StatAdvisor The output shows the results of fitting a multiple linear regression model to describe the relationship between O2UP and 4 independent variables. The equation of the fitted model is O2UP = -6,82193 - 0,00239808*BOD + 0,00886704*TKN + 0,00122322*TS + 0,000408475*COD

Unusual Residuals Predicted Studentized Row Y Y Residual Residual 7 1,3 2,8389 -1,5389 -2,28

Influential Points Mahalanobis Row Leverage Distance DFITS 2 0,537819 18,8377 1,45373 4 0,369411 9,01446 1,5281 6 0,378724 9,41859 1,32156 7 0,198778 3,27316 -1,13757

Peligros: Leverage > 2* (k+1)/n=10/20= 0.5 GFITS> 2*raiz((k+1)/n)=1

Page 14: Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de …valentin/ging/materiales_web/practica5... · 2014-05-27 · inf y sup de Intervalos de Confianza para la respuesta

Práctica 4

14

Saco BOD del modelo Quedan 3 variables Multiple Regression - O2UP Dependent variable: O2UP Independent variables: TKN TS COD Standard T Parameter Estimate Error Statistic P-Value CONSTANT -6,7775 1,17145 -5,78558 0,0000 TKN 0,0116145 0,00379663 3,05916 0,0080 TS 0,00102932 0,000196347 5,24234 0,0001 COD 0,000179135 0,000213331 0,839704 0,4143 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 68,1807 3 22,7269 28,89 0,0000 Residual 11,8003 15 0,78669 Total (Corr.) 79,9811 18 R-squared = 85,2461 percent R-squared (adjusted for d.f.) = 82,2953 percent Standard Error of Est. = 0,886955 Mean absolute error = 0,682465 Durbin-Watson statistic = 2,66236 (P=0,8731) Lag 1 residual autocorrelation = -0,399632 Number of excluded rows: 1 The StatAdvisor The output shows the results of fitting a multiple linear regression model to describe the relationship between O2UP and 3 independent variables. The equation of the fitted model is O2UP = -6,7775 + 0,0116145*TKN + 0,00102932*TS + 0,000179135*COD

Saco COD del modelo Quedan 2 variables Multiple Regression - O2UP Dependent variable: O2UP Independent variables: TKN TS Standard T Parameter Estimate Error Statistic P-Value CONSTANT -6,41355 1,07824 -5,94816 0,0000 TKN 0,0112108 0,0037312 3,00461 0,0084 TS 0,00115329 0,00012824 8,99321 0,0000 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 67,626 2 33,813 43,79 0,0000 Residual 12,355 16 0,77219 Total (Corr.) 79,9811 18 R-squared = 84,5525 percent

Page 15: Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de …valentin/ging/materiales_web/practica5... · 2014-05-27 · inf y sup de Intervalos de Confianza para la respuesta

Práctica 4

15

R-squared (adjusted for d.f.) = 82,6216 percent Standard Error of Est. = 0,878744 Mean absolute error = 0,711168 Durbin-Watson statistic = 2,78633 (P=0,9326) Lag 1 residual autocorrelation = -0,452628 Number of excluded rows: 1 The StatAdvisor The output shows the results of fitting a multiple linear regression model to describe the relationship between O2UP and 2 independent variables. The equation of the fitted model is O2UP = -6,41355 + 0,0112108*TKN + 0,00115329*TS

Unusual Residuals Predicted Studentized Row Y Y Residual Residual 4 5,2 3,58988 1,61012 2,14

Influential Points Mahalanobis Row Leverage Distance DFITS 2 0,420542 11,3933 1,57973 Average leverage of single data point = 0,157895

Multiple Regression - O2UP Dependent variable: O2UP Independent variables: TKN TS COD Standard T Parameter Estimate Error Statistic P-Value CONSTANT -6,7775 1,17145 -5,78558 0,0000 TKN 0,0116145 0,00379663 3,05916 0,0080 TS 0,00102932 0,000196347 5,24234 0,0001 COD 0,000179135 0,000213331 0,839704 0,4143 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 68,1807 3 22,7269 28,89 0,0000 Residual 11,8003 15 0,78669 Total (Corr.) 79,9811 18 R-squared = 85,2461 percent R-squared (adjusted for d.f.) = 82,2953 percent Standard Error of Est. = 0,886955 Mean absolute error = 0,682465 Durbin-Watson statistic = 2,66236 (P=0,8731) Lag 1 residual autocorrelation = -0,399632 Number of excluded rows: 1 The StatAdvisor The output shows the results of fitting a multiple linear regression model to describe the relationship between O2UP and 3 independent variables. The equation of the fitted model is O2UP = -6,7775 + 0,0116145*TKN + 0,00102932*TS + 0,000179135*COD