Calidad-aire2.docx

36
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales Trabajo Final Estudio Estadístico sobre mediciones de calidad diaria de aire en la ciudad de New York ,1973. Cátedra : Estadística Aplicada Profesor : Mgter. Piris da Motta, Marcial Alumnos Brítez, Celeste Salvia, Ariana Año : 2014

Transcript of Calidad-aire2.docx

Page 1: Calidad-aire2.docx

Universidad Nacional de MisionesFacultad de Ciencias Exactas Químicas y Naturales

Trabajo Final

Estudio Estadístico sobre mediciones de calidad diaria de aire en la ciudad de New York ,1973.

Cátedra: Estadística Aplicada

Profesor: Mgter. Piris da Motta, Marcial

Alumnos

Brítez, Celeste Salvia, Ariana

Año: 2014

Page 2: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Índice

Introducción

Descripción

Objetivo

Metodología

Análisis descriptivo

Modelo 1: Ajuste de Regresión lineal simple Ozone-Temp.

Modelo 2: Ajuste de Regresión lineal simple Ozone-Solar.R.

Modelo 3: Ajuste de Regresión lineal simple Ozone-Wind.

Modelo 4: Regresión lineal múltiple con las variables temperatura, radiación solar y velocidad media del viento.

Validación de Modelo elegido

Análisis de los residuos

Linealidad……………………………………………………………………. 22Independencia………………………………………………………………. 23Homocedasticidad……………………………………………………………24Normalidad……………………………………………………………………26No-Colinealidad……………………………………………………………....27

Conclusión

Bibliografía……………………………………………………………………………29

Página 2

Page 3: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Introducción

Cuando el ozono se sitúa en la capa más baja de la atmósfera y supera ciertos niveles, deja de ser el gas protector de la vida en el planeta para convertirse en un peligroso contaminante.

El ozono se produce de forma natural, dando lugar a pequeñas concentraciones inocuas en el aire, a partir de emisiones procedentes de la vegetación, procesos de fermentación o volcanes, y se encuentra tanto en la troposfera- la región de la atmósfera más próxima a la superficie terrestre- como en la estratosfera, situada en las capas altas de la atmósfera, en donde cumple su conocido papel protector contra los letales rayos ultravioleta. Sin embargo, cuando el ozono troposférico aumenta en mayores cantidades, provocado por medios artificiales, se convierte en un contaminante tóxico. A diferencia de otros contaminantes que son emitidos directamente por sus fuentes, el ozono surge a partir de otros productos, principalmente óxidos de nitrógeno (NOx) y contaminantes orgánicos volátiles (COV's).

Además de la presencia de NOx y COV's, hay otros factores que contribuyen a la formación de ozono a nivel del suelo, denominados factores meteorológicos.

Se requiere altos niveles de radiación solar para iniciar las reacciones fotoquímicas que forman ozono. Las radiaciones estimulan los COV's y NOx a recombinarse para formar el ozono.

Temperaturas superiores a 80 ºF también influyen en la formación de ozono. Las temperaturas más altas aumentan la química de la formación de ozono y las emisiones de evaporación de COV's. Cuanto mayor sea la temperatura, se producirán altos niveles de ozono.

Bajas velocidades del viento (menores a 10 MPH) son necesarias para la acumulación de los precursores de la formación de ozono (COV's y NOx) y la posterior formación de ozono. Velocidades del viento más altas tienden a diluir o dispersar las emisiones. Sin embargo, todavía pueden transportar ozono desde otros lugares.

Página 3

Page 4: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Descripción

El estudio citado muestra las variaciones de:

Concentración de Ozono en partes por billón de 13:00 a 15:00 horas en Roosevelt Island

Radiación solar en Langleys en la banda de frecuencias 4000-7700 Angstroms de 08:00-12:00 horas en Central Park

Velocidad media del viento en millas por hora de 07:00 a 10:00 horas en el aeropuerto de La Guardia

Temperatura diaria máxima en grados Fahrenheit en el aeropuerto “La Guardia”

Meses del año (05-09)

Estos datos fueron tomados en la ciudad de Nueva York por el Departamento de Estado de Nueva York de la Naturaleza (datos de la capa de ozono) y del Servicio Meteorológico Nacional, a partir del 1 de Mayo al 30 de Septiembre de 1973.

Objetivo

- Evaluar si existe correlación entre la concentración de ozono y los factores temperatura diaria máxima, radiación solar, velocidad media del viento.

Metodología

Se efectuará un análisis descriptivo de la concentración de ozono (Ozone), temperatura diaria máxima (Temp), radiación solar (Solar.R) y velocidad media del viento (Wind) que serán las variables en estudio.

La metodología a aplicar consiste en realizar una Regresión Lineal Múltiple para comprobar si existe asociación entre la concentración de ozono (variable dependiente) y las variables explicativas : temperatura máxima diaria, radiación solar y velocidad media del viento. Si existiese dicha asociación o relación se procederá a la búsqueda del modelo que mejor se ajuste al estudio y la validación del mismo.

Página 4

Page 5: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Para el procesamiento de la información y la evaluación de la relación entre las variables se utilizará el Software R.2.12.2.

Resultados (enumerar cada apartado)

Análisis descriptivo

En la tabla 1 se muestran los datos que fueron extraídos del conjunto de datos de paquetes “New York Air Quality Measurements” del Programa R.2.12.2. La misma cuenta con 153 mediciones de concentración de ozono, velocidad media del viento, radiación solar, temperatura, tomadas durante 5 meses en la ciudad de New York.

Para introducir los datos en el programa, se carga en la ventana de R Console > library (Rcmdr), y en la nueva ventana abierta de Rcmdr mediante la selección de las opciones del menú Datos Conjunto de datos en paquetesLeer datos desde paquete adjunto…, en el cuadro de dialogo se elije el paquete datasets y dentro de éste el juego de datos airquality. (Imagen1).

Página 5

Imagen 1

Page 6: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Página 6

obs Ozone Solar.R Wind Temp Month Day1 41 190 7.4 67 5 12 36 118 8 72 5 23 12 149 12.6 74 5 34 18 313 11.5 62 5 45 NA NA 14.3 56 5 56 28 NA 14.9 66 5 67 23 299 8.6 65 5 78 19 99 13.8 59 5 89 8 19 20.1 61 5 9

10 NA 194 8.6 69 5 1011 7 NA 6.9 74 5 1112 16 256 9.7 69 5 1213 11 290 9.2 66 5 1314 14 274 10.9 68 5 1415 18 65 13.2 58 5 1516 14 334 11.5 64 5 1617 34 307 12 66 5 1718 6 78 18.4 57 5 1819 30 322 11.5 68 5 1920 11 44 9.7 62 5 2021 1 8 9.7 59 5 2122 11 320 16.6 73 5 2223 4 25 9.7 61 5 2324 32 92 12 61 5 2425 NA 66 16.6 57 5 2526 NA 266 14.9 58 5 2627 NA NA 8 57 5 2728 23 13 12 67 5 2829 45 252 14.9 81 5 2930 115 223 5.7 79 5 3031 37 279 7.4 76 5 3132 NA 286 8.6 78 6 133 NA 287 9.7 74 6 234 NA 242 16.1 67 6 335 NA 186 9.2 84 6 436 NA 220 8.6 85 6 537 NA 264 14.3 79 6 638 29 127 9.7 82 6 739 NA 273 6.9 87 6 840 71 291 13.8 90 6 941 39 323 11.5 87 6 1042 NA 259 10.9 93 6 1143 NA 250 9.2 92 6 1244 23 148 8 82 6 1345 NA 332 13.8 80 6 1446 NA 322 11.5 79 6 1547 21 191 14.9 77 6 1648 37 284 20.7 72 6 1749 20 37 9.2 65 6 1850 12 120 11.5 73 6 1951 13 137 10.3 76 6 2052 NA 150 6.3 77 6 2153 NA 59 1.7 76 6 2254 NA 91 4.6 76 6 2355 NA 250 6.3 76 6 24

Page 7: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Tabla 1. Datos de mediciones de Calidad de Aire en New York.

Por distintos motivos, la tabla 1 presenta celdas con NA (Not Available), esto se debe a que no se ha podido medir un dato o que se ha perdido la medición.

En la tabla 2 se muestran los resultados obtenidos para los estadísticos descriptivos básicos correspondientes a los valores de la concentración de ozono, radiación solar, temperatura, velocidad media del viento.

Variables Media SD CV (%)

Asimetría

Curtosis 0% 25% 50% 75% 100%

Ozone 42,1293 32,987978,301

6 1,2099 1,1122 1,00 18,00 31,50 63,25168,0

0

Solar. R185,931

5 90,058448,436

3 -0,4193 -1,0040 7,00115,7

5205,0

0258,7

5334,0

0

Temp 77,8823 9,465212,153

2 -0,3705 -0,462956,0

0 72,00 79,00 85,00 97,00

Wind 9,9575 3,523035,380

4 0,3410 0,0289 1,70 7,40 9,70 11,50 20,70Tabla 2. Análisis Descriptivo

Las medidas básicas recomendadas son la media, rango intercuartílico y la desviación típica. Se calculan desde EstadísticosResúmenes Resúmenes numéricos…, seleccionando para las variables (Imagen 2).

Para el cálculo de la curtosis y asimetría se cargan los paquetes abind y e1071 respectivamente, en la ventana de instrucciones del paquete Rcmdr se ingresaron los siguientes comandos.

Página 7

Imagen 2

Page 8: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Curtosis: kurtosis(airquality$Ozone, na.rm=TRUE)

Kurtosis (airquality$Solar.R, na.rm=TRUE)

Kurtosis (airquality$Temp)

kurtosis(airquality$Wind)

Asimetría: skewness(airquality$Ozone, na.rm=TRUE)

skewness(airquality$Solar.R, na.rm=TRUE)

skewness(airquality$Temp)

skewness(airquality$Wind)

Se puede observar en la tabla 2 que las variables Ozone y Solar.R presentan la mayor dispersión ya que cuentan con los más elevados valores de coeficientes de variación cv, seguidos por Wind y Temp.

En cuanto a la forma de distribución, el valor obtenido para el coeficiente de curtosis las variables Ozone y Wind presentan valores positivos, la distribución es Leptocúrtica (elevado grado de concentración alrededor de los valores centrales de la variable; K>0), en cambio las variables Solar.R y Temp presentan valores negativos, la distribución es platicúrtica (reducido grado de concentración alrededor de los valores centrales de la variable; K<0).

El coeficiente de asimetría se refiere a si la curva es simetrica o no que forman los valores de la serie presenta la misma forma a izquierda y derecha de un valor central (media aritmética). Se puede observar en la tabla 2 que el coeficiente de simetría de la Solar.R y Temp nos indica una distribución de valores asimétrica negativa, la variable Solar. R tiene una cola asimétrica hacia los valores positivos, mientras que Temp se encuentra levemente sesgada hacia la derecha (Imagen 3), en cambio el Ozone y Wind son asimétricas positivas; en las gráficas observamos que la variable Ozone se encuentra sesgada hacia la izquierda y el Wind levemente hacia la izquierda (Imagen 4).

Página 8

Page 9: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Página 9

Imagen 3. Gráficas de Densidades de Soalar.R y Temp.

Imagen 4. Gráficas de Densidades de Ozone y Wind.

Page 10: Calidad-aire2.docx

Imagen 5

Imagen 6. Diagrama de Caja y Bigote de las variables Ozone y Wind.

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Con los cuartiles se puede calcular el rango intercuartilico que representa una medida de variación, diferencia entre el tercer cuartil (percentil 75) y el primer cuartil (percentil 25), siendo la más dispersa Solar. R seguida del Ozone, Temp y Wind. Esto se ve reflejado en los gráficos de cajas de bigote, que se calculan desde Graficas Diagrama de cajas… seleccionando las variables a graficar.

Página 10

Page 11: Calidad-aire2.docx

Imagen 7. Diagrama de Caja y Bigote de las variables Temp y Solar.R.

Imagen 8

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Los gráficos de cajas y bigotes nos proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución es asimétrica (Solar. R, Ozone); además son útiles para ver la presencia de los valores atípicos que son los datos que están apartados del cuerpo principal, pueden representar los efectos de causas extrañas, como algún error de medición o registro. Estos valores atípicos se encuentran presentes en las variables Ozone y Wind (Imagen 6).

Correlación entre las variables

Para determinar el grado de correlación entre las distintas variables se procede a realizar una matriz de correlaciones y así ver cuales están más correlacionadas y determinar la variable dependiente y las independientes.

La matriz de correlaciones se calcula desde EstadísticosResúmenes Matriz de correlación… selección de variables (Imagen 8).

Página 11

Page 12: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Ozone Solar. R Temp WindOzone 1,0000 0,3483 0,6985 -0,6125Solar. R 0,3483 1,0000 0,2941 -0,1272Temp 0,6985 0,2941 1,0000 -0,4972Wind -0,6125 -0,1272 -0,4972 1,0000

Tabla 3

En la tabla 3 se observa las relaciones lineales entre las variables, siendo la de mayor valor la de Ozone-Temp ó Temp-Ozone (0,6985). Para este caso se toma como variable dependiente al Ozone.

Esta relación también se puede observar en la Imagen 9, donde existe mayor linealidad entre la variable Ozone y Temp, indicando que cualquiera podría llegar a ser variable dependiente.

Página 12

Page 13: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Modelos de regresión

Se procede al ajuste de diseño de tres modelos de regresión lineal con y la posterior comparación de estos para poder seleccionar el que mejor se ajuste a los datos utilizando el criterio de ………… estudio en cuestión.

Esta no es una estrategia de construcción de un modelo de regresión – leer la teoría de regresión

Modelo 1: Regresión lineal simple de la variable dependiente con la temperatura.

Modelo 2: Regresión lineal simple de la variable dependiente con la radiación solar.

Modelo 3: Regresión lineal simple de la variable dependiente con la velocidad media del viento.

Modelo 4: Regresión lineal múltiple con las variables temperatura, radiación solar y velocidad media del viento.

Página 13

Imagen 9. Gráfico de la matriz de correlaciones entre las variables.

Page 14: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Para realizar las gráficas XY (dispersión) donde cada punto trazado respeta un par de valores medidos de las variables independiente y dependiente. El valor de la variable independiente X se identifica respecto al eje horizontal, mientras que el valor de la variable dependiente Y se identifica respecto al eje vertical.

En el programan R.2.12.2 se efectúa lo siguiente GraficasGráfica XY… seleccionando como variable explicada al Ozone y variable explicativa la que corresponda según el modelo (Imagen 10)

Para calcular la recta de regresión entre dos variables se procede de la siguiente manera: Estadísticos Ajuste de ModelosRegresión lineal y se eligen la variable explicada y explicativa según corresponda (Imagen 11).

Página 14

Imagen 10

Page 15: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Modelo 1: Ajuste de Regresión lineal simple Ozone-Temp.

Imagen 12. Modelo 1: Grafica XY de Ozone-Temp

Página 15

Imagen 11

Page 16: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

En la gráfica de dispersión (Imagen12) se observa que la nube de puntos muestra una tendencia creciente en la relación Ozone-Temp y parece ser rectilínea.

Min 1Q Median 3Q Max-40,729 -17,409 -0,587 11,306 118,271

Tabla 4. Modelo 1. Análisis descriptivo de los Residuos

Estimate Std. Error t value Pr(> |t|)(intercept) -146,9955 18,2872 -8,038 9,37E-03Temp 2,4287 0,2331 10,418 < 2,2E-16

Tabla 5. Modelo 1. Prueba de significación de la constante.

En la tabla 5 se observa la estimación de los coeficientes incluye(por columnas) el valor de esos coeficientes (Estimate), la desviación típica de la estimación(Std. Error), el valor de la t de Student asociada (t value) y la probabilidad de que la verdadera t de Student tome ese valor(Pr(> |t|)).

R^2 R^2 ajustada

Error típico de estimación

p-value residuals

Modelo 1 0,4877 0,4832 23,71 < 2,2E-26Tabla 6. Resumen del Modelo 1

La tabla 6 muestra los resultados del ajuste del modelo de regresión. El valor de R^2, corresponde al coeficiente de determinación, mide la bondad del ajuste de la recta de regresión a la nube de puntos, el rango de valores es de 0 a 1. Valores pequeños de R^2 indica que el modelo no se ajusta bien a los datos. R^2 indica que el 48,32% de la variabilidad de Temp es explicada por la relación lineal con el Ozono. El valor R=0,698 representa el valor absoluto del coeficiente de correlación, es decir es un valor entre 0 y 1. Valores próximos a 1 indica una fuerte relación entre las variables.

El p-valor indica que los coeficientes del modelo son estadísticamente significativos.

Página 16

Page 17: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Modelo 2: Ajuste de Regresión lineal simple Ozone-Solar.R.

Imagen 13. Modelo 2: Grafica XY de Ozone-Solar. R

En la gráfica de dispersión (Imagen13) se observa que la nube de puntos muestra una tendencia creciente en la relación Ozone-Solar.R.

Min 1Q Median 3Q Max-48,292 -21,361 -8,864 16,353 119,136

Tabla 7. Modelo 2. Análisis descriptivo de Residuos.

Estimate Std. Error t value Pr(> |t|)(intercept) 18,5987 6,7479 2,756 6,86E-03Solar. R 0,1272 0,0328 3,88 0,00018

Tabla 8. Modelo 2. Prueba de significación de la constante

R^2 R^2 ajustada

Error tipico de estimacion

p-value residuals

Modelo 1 0,1213 0,1133 31,33 0,00018Tabla 9. Resumen del modelo 2.

Página 17

Page 18: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

En la tabla 9 se observa que le valor de R^2 es muy bajo, siendo mejor el modelo 1, es decir solo el 12,13% de la variabilidad de Solar. R es explicada por la relación lineal con el ozono. El valor R= 0,3482 indica poca relación entre las variables.

Modelo 3: Ajuste de Regresión lineal simple Ozone-Wind.

Imagen 14. Modelo 3: Grafica XY de Ozone-Wind.

En la gráfica de dispersión (Imagen14) se observa que la nube de puntos muestra una tendencia decreciente en la relación Ozone-Wind y parece ser rectilínea.

Min 1Q Median 3Q Max

-51,572 -18,854 -4,868 15,234 90,00

0 Tabla 10. Modelo 3. Análisis descriptivo de Residuos.

Estimate Std. Error t value Pr(> |t|)(intercept) 96,8729 7,2387 13,38 < 2E-16Wind -5,5509 0,6904 -8,04 9,27E-13

Tabla 11. Modelo 3. Prueba de significación de la constante

Página 18

Page 19: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

R^2 R^2 ajustada

Error tipico de estimacion

p-value residuals

Modelo 1 0,3619 0,3563 26,47 9,27E-13Tabla 12. Resumen del modelo 3.

En la tabla 12 se observa que le valor de R^2 es bajo, pero mucho más alto que en el modelo 2; sigue siendo mejor el modelo 1, el 36,19% de la variabilidad de la velocidad media del viento es explicada por la relación lineal con el ozono. El valor R= 0,6016 indica poca relación entre las variables.

Modelo 4: Regresión lineal múltiple con las variables temperatura, radiación solar y velocidad media del viento.

Imagen 15. Modelo 4: Grafica XY de Ozone-(Solar.R, Temp, Wind)

Min 1Q Median 3Q Max

-40,485 -14,219 -3,551 1,097 95,61

9 Tabla 13. Modelo 4. Análisis descriptivo de Residuos.

Página 19

Page 20: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Estimate Std. Error t value Pr(> |t|)

(intercept) -64,3421 23,0547 -2,791 0,0

062

Solar.R 0,0598 0,0232 2,58 0,0

12

Temp 1,6521 0,2535 6,516 2,4

2E-9

Wind -3,3336 0,6544 -5,094 1,5

2E-6 Tabla 14. Modelo 4. Prueba de significación de la constante

R^2 R^2 ajustada

Error tipico de estimacion

p-value residuals

Modelo 4 0,6058 0,5948 21,18 < 2,2E-16Tabla 15. Resumen del modelo 4.

En la tabla 15 se observa que el valor de R^2 es mucho más alto en comparación con los demás modelos, esto nos indica que el agregado de dos variables mejora el modelo. El valor R= 0,7783 indica que existe relación entre las variables.

De todos los modelos propuestos se escoge el Modelo 4, ya que en la tabla 14 se observa que además de incluir a todas las variables, cada una de estas presenta un p-valor menor a 0,05, por lo tanto contribuyen de forma significativa a explicar lo que ocurre con la variable dependiente.

La ecuación de Modelo 4 es: primero se escribe el valor de la constante ……

Comprobar si son necesarios introducir en el modelo términos de interacción entre las variables explicativas

Validación de Modelo elegidoLos supuestos de un modelo estadísticos se refieren a una serie de condiciones que deben darse para garantizar la validez del modelo.

1. Linealidad : La ecuación de regresión adopta una forma particular. La variable dependiente es la suma de un conjunto de elementos: el origen

Página 20

Ozone=0,598∗Solar . R+1,6521∗Temp−3,3336∗Wind−64,3421

Page 21: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

de la recta, una combinación lineal de variables independientes y los residuos.

2. Independencia : Los residuos son independientes entre sí, es decir, los residuos constituyen una variable aleatoria (los residuos son las diferencias entre los valores observados y los pronosticados).

3. Homocedasticidad : Para cada valor de la variable independiente(o combinación de valores de las variables independientes), la varianza de los residuos es constante.

4. Normalidad : Para cada valor de la variable independiente(o combinación de valores de las variables independientes), los residuos se distribuyen normalmente con media cero.

5. No-Colinealidad : No existe relación lineal exacta entre ninguna de las variables independientes. El incumplimiento de este supuesto da origen a colinealidad o multicolinealidad. La colinealidad es un problema porque, en el caso de colinealidad perfecta no es posible estimar los coeficientes de la ecuación de regresión; y en el caso de colinealidad parcial, aumenta el tamaño de los residuos tipificados y esto produce coeficientes de regresión muy inestables.La independencia, homocedasticidad y normalidad, están estrechamente asociados al comportamiento de los residuos, por tanto, un análisis cuidadoso de los residuos puede informarnos sobre el cumplimiento de los mismos.

Análisis de los residuos

LinealidadPara comprobar la linealidad se procede a realizar el test de Reset de no linealidad siguiendo estos pasos: Modelos Diagnósticos numéricos Test RESET de no linealidad (Imagen 16)

Página 21Imagen 16

Page 22: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

RESET test

data: Ozone ~ Solar.R + Temp + Wind

RESET = 8.2056, df1 = 6, df2 = 101, p-value = 3.076e-07

Como el p-valor es menor a 0.05, esto confirma la no linealidad del modelo.

También puede obtenerse información sobre la linealidad a partir de una inspección del diagrama de dispersión (Imagen 9).

Cual es entonces el modelo definitivo?

IndependenciaUno de los supuestos básicos de los modelos de regresión lineal es el de independencia entre los residuos. El estadístico de Durbin-Watson proporciona información sobre el grado de independencia existente entre ellos.

El estadístico oscila entre cero y cuatro y toma el valor 2 cuando los residuos son independientes. Los valores menores que 2 indican autocorrelación positiva, y los mayores que 2 autocorrelación negativa. Podemos asumir independencia entre los residuos cuando toma valores entre 1,5 y 2,5.

Para el cálculo de Durbin-Watson se procede de la siguiente manera:

ModelosDiagnósticos Numéricos Test de Durbin-Watson para autocorrelación… (Imagen 17).

Página 22

Page 23: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

R^2 R^2 ajustada

Error tipico de estimacion

p-value residuals

Durbin-Watson

Modelo 4 0,6058 0,5948 21,18 < 2,2E-16 1.9355Tabla 16. Resumen del modelo 4.

Puesto que el valor DW= 1,9355 se encuentra entre 1,5 y 2,5, podemos asumir que los residuos son independientes.

Homocedasticidad Se dispone de una serie de gráficos que permite obtener información sobre el grado de cumplimiento de los supuestos de homocedasticidad.

Para obtener los gráficos se procede de la siguiente manera Modelos GráficasGráficas básicas de diagnóstico (Imagen 18).

Página 23

Imagen 17

Page 24: Calidad-aire2.docx

Imagen 18

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Página 24

Imagen 19. Gráficas Básicas de Diagnóstico del Modelo 4.

Page 25: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

En el gráfico de dispersión (Residuos vs valores estimados) que se muestra la Imagen 19, podemos ver que la nube de puntos no sigue ninguna pauta de asociación clara ni lineal y se tendría duda acerca de la homocedastidad del modelo.

El p-valor del test de Breusch-Pagan (Imagen 20) es menor a 0.05, lo que confirma la Heterocedasticidad:

Breusch-Pagan test

data: Ozone ~ Solar.R + Temp + Wind

BP = 5.3754, df = 1, p-value = 0.02042

NormalidadEn cuanto a la gráfica Normal Q-Q de residuos estandarizados vs cuartiles teóricos (Imagen 21), se observa que existen valores anómalos en los extremos de la gráfica, la mayoría de los valores estandarizados se encuentran entre -2 y +2, por lo que se considera que cumple con la normalidad el modelo propuesto.

Página 25

Imagen 20

Page 26: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

No colinealidadPara el estudio de la colinealidad se sigue los siguientes pasos: Modelos Diagnósticos numéricos Factores de inflación de varianza (Imagen 22).

Página 26

Imagen 21

Imagen 22

Page 27: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

En la ventana de resultados se obtiene:

> vif(RegModel.1)

Solar.R Temp Wind

1.095253 1.431367 1.329070

Si alguno de los valores supera el valor 4 implica que hay colinealidad. En este modelo todos los valores no superan dicha cantidad y por lo tanto, no hay colinealidad.

No me queda claro cual es el modelo final y en base a que criterio se selecciona el mismo.

Una vez seleccionado “el modelo” según alguno de los criterios hay que proceder a realizar la validación y el análisis de los residuos.

Página 27

Page 28: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Conclusión

El análisis de regresión lineal múltiple es un método estadístico empleado en muchas áreas del conocimiento. En este estudio, dicho análisis se aplico a los datos de concentración de ozono, velocidad media del viento, temperatura diaria máxima y radiación solar, monitoreadas en la ciudad de New York. El periodo que abarco el estudio fue de mayo a septiembre de 1973. El objetivo fue evaluar si existe correlación entre la variable dependiente (concentración de ozono) y las independientes (velocidad media del viento, temperatura diaria máxima y radiación solar). Se empleo un análisis de regresión lineal simple y múltiple, eligiendo el modelo 4 que presenta un 60% de asociación lineal (R^2).

Con este modelo se confirman los supuestos teóricos pero no cumple con todas las condiciones necesarias para garantizar la validez del modelo.

Con el análisis también se observa que la variable con mayor efecto sobre la concentración de ozono es la temperatura con un nivel de significancia de 2,42E-9, seguido de la velocidad del viento con 1,52E-6 y por último la radiación solar con 0,012 de nivel de significancia.

Respecto al comportamiento del modelo:

Presenta mayor correlación entre las variables en comparación con los modelos de regresión lineal simple, confirmando que la inclusión de las tres variables en un mismo modelo aumenta el grado de asociación lineal (R^2).

No presenta linealidad. Los residuos se distribuyen normalmente pero existen observaciones

atípicas. Los residuos no son homocedásticos (la varianza de los residuos no es

constante). Los residuos son independientes. No existe colinealidad.

Evidentemente se podría cambiar el modelo propuesto y ensayar un modelo no lineal y así elaborar una ecuación más precisa para dicho estudio.

Página 28

Page 29: Calidad-aire2.docx

Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales

Bibliografía

Piris da Motta R.; 2011. Apunte de clase “Análisis de Varianza”.

http://www.wmcac.org/airquality/factors.html

http://prezi.com/xf9tunzpqn1d/regresion-lineal-simple-v20/

Walpole R., Myers R., Myers S.; 1999. Probabilidad y Estadística para

Ingenieros. 6ta. Ed. Prentice-Hall.

http://www.scielo.org.mx/scielo.php?

pid=S018629792010000100005&script=sci_arttext

http://ocw.bib.upct.es/pluginfile.php/5253/mod_resource/content/1/

Regresion_lineal_con_R_Commander.pdf

http://uce.uniovi.es/CURSOICE/Informese4.html

Página 29