Calidad-aire2.docx
-
Upload
celebritez -
Category
Documents
-
view
212 -
download
0
Transcript of Calidad-aire2.docx
Universidad Nacional de MisionesFacultad de Ciencias Exactas Químicas y Naturales
Trabajo Final
Estudio Estadístico sobre mediciones de calidad diaria de aire en la ciudad de New York ,1973.
Cátedra: Estadística Aplicada
Profesor: Mgter. Piris da Motta, Marcial
Alumnos
Brítez, Celeste Salvia, Ariana
Año: 2014
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Índice
Introducción
Descripción
Objetivo
Metodología
Análisis descriptivo
Modelo 1: Ajuste de Regresión lineal simple Ozone-Temp.
Modelo 2: Ajuste de Regresión lineal simple Ozone-Solar.R.
Modelo 3: Ajuste de Regresión lineal simple Ozone-Wind.
Modelo 4: Regresión lineal múltiple con las variables temperatura, radiación solar y velocidad media del viento.
Validación de Modelo elegido
Análisis de los residuos
Linealidad……………………………………………………………………. 22Independencia………………………………………………………………. 23Homocedasticidad……………………………………………………………24Normalidad……………………………………………………………………26No-Colinealidad……………………………………………………………....27
Conclusión
Bibliografía……………………………………………………………………………29
Página 2
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Introducción
Cuando el ozono se sitúa en la capa más baja de la atmósfera y supera ciertos niveles, deja de ser el gas protector de la vida en el planeta para convertirse en un peligroso contaminante.
El ozono se produce de forma natural, dando lugar a pequeñas concentraciones inocuas en el aire, a partir de emisiones procedentes de la vegetación, procesos de fermentación o volcanes, y se encuentra tanto en la troposfera- la región de la atmósfera más próxima a la superficie terrestre- como en la estratosfera, situada en las capas altas de la atmósfera, en donde cumple su conocido papel protector contra los letales rayos ultravioleta. Sin embargo, cuando el ozono troposférico aumenta en mayores cantidades, provocado por medios artificiales, se convierte en un contaminante tóxico. A diferencia de otros contaminantes que son emitidos directamente por sus fuentes, el ozono surge a partir de otros productos, principalmente óxidos de nitrógeno (NOx) y contaminantes orgánicos volátiles (COV's).
Además de la presencia de NOx y COV's, hay otros factores que contribuyen a la formación de ozono a nivel del suelo, denominados factores meteorológicos.
Se requiere altos niveles de radiación solar para iniciar las reacciones fotoquímicas que forman ozono. Las radiaciones estimulan los COV's y NOx a recombinarse para formar el ozono.
Temperaturas superiores a 80 ºF también influyen en la formación de ozono. Las temperaturas más altas aumentan la química de la formación de ozono y las emisiones de evaporación de COV's. Cuanto mayor sea la temperatura, se producirán altos niveles de ozono.
Bajas velocidades del viento (menores a 10 MPH) son necesarias para la acumulación de los precursores de la formación de ozono (COV's y NOx) y la posterior formación de ozono. Velocidades del viento más altas tienden a diluir o dispersar las emisiones. Sin embargo, todavía pueden transportar ozono desde otros lugares.
Página 3
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Descripción
El estudio citado muestra las variaciones de:
Concentración de Ozono en partes por billón de 13:00 a 15:00 horas en Roosevelt Island
Radiación solar en Langleys en la banda de frecuencias 4000-7700 Angstroms de 08:00-12:00 horas en Central Park
Velocidad media del viento en millas por hora de 07:00 a 10:00 horas en el aeropuerto de La Guardia
Temperatura diaria máxima en grados Fahrenheit en el aeropuerto “La Guardia”
Meses del año (05-09)
Estos datos fueron tomados en la ciudad de Nueva York por el Departamento de Estado de Nueva York de la Naturaleza (datos de la capa de ozono) y del Servicio Meteorológico Nacional, a partir del 1 de Mayo al 30 de Septiembre de 1973.
Objetivo
- Evaluar si existe correlación entre la concentración de ozono y los factores temperatura diaria máxima, radiación solar, velocidad media del viento.
Metodología
Se efectuará un análisis descriptivo de la concentración de ozono (Ozone), temperatura diaria máxima (Temp), radiación solar (Solar.R) y velocidad media del viento (Wind) que serán las variables en estudio.
La metodología a aplicar consiste en realizar una Regresión Lineal Múltiple para comprobar si existe asociación entre la concentración de ozono (variable dependiente) y las variables explicativas : temperatura máxima diaria, radiación solar y velocidad media del viento. Si existiese dicha asociación o relación se procederá a la búsqueda del modelo que mejor se ajuste al estudio y la validación del mismo.
Página 4
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Para el procesamiento de la información y la evaluación de la relación entre las variables se utilizará el Software R.2.12.2.
Resultados (enumerar cada apartado)
Análisis descriptivo
En la tabla 1 se muestran los datos que fueron extraídos del conjunto de datos de paquetes “New York Air Quality Measurements” del Programa R.2.12.2. La misma cuenta con 153 mediciones de concentración de ozono, velocidad media del viento, radiación solar, temperatura, tomadas durante 5 meses en la ciudad de New York.
Para introducir los datos en el programa, se carga en la ventana de R Console > library (Rcmdr), y en la nueva ventana abierta de Rcmdr mediante la selección de las opciones del menú Datos Conjunto de datos en paquetesLeer datos desde paquete adjunto…, en el cuadro de dialogo se elije el paquete datasets y dentro de éste el juego de datos airquality. (Imagen1).
Página 5
Imagen 1
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Página 6
obs Ozone Solar.R Wind Temp Month Day1 41 190 7.4 67 5 12 36 118 8 72 5 23 12 149 12.6 74 5 34 18 313 11.5 62 5 45 NA NA 14.3 56 5 56 28 NA 14.9 66 5 67 23 299 8.6 65 5 78 19 99 13.8 59 5 89 8 19 20.1 61 5 9
10 NA 194 8.6 69 5 1011 7 NA 6.9 74 5 1112 16 256 9.7 69 5 1213 11 290 9.2 66 5 1314 14 274 10.9 68 5 1415 18 65 13.2 58 5 1516 14 334 11.5 64 5 1617 34 307 12 66 5 1718 6 78 18.4 57 5 1819 30 322 11.5 68 5 1920 11 44 9.7 62 5 2021 1 8 9.7 59 5 2122 11 320 16.6 73 5 2223 4 25 9.7 61 5 2324 32 92 12 61 5 2425 NA 66 16.6 57 5 2526 NA 266 14.9 58 5 2627 NA NA 8 57 5 2728 23 13 12 67 5 2829 45 252 14.9 81 5 2930 115 223 5.7 79 5 3031 37 279 7.4 76 5 3132 NA 286 8.6 78 6 133 NA 287 9.7 74 6 234 NA 242 16.1 67 6 335 NA 186 9.2 84 6 436 NA 220 8.6 85 6 537 NA 264 14.3 79 6 638 29 127 9.7 82 6 739 NA 273 6.9 87 6 840 71 291 13.8 90 6 941 39 323 11.5 87 6 1042 NA 259 10.9 93 6 1143 NA 250 9.2 92 6 1244 23 148 8 82 6 1345 NA 332 13.8 80 6 1446 NA 322 11.5 79 6 1547 21 191 14.9 77 6 1648 37 284 20.7 72 6 1749 20 37 9.2 65 6 1850 12 120 11.5 73 6 1951 13 137 10.3 76 6 2052 NA 150 6.3 77 6 2153 NA 59 1.7 76 6 2254 NA 91 4.6 76 6 2355 NA 250 6.3 76 6 24
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Tabla 1. Datos de mediciones de Calidad de Aire en New York.
Por distintos motivos, la tabla 1 presenta celdas con NA (Not Available), esto se debe a que no se ha podido medir un dato o que se ha perdido la medición.
En la tabla 2 se muestran los resultados obtenidos para los estadísticos descriptivos básicos correspondientes a los valores de la concentración de ozono, radiación solar, temperatura, velocidad media del viento.
Variables Media SD CV (%)
Asimetría
Curtosis 0% 25% 50% 75% 100%
Ozone 42,1293 32,987978,301
6 1,2099 1,1122 1,00 18,00 31,50 63,25168,0
0
Solar. R185,931
5 90,058448,436
3 -0,4193 -1,0040 7,00115,7
5205,0
0258,7
5334,0
0
Temp 77,8823 9,465212,153
2 -0,3705 -0,462956,0
0 72,00 79,00 85,00 97,00
Wind 9,9575 3,523035,380
4 0,3410 0,0289 1,70 7,40 9,70 11,50 20,70Tabla 2. Análisis Descriptivo
Las medidas básicas recomendadas son la media, rango intercuartílico y la desviación típica. Se calculan desde EstadísticosResúmenes Resúmenes numéricos…, seleccionando para las variables (Imagen 2).
Para el cálculo de la curtosis y asimetría se cargan los paquetes abind y e1071 respectivamente, en la ventana de instrucciones del paquete Rcmdr se ingresaron los siguientes comandos.
Página 7
Imagen 2
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Curtosis: kurtosis(airquality$Ozone, na.rm=TRUE)
Kurtosis (airquality$Solar.R, na.rm=TRUE)
Kurtosis (airquality$Temp)
kurtosis(airquality$Wind)
Asimetría: skewness(airquality$Ozone, na.rm=TRUE)
skewness(airquality$Solar.R, na.rm=TRUE)
skewness(airquality$Temp)
skewness(airquality$Wind)
Se puede observar en la tabla 2 que las variables Ozone y Solar.R presentan la mayor dispersión ya que cuentan con los más elevados valores de coeficientes de variación cv, seguidos por Wind y Temp.
En cuanto a la forma de distribución, el valor obtenido para el coeficiente de curtosis las variables Ozone y Wind presentan valores positivos, la distribución es Leptocúrtica (elevado grado de concentración alrededor de los valores centrales de la variable; K>0), en cambio las variables Solar.R y Temp presentan valores negativos, la distribución es platicúrtica (reducido grado de concentración alrededor de los valores centrales de la variable; K<0).
El coeficiente de asimetría se refiere a si la curva es simetrica o no que forman los valores de la serie presenta la misma forma a izquierda y derecha de un valor central (media aritmética). Se puede observar en la tabla 2 que el coeficiente de simetría de la Solar.R y Temp nos indica una distribución de valores asimétrica negativa, la variable Solar. R tiene una cola asimétrica hacia los valores positivos, mientras que Temp se encuentra levemente sesgada hacia la derecha (Imagen 3), en cambio el Ozone y Wind son asimétricas positivas; en las gráficas observamos que la variable Ozone se encuentra sesgada hacia la izquierda y el Wind levemente hacia la izquierda (Imagen 4).
Página 8
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Página 9
Imagen 3. Gráficas de Densidades de Soalar.R y Temp.
Imagen 4. Gráficas de Densidades de Ozone y Wind.
Imagen 5
Imagen 6. Diagrama de Caja y Bigote de las variables Ozone y Wind.
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Con los cuartiles se puede calcular el rango intercuartilico que representa una medida de variación, diferencia entre el tercer cuartil (percentil 75) y el primer cuartil (percentil 25), siendo la más dispersa Solar. R seguida del Ozone, Temp y Wind. Esto se ve reflejado en los gráficos de cajas de bigote, que se calculan desde Graficas Diagrama de cajas… seleccionando las variables a graficar.
Página 10
Imagen 7. Diagrama de Caja y Bigote de las variables Temp y Solar.R.
Imagen 8
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Los gráficos de cajas y bigotes nos proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución es asimétrica (Solar. R, Ozone); además son útiles para ver la presencia de los valores atípicos que son los datos que están apartados del cuerpo principal, pueden representar los efectos de causas extrañas, como algún error de medición o registro. Estos valores atípicos se encuentran presentes en las variables Ozone y Wind (Imagen 6).
Correlación entre las variables
Para determinar el grado de correlación entre las distintas variables se procede a realizar una matriz de correlaciones y así ver cuales están más correlacionadas y determinar la variable dependiente y las independientes.
La matriz de correlaciones se calcula desde EstadísticosResúmenes Matriz de correlación… selección de variables (Imagen 8).
Página 11
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Ozone Solar. R Temp WindOzone 1,0000 0,3483 0,6985 -0,6125Solar. R 0,3483 1,0000 0,2941 -0,1272Temp 0,6985 0,2941 1,0000 -0,4972Wind -0,6125 -0,1272 -0,4972 1,0000
Tabla 3
En la tabla 3 se observa las relaciones lineales entre las variables, siendo la de mayor valor la de Ozone-Temp ó Temp-Ozone (0,6985). Para este caso se toma como variable dependiente al Ozone.
Esta relación también se puede observar en la Imagen 9, donde existe mayor linealidad entre la variable Ozone y Temp, indicando que cualquiera podría llegar a ser variable dependiente.
Página 12
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Modelos de regresión
Se procede al ajuste de diseño de tres modelos de regresión lineal con y la posterior comparación de estos para poder seleccionar el que mejor se ajuste a los datos utilizando el criterio de ………… estudio en cuestión.
Esta no es una estrategia de construcción de un modelo de regresión – leer la teoría de regresión
Modelo 1: Regresión lineal simple de la variable dependiente con la temperatura.
Modelo 2: Regresión lineal simple de la variable dependiente con la radiación solar.
Modelo 3: Regresión lineal simple de la variable dependiente con la velocidad media del viento.
Modelo 4: Regresión lineal múltiple con las variables temperatura, radiación solar y velocidad media del viento.
Página 13
Imagen 9. Gráfico de la matriz de correlaciones entre las variables.
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Para realizar las gráficas XY (dispersión) donde cada punto trazado respeta un par de valores medidos de las variables independiente y dependiente. El valor de la variable independiente X se identifica respecto al eje horizontal, mientras que el valor de la variable dependiente Y se identifica respecto al eje vertical.
En el programan R.2.12.2 se efectúa lo siguiente GraficasGráfica XY… seleccionando como variable explicada al Ozone y variable explicativa la que corresponda según el modelo (Imagen 10)
Para calcular la recta de regresión entre dos variables se procede de la siguiente manera: Estadísticos Ajuste de ModelosRegresión lineal y se eligen la variable explicada y explicativa según corresponda (Imagen 11).
Página 14
Imagen 10
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Modelo 1: Ajuste de Regresión lineal simple Ozone-Temp.
Imagen 12. Modelo 1: Grafica XY de Ozone-Temp
Página 15
Imagen 11
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
En la gráfica de dispersión (Imagen12) se observa que la nube de puntos muestra una tendencia creciente en la relación Ozone-Temp y parece ser rectilínea.
Min 1Q Median 3Q Max-40,729 -17,409 -0,587 11,306 118,271
Tabla 4. Modelo 1. Análisis descriptivo de los Residuos
Estimate Std. Error t value Pr(> |t|)(intercept) -146,9955 18,2872 -8,038 9,37E-03Temp 2,4287 0,2331 10,418 < 2,2E-16
Tabla 5. Modelo 1. Prueba de significación de la constante.
En la tabla 5 se observa la estimación de los coeficientes incluye(por columnas) el valor de esos coeficientes (Estimate), la desviación típica de la estimación(Std. Error), el valor de la t de Student asociada (t value) y la probabilidad de que la verdadera t de Student tome ese valor(Pr(> |t|)).
R^2 R^2 ajustada
Error típico de estimación
p-value residuals
Modelo 1 0,4877 0,4832 23,71 < 2,2E-26Tabla 6. Resumen del Modelo 1
La tabla 6 muestra los resultados del ajuste del modelo de regresión. El valor de R^2, corresponde al coeficiente de determinación, mide la bondad del ajuste de la recta de regresión a la nube de puntos, el rango de valores es de 0 a 1. Valores pequeños de R^2 indica que el modelo no se ajusta bien a los datos. R^2 indica que el 48,32% de la variabilidad de Temp es explicada por la relación lineal con el Ozono. El valor R=0,698 representa el valor absoluto del coeficiente de correlación, es decir es un valor entre 0 y 1. Valores próximos a 1 indica una fuerte relación entre las variables.
El p-valor indica que los coeficientes del modelo son estadísticamente significativos.
Página 16
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Modelo 2: Ajuste de Regresión lineal simple Ozone-Solar.R.
Imagen 13. Modelo 2: Grafica XY de Ozone-Solar. R
En la gráfica de dispersión (Imagen13) se observa que la nube de puntos muestra una tendencia creciente en la relación Ozone-Solar.R.
Min 1Q Median 3Q Max-48,292 -21,361 -8,864 16,353 119,136
Tabla 7. Modelo 2. Análisis descriptivo de Residuos.
Estimate Std. Error t value Pr(> |t|)(intercept) 18,5987 6,7479 2,756 6,86E-03Solar. R 0,1272 0,0328 3,88 0,00018
Tabla 8. Modelo 2. Prueba de significación de la constante
R^2 R^2 ajustada
Error tipico de estimacion
p-value residuals
Modelo 1 0,1213 0,1133 31,33 0,00018Tabla 9. Resumen del modelo 2.
Página 17
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
En la tabla 9 se observa que le valor de R^2 es muy bajo, siendo mejor el modelo 1, es decir solo el 12,13% de la variabilidad de Solar. R es explicada por la relación lineal con el ozono. El valor R= 0,3482 indica poca relación entre las variables.
Modelo 3: Ajuste de Regresión lineal simple Ozone-Wind.
Imagen 14. Modelo 3: Grafica XY de Ozone-Wind.
En la gráfica de dispersión (Imagen14) se observa que la nube de puntos muestra una tendencia decreciente en la relación Ozone-Wind y parece ser rectilínea.
Min 1Q Median 3Q Max
-51,572 -18,854 -4,868 15,234 90,00
0 Tabla 10. Modelo 3. Análisis descriptivo de Residuos.
Estimate Std. Error t value Pr(> |t|)(intercept) 96,8729 7,2387 13,38 < 2E-16Wind -5,5509 0,6904 -8,04 9,27E-13
Tabla 11. Modelo 3. Prueba de significación de la constante
Página 18
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
R^2 R^2 ajustada
Error tipico de estimacion
p-value residuals
Modelo 1 0,3619 0,3563 26,47 9,27E-13Tabla 12. Resumen del modelo 3.
En la tabla 12 se observa que le valor de R^2 es bajo, pero mucho más alto que en el modelo 2; sigue siendo mejor el modelo 1, el 36,19% de la variabilidad de la velocidad media del viento es explicada por la relación lineal con el ozono. El valor R= 0,6016 indica poca relación entre las variables.
Modelo 4: Regresión lineal múltiple con las variables temperatura, radiación solar y velocidad media del viento.
Imagen 15. Modelo 4: Grafica XY de Ozone-(Solar.R, Temp, Wind)
Min 1Q Median 3Q Max
-40,485 -14,219 -3,551 1,097 95,61
9 Tabla 13. Modelo 4. Análisis descriptivo de Residuos.
Página 19
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Estimate Std. Error t value Pr(> |t|)
(intercept) -64,3421 23,0547 -2,791 0,0
062
Solar.R 0,0598 0,0232 2,58 0,0
12
Temp 1,6521 0,2535 6,516 2,4
2E-9
Wind -3,3336 0,6544 -5,094 1,5
2E-6 Tabla 14. Modelo 4. Prueba de significación de la constante
R^2 R^2 ajustada
Error tipico de estimacion
p-value residuals
Modelo 4 0,6058 0,5948 21,18 < 2,2E-16Tabla 15. Resumen del modelo 4.
En la tabla 15 se observa que el valor de R^2 es mucho más alto en comparación con los demás modelos, esto nos indica que el agregado de dos variables mejora el modelo. El valor R= 0,7783 indica que existe relación entre las variables.
De todos los modelos propuestos se escoge el Modelo 4, ya que en la tabla 14 se observa que además de incluir a todas las variables, cada una de estas presenta un p-valor menor a 0,05, por lo tanto contribuyen de forma significativa a explicar lo que ocurre con la variable dependiente.
La ecuación de Modelo 4 es: primero se escribe el valor de la constante ……
Comprobar si son necesarios introducir en el modelo términos de interacción entre las variables explicativas
Validación de Modelo elegidoLos supuestos de un modelo estadísticos se refieren a una serie de condiciones que deben darse para garantizar la validez del modelo.
1. Linealidad : La ecuación de regresión adopta una forma particular. La variable dependiente es la suma de un conjunto de elementos: el origen
Página 20
Ozone=0,598∗Solar . R+1,6521∗Temp−3,3336∗Wind−64,3421
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
de la recta, una combinación lineal de variables independientes y los residuos.
2. Independencia : Los residuos son independientes entre sí, es decir, los residuos constituyen una variable aleatoria (los residuos son las diferencias entre los valores observados y los pronosticados).
3. Homocedasticidad : Para cada valor de la variable independiente(o combinación de valores de las variables independientes), la varianza de los residuos es constante.
4. Normalidad : Para cada valor de la variable independiente(o combinación de valores de las variables independientes), los residuos se distribuyen normalmente con media cero.
5. No-Colinealidad : No existe relación lineal exacta entre ninguna de las variables independientes. El incumplimiento de este supuesto da origen a colinealidad o multicolinealidad. La colinealidad es un problema porque, en el caso de colinealidad perfecta no es posible estimar los coeficientes de la ecuación de regresión; y en el caso de colinealidad parcial, aumenta el tamaño de los residuos tipificados y esto produce coeficientes de regresión muy inestables.La independencia, homocedasticidad y normalidad, están estrechamente asociados al comportamiento de los residuos, por tanto, un análisis cuidadoso de los residuos puede informarnos sobre el cumplimiento de los mismos.
Análisis de los residuos
LinealidadPara comprobar la linealidad se procede a realizar el test de Reset de no linealidad siguiendo estos pasos: Modelos Diagnósticos numéricos Test RESET de no linealidad (Imagen 16)
Página 21Imagen 16
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
RESET test
data: Ozone ~ Solar.R + Temp + Wind
RESET = 8.2056, df1 = 6, df2 = 101, p-value = 3.076e-07
Como el p-valor es menor a 0.05, esto confirma la no linealidad del modelo.
También puede obtenerse información sobre la linealidad a partir de una inspección del diagrama de dispersión (Imagen 9).
Cual es entonces el modelo definitivo?
IndependenciaUno de los supuestos básicos de los modelos de regresión lineal es el de independencia entre los residuos. El estadístico de Durbin-Watson proporciona información sobre el grado de independencia existente entre ellos.
El estadístico oscila entre cero y cuatro y toma el valor 2 cuando los residuos son independientes. Los valores menores que 2 indican autocorrelación positiva, y los mayores que 2 autocorrelación negativa. Podemos asumir independencia entre los residuos cuando toma valores entre 1,5 y 2,5.
Para el cálculo de Durbin-Watson se procede de la siguiente manera:
ModelosDiagnósticos Numéricos Test de Durbin-Watson para autocorrelación… (Imagen 17).
Página 22
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
R^2 R^2 ajustada
Error tipico de estimacion
p-value residuals
Durbin-Watson
Modelo 4 0,6058 0,5948 21,18 < 2,2E-16 1.9355Tabla 16. Resumen del modelo 4.
Puesto que el valor DW= 1,9355 se encuentra entre 1,5 y 2,5, podemos asumir que los residuos son independientes.
Homocedasticidad Se dispone de una serie de gráficos que permite obtener información sobre el grado de cumplimiento de los supuestos de homocedasticidad.
Para obtener los gráficos se procede de la siguiente manera Modelos GráficasGráficas básicas de diagnóstico (Imagen 18).
Página 23
Imagen 17
Imagen 18
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Página 24
Imagen 19. Gráficas Básicas de Diagnóstico del Modelo 4.
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
En el gráfico de dispersión (Residuos vs valores estimados) que se muestra la Imagen 19, podemos ver que la nube de puntos no sigue ninguna pauta de asociación clara ni lineal y se tendría duda acerca de la homocedastidad del modelo.
El p-valor del test de Breusch-Pagan (Imagen 20) es menor a 0.05, lo que confirma la Heterocedasticidad:
Breusch-Pagan test
data: Ozone ~ Solar.R + Temp + Wind
BP = 5.3754, df = 1, p-value = 0.02042
NormalidadEn cuanto a la gráfica Normal Q-Q de residuos estandarizados vs cuartiles teóricos (Imagen 21), se observa que existen valores anómalos en los extremos de la gráfica, la mayoría de los valores estandarizados se encuentran entre -2 y +2, por lo que se considera que cumple con la normalidad el modelo propuesto.
Página 25
Imagen 20
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
No colinealidadPara el estudio de la colinealidad se sigue los siguientes pasos: Modelos Diagnósticos numéricos Factores de inflación de varianza (Imagen 22).
Página 26
Imagen 21
Imagen 22
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
En la ventana de resultados se obtiene:
> vif(RegModel.1)
Solar.R Temp Wind
1.095253 1.431367 1.329070
Si alguno de los valores supera el valor 4 implica que hay colinealidad. En este modelo todos los valores no superan dicha cantidad y por lo tanto, no hay colinealidad.
No me queda claro cual es el modelo final y en base a que criterio se selecciona el mismo.
Una vez seleccionado “el modelo” según alguno de los criterios hay que proceder a realizar la validación y el análisis de los residuos.
Página 27
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Conclusión
El análisis de regresión lineal múltiple es un método estadístico empleado en muchas áreas del conocimiento. En este estudio, dicho análisis se aplico a los datos de concentración de ozono, velocidad media del viento, temperatura diaria máxima y radiación solar, monitoreadas en la ciudad de New York. El periodo que abarco el estudio fue de mayo a septiembre de 1973. El objetivo fue evaluar si existe correlación entre la variable dependiente (concentración de ozono) y las independientes (velocidad media del viento, temperatura diaria máxima y radiación solar). Se empleo un análisis de regresión lineal simple y múltiple, eligiendo el modelo 4 que presenta un 60% de asociación lineal (R^2).
Con este modelo se confirman los supuestos teóricos pero no cumple con todas las condiciones necesarias para garantizar la validez del modelo.
Con el análisis también se observa que la variable con mayor efecto sobre la concentración de ozono es la temperatura con un nivel de significancia de 2,42E-9, seguido de la velocidad del viento con 1,52E-6 y por último la radiación solar con 0,012 de nivel de significancia.
Respecto al comportamiento del modelo:
Presenta mayor correlación entre las variables en comparación con los modelos de regresión lineal simple, confirmando que la inclusión de las tres variables en un mismo modelo aumenta el grado de asociación lineal (R^2).
No presenta linealidad. Los residuos se distribuyen normalmente pero existen observaciones
atípicas. Los residuos no son homocedásticos (la varianza de los residuos no es
constante). Los residuos son independientes. No existe colinealidad.
Evidentemente se podría cambiar el modelo propuesto y ensayar un modelo no lineal y así elaborar una ecuación más precisa para dicho estudio.
Página 28
Universidad Nacional de Misiones Facultad de Ciencias Exactas Químicas y Naturales
Bibliografía
Piris da Motta R.; 2011. Apunte de clase “Análisis de Varianza”.
http://www.wmcac.org/airquality/factors.html
http://prezi.com/xf9tunzpqn1d/regresion-lineal-simple-v20/
Walpole R., Myers R., Myers S.; 1999. Probabilidad y Estadística para
Ingenieros. 6ta. Ed. Prentice-Hall.
http://www.scielo.org.mx/scielo.php?
pid=S018629792010000100005&script=sci_arttext
http://ocw.bib.upct.es/pluginfile.php/5253/mod_resource/content/1/
Regresion_lineal_con_R_Commander.pdf
http://uce.uniovi.es/CURSOICE/Informese4.html
Página 29