Analisis estadistico de calidad de aire

download Analisis estadistico de calidad de aire

of 28

description

Analisis estadistico de la calidad de aire

Transcript of Analisis estadistico de calidad de aire

Universidad Nacional de Misiones Facultad de Ciencias Exactas Qumicas y Naturales

Trabajo Final

Estudio Estadstico sobre mediciones de calidad diaria de aire en la ciudad de New York ,1973.

Ctedra: Estadstica AplicadaProfesor: Mgter. Piris da Motta, MarcialAlumnos Brtez, CelesteIQ01396 Salvia, ArianaIQ01368

Ao: 2015

Universidad Nacional de MisionesFacultad de Ciencias Exactas Qumicas y Naturales

ndice

Introduccin3Descripcin4Objetivo4Metodologa41. Anlisis descriptivo52. Correlacin entre variables133. Modelo de Regresin143.1 Ajuste de diseo153.2 Introduccin de trminos de interaccin entre las variables explicativas en el modelo183.3 Comparacin de Modelos214. Validacin de Modelo elegido234.1 Anlisis de los residuos4.1.1 Linealidad234.1.2 Independencia244.1.3 Homocedasticidad254.1.4 Normalidad274.1.5 No-Colinealidad28Conclusin29Bibliografa30

Introduccin

Cuando el ozono se sita en la capa ms baja de la atmsfera y supera ciertos niveles, deja de ser el gas protector de la vida en el planeta para convertirse en un peligroso contaminante. El ozono se produce de forma natural, dando lugar a pequeas concentraciones inocuas en el aire, a partir de emisiones procedentes de la vegetacin, procesos de fermentacin o volcanes, y se encuentra tanto en la tropsfera- la regin de la atmsfera ms prxima a la superficie terrestre- como en la estratsfera, situada en las capas altas de la atmsfera, en donde cumple su conocido papel protector contra los letales rayos ultravioleta. Sin embargo, cuando el ozono troposfrico aumenta en mayores cantidades, provocado por medios artificiales, se convierte en un contaminante txico. A diferencia de otros contaminantes que son emitidos directamente por sus fuentes, el ozono surge a partir de otros productos, principalmente xidos de nitrgeno (NOx) y contaminantes orgnicos voltiles (COV's).Adems de la presencia de NOx y COV's, hay otros factores que contribuyen a la formacin de ozono a nivel del suelo, denominados factores meteorolgicos.Se requiere altos niveles de radiacin solar para iniciar las reacciones fotoqumicas que forman ozono. Las radiaciones estimulan los COV's y NOx a recombinarse para formar el ozono.Temperaturas superiores a 80 F (26,7C) tambin influyen en la formacin de ozono. Las temperaturas ms altas aumentan la qumica de la formacin de ozono y las emisiones de evaporacin de COV's. Cuanto mayor sea la temperatura, se producirn altos niveles de ozono.Bajas velocidades del viento (menores a 10 MPH) son necesarias para la acumulacin de los precursores de la formacin de ozono (COV's y NOx) y la posterior formacin de ozono. Velocidades del viento ms altas tienden a diluir o dispersar las emisiones. Sin embargo, todava pueden transportar ozono desde otros lugares.

DescripcinEl estudio citado muestra las variaciones de: Concentracin de Ozono en partes por billn de 13:00 a 15:00 horas en Roosevelt Island. Radiacin solar en Langleys en la banda de frecuencias 4000-7700 Angstroms de 08:00-12:00 horas en Central Park. Velocidad media del viento en millas por hora de 07:00 a 10:00 horas en el aeropuerto de La Guardia. Temperatura diaria mxima en grados Fahrenheit en el aeropuerto La Guardia. Meses del ao (05-09).Estos datos fueron tomados en la ciudad de Nueva York por el Departamento de Estado de Nueva York de la Naturaleza (datos de la capa de ozono) y del Servicio Meteorolgico Nacional, a partir del 1 de Mayo al 30 de Septiembre de1973.Objetivo Evaluar si existe correlacin entre la concentracin de ozono y los factores temperatura diaria mxima, radiacin solar, velocidad media del viento.MetodologaSe efectuar un anlisis descriptivo de la concentracin de ozono (Ozone), temperatura diaria mxima (Temp), radiacin solar (Solar.R) y velocidad media del viento (Wind) que sern las variables en estudio.La metodologa a aplicar consiste en realizar una Regresin Lineal Mltiple para comprobar si existe asociacin entre la concentracin de ozono (variable dependiente) y las variables explicativas: temperatura mxima diaria, radiacin solar y velocidad media del viento. Si existiese dicha asociacin o relacin se proceder a la bsqueda del modelo que mejor se ajuste al estudio y la validacin del mismo. Para el procesamiento de la informacin y la evaluacin de la relacin entre las variables se utilizar el Software R.2.12.2.Resultados 1. Anlisis descriptivoEn la tabla 1 se muestran los datos que fueron extrados del conjunto de datos de paquetes New York Air Quality Measurements del Programa R.2.12.2. La misma cuenta con 153 mediciones de concentracin de ozono, velocidad media del viento, radiacin solar, temperatura, tomadas durante 5 meses en la ciudad de New York.Para introducir los datos en el programa, se carga en la ventana de R Console>library (Rcmdr), y en la nueva ventana abierta de Rcmdr mediante la seleccin de las opciones del men Datos Conjunto de datos en paquetesLeer datos desde paquete adjunto, en el cuadro de dialogo se elije el paquete datasets y dentro de ste el juego de datos airquality. (Imagen1).Imagen 1ObsOzoneSolar.RWindTempMonthDay

1411907.46751

23611887252

31214912.67453

41831311.56254

5NANA14.35655

628NA14.96656

7232998.66557

8199913.85958

981920.16159

10NA1948.669510

117NA6.974511

12162569.769512

13112909.266513

141427410.968514

15186513.258515

161433411.564516

17343071266517

1867818.457518

193032211.568519

2011449.762520

21189.759521

221132016.673522

234259.761523

2432921261524

25NA6616.657525

26NA26614.958526

27NANA857527

2823131267528

294525214.981529

301152235.779530

31372797.476531

32NA2868.67861

33NA2879.77462

34NA24216.16763

35NA1869.28464

36NA2208.68565

37NA26414.37966

38291279.78267

39NA2736.98768

407129113.89069

413932311.587610

42NA25910.993611

43NA2509.292612

4423148882613

45NA33213.880614

46NA32211.579615

472119114.977616

483728420.772617

4920379.265618

501212011.573619

511313710.376620

52NA1506.377621

53NA591.776622

54NA914.676623

55NA2506.376624

56NA135875625

57NA127878626

58NA4710.373627

59NA9811.580628

60NA3114.977629

61NA138883630

621352694.18471

63492489.28572

64322369.28173

65NA10110.98474

66641754.68375

674031410.98376

68772765.18877

69972676.39278

70972725.79279

71851757.489710

72NA1398.682711

731026414.373712

742717514.981713

75NA29114.991714

7674814.380715

77482606.981716

783527410.382717

79612856.384718

80791875.187719

816322011.585720

821676.974721

83NA2589.781722

84NA29511.582723

85802948.686724

86108223885725

8720818.682726

8852821286727

89822137.488728

90502757.486729

91642537.483730

92592549.281731

9339836.98181

9492413.88182

9516777.48283

9678NA6.98684

9735NA7.48585

9866NA4.68786

9912225548987

1008922910.39088

10111020789089

102NA2228.692810

103NA13711.586811

1044419211.586812

1052827311.582813

106651579.780814

107NA6411.579815

108227110.377816

10959516.379817

110231157.476818

1113124410.978819

1124419010.378820

1132125915.577821

11493614.372822

115NA25512.675823

116452129.779824

1171682383.481825

11873215886826

119NA1535.788827

120762039.797828

1211182252.394829

122842376.396830

123851886.394831

124961676.99191

125781975.19292

126731832.89393

127911894.69394

12847957.48795

129329215.58496

1302025210.98097

1312322010.37898

1322123010.97599

133242599.773910

1344423614.981911

1352125915.576912

136282386.377913

13792410.971914

1381311211.571915

139462376.978916

1401822413.867917

141132710.376918

1422423810.368919

14316201882920

1441323812.664921

14523149.271922

1463613910.381923

14774910.369924

148142016.663925

149301936.970926

150NA14513.277927

1511419114.375928

15218131876929

1532022311.568930

Tabla1.Datos de mediciones de Calidad de Aire en New York.Por distintos motivos, la tabla 1 presenta celdas con NA (NotAvailable), esto se debe a que no se ha podido medir un dato o que se ha perdido la medicin.En la tabla 2 se muestran los resultados obtenidos para los estadsticos descriptivos bsicos correspondientes a los valores de la concentracin de ozono, radiacin solar, temperatura, velocidad media del viento.VariablesMediaSDCV (%)IQRAsimetraCurtosis0%25%50%75%100%

Ozone42,129332,987978,301645,251,20991,11221,0018,0031,5063,25168,00

Solar. R185,931590,058448,4363143-0,4193-1,00407,00115,75205,00258,75334,00

Temp77,88239,465212,153213-0,3705-0,462956,0072,0079,0085,0097,00

Wind9,95753,523035,38044,10,34100,02891,707,409,7011,5020,70

Tabla 2. Anlisis DescriptivoLas medidas bsicas recomendadas son la media, rango intercuartlico y la desviacin tpica. Se calculan desde EstadsticosResmenesResmenes numricos, seleccionando para las variables (Imagen 2).

Imagen 2

Para el clculo de la curtosis y asimetra se cargan los paquetes abind y e1071 respectivamente, en la ventana de instrucciones del paquete Rcmdr se ingresaron los siguientes comandos. Curtosis:kurtosis(airquality$Ozone, na.rm=TRUE)Kurtosis (airquality$Solar.R, na.rm=TRUE)Kurtosis (airquality$Temp)kurtosis(airquality$Wind) Asimetra: skewness(airquality$Ozone, na.rm=TRUE)skewness(airquality$Solar.R, na.rm=TRUE)skewness(airquality$Temp)skewness(airquality$Wind)Se puede observar en la tabla 2 que las variables Ozone y Solar.R presentan la mayor dispersin ya que cuentan con los ms elevados valores de coeficientes de variacin CV, seguidos por Wind y Temp.En cuanto a la forma de distribucin, el valor obtenido para el coeficiente de curtosis las variables Ozone y Wind presentan valores positivos, la distribucin es Leptocrtica (elevado grado de concentracin alrededor de los valores centrales de la variable; K>0), en cambio las variables Solar.R y Temp presentan valores negativos, la distribucin es platicrtica (reducido grado de concentracin alrededor de los valores centrales de la variable; K |t|)

(intercept)-64,342123,0547-2,791 0,0062**

Solar.R0,05980,02322,58 0,012*

Temp1,65210,25356,516 2,42E-9***

Wind-3,33360,6544-5,094 1,52E-6***

Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Tabla 5. Prueba de significacin de la constante

R^2R^2 ajustadaError tpico de estimacinp-value residuals

Modelo 0,60580,594821,18< 2,2E-16

Tabla 6.Resumen del modelo.En la tabla 5 se observa que cada variable presenta un p-valor menor a 0,05, por lo tanto contribuyen de forma significativa a explicar lo que ocurre con la variable dependiente.La tabla 6 muestra los resultados del ajuste del modelo de regresin. El valor de R^2, corresponde al coeficiente de determinacin, mide la bondad del ajuste de la recta de regresin a la nube de puntos, el rango de valores es de 0 a 1. Valores pequeos de R^2 indica que el modelo no se ajusta bien a los datos. R^2 indica que el 60,58% de la variabilidad de Temp, Wind y Solar.R es explicada por la relacin lineal con el Ozono. El valor R=0,7783 representa el valor absoluto del coeficiente de correlacin, es decir es un valor entre 0 y 1. Valores prximos a 1 indica una fuerte relacin entre las variables. 3.1 Ajuste de diseoSe procede al ajuste de diseo del modelo de regresin lineal utilizando el criterio de stepwise o paso a paso para el estudio en cuestin.Esta tcnica permite, de forma rpida y automtica, refinar un modelo con distintos procedimientos. La idea es probar a quitar y aadir variables a un modelo ya existente, evaluar los efectos de dichos cambios y elegir qu variables mantener y cules omitir.Para la evaluacin de la bondad del ajuste se utiliza el mtodo BIC (criterio de informacin bayesiano) y la tcnica para quitar y aadir variables adelante/atrs el cual arranca con el modelo sin variables explicativas y va aadiendo una a una las variables hasta que se queda con el mejor ajuste.Los pasos a seguir son (Imagen 11)

Imagen 11

Direction: forward/backwardCriterion: BIC

Start: AIC=814.81Ozone ~ 1

DfSum of Sq RSS AIC+ Temp 1 59434 62367738.74+ Wind 1 45694 76108 761.83+ Solar.R 1 14780 107022801.37 121802 811.67Step: AIC=741.93Ozone ~ TempDfSum of Sq RSS AIC+ Wind 1 11378 50989 720.08+ Solar.R 1 2723 59644 738.27 64110 741.93- Temp 1 61033 125143 814.81

Step: AIC=726.68Ozone ~ Temp + Wind

DfSum of SqRSS AIC+ Solar.R 1 2986.2 48003717.7953973 726.68- Wind 1 10136.9 64110741.93- Temp 1 25886.0 79859 767.41

Step: AIC=692.55Ozone ~ Temp + Wind + Solar.R

Df Sum of Sq RSS AIC 48003 692.55- Solar.R 1 2986.2 50989 694.54- Wind 1 11641.6 59644 711.94- Temp 1 19049.9 67053 724.94

Call:lm(formula = Ozone ~ Temp + Wind + Solar.R, data = airquality)

IntercepTempWindSolar.R

Coeficientes -64.34208 1.65209 -3.33359 0.05982

Tabla7 . Tabla de Coeficientes

El criterio AIC tiene en cuenta los cambios en la bondad de ajuste y las diferencias en el nmero de parmetros entre dos modelos. El mejor modelo es aquel que presenta el menor valor de AIC.El BIC es calculado para diferentes modelos como una funcin de la bondad de ajuste del log LiK[footnoteRef:2], el nmero de parmetros ajustados (K) y el nmero total de datos (N). El modelo con el ms bajo valor de BIC es considerado el mejor en explicar los datos con el mnimo nmero de parmetros. [2: Log-likelihood (log Lik), que es el logaritmo de mxima verosimilitud, y sustraen un trminoproporcional al nmero de parmetros (K) en el modelo.]

Mediante este procedimiento llegamos a la conclusin que un modelo que incluye a todas las variables es el que mejor describe al estudio.

La ecuacin que describe el modelo es:

3.1 3.1 Introduccin de trminos de interaccin entre las variables explicativas en el modelo.Para la introduccin de las interacciones entre las variables explicativas se siguen los siguientes pasos (Imagen 12)

Imagen 12Call:lm(formula = Ozone ~ Solar.R + Temp + Wind + (Solar.R:Temp) + (Solar.R:Wind) + (Temp:Wind), data = airquality)

Min1QMedian3QMax

-38.685-11.727 -2.169 7.360 91.244

Tabla 8. Anlisis descriptivo de Residuos.EstimateStd. Errort value Pr(> |t|)

(intercept)-1,408e+026,419e+01-2,193 0,03056*

Solar.R-2,260e-012,107e-01-1,073 0,28591

Temp2,322e+008,330e-012,788 0,00631**

Wind1,055e+014,290e+002,460 0,01555*

Solar.R:Temp5,061e-032,445e-032,070 0,04089*

Solar.R:Wind-7,231e-036,688e-03-1,081 0,28212

Temp:Wind-1,613e-015,896e-02-2,735 0,00733**

Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Tabla 9. Prueba de significacin de la constante

R^2R^2 ajustadaError tipico de estimacionp-valueresiduals

Modelo 0,68630,668237,93< 2,2E-16

Tabla 10.Resumen del modelo.

Se procede al ajuste de diseo del modelo de regresin lineal utilizando el criterio de stepwise o paso a paso para el estudio en cuestin.Direction: forward/backwardCriterion: BIC

Start: AIC=814.81Ozone ~ 1DfSum of Sq RSS AIC+ Temp 1 59434 62367 738.74+ Wind 1 45694 76108 761.83+ Solar.R 1 14780 107022801.37121802 811.67

Step: AIC=741.93Ozone ~ TempDfSum of Sq RSS AIC+ Wind 1 11378 50989 720.08+ Solar.R 1 2723 59644 738.2764110 741.93- Temp 1 61033 125143 814.81

Step: AIC=726.68Ozone ~ Temp + Wind

Df Sum of Sq RSS AIC+ Temp:Wind1 6594.8 44394 708.72+ Solar.R1 2986.2 48003 717.7953973 726.68- Wind 1 10136.9 64110 741.93- Temp 1 25886.0 79859 767.41

Step: AIC=714.81Ozone ~ Temp + Wind + Temp:Wind

DfSum of SqRSS AIC+ Solar.R1 3618.4 40776 703.5746787 714.81- Temp:Wind1 7185.653973 726.68

Step: AIC=679.15Ozone ~ Temp + Wind + Solar.R + Temp:Wind

DfSum of Sq RSS AIC+ Solar.R:Temp1 2141.1 38635 677.8740776 679.15+ Solar.R:Wind1 995.7 39780 681.11- Solar.R1 3618.4 44394 683.88- Temp:Wind1 7227.0 48003 692.55

Step: AIC=677.87Ozone ~ Temp + Wind + Solar.R + Temp:Wind + Temp:Solar.R

DfSum of SqRSS AIC38635 677.87- Temp:Solar.R1 2141.1 40776 679.15+ Solar.R:Wind1 429.4 38205 681.34- Temp:Wind1 4339.8 42975 684.98

Call:lm(formula = Ozone ~ Temp + Wind + Solar.R + Temp:Wind + Temp:Solar.R, data = airquality)

IntercepTempWindSolar.RTemp:WindTemp:Solar

Coeficientes -1,37e+022,4511,115e+01-3,53e-01-1,86e-015,72e-03

Tabla 11. Tabla de Coeficientes

El mejor modelo con interaccin entre las variables explicativas incluye adems de las variables independientes las interacciones entre Temp-Wind y Temp-Solar.R.Min1QMedian3QMax

-38.398-10.889 -2.445 7.132 93.485

Tabla 12. Anlisis descriptivo de Residuos.

EstimateStd. Errort value Pr(> |t|)

(intercept)-1,368e+026,414e+01-2,1330,035252*

Solar.R-3,531e-011,750e-01-2,0180,046184*

Temp2,451e+008,250e-012,9710,00368**

Wind1,115e+014,259e+002,6170,01018*

Solar.R:Temp5,717e-032,370e-032,4120,01759*

Temp:Wind-1,863e-015,425e-02-3,4340,00085***

Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Tabla 13. Prueba de significacin de la constante

R^2R^2 ajustadaError tipico de estimacionp-valueresiduals

Modelo 0,68280,667745,21< 2,2E-16

Tabla 14.Resumen del modelo.

La ecuacin que describe el modelo es:

3.1 Comparacin de ModelosAl disponer de dos modelos posibles Modelo1 y Modelo2, para explicar la concentracin de ozono, se plantea cul ajusta mejor los datos mediante un test (ANOVA) que contrasta si ambos modelos se comportan de forma similar o bien difieren significativamente.Realizando un anlisis de varianza (ANOVA) entre los modelo con interaccin y sin interaccin (Imagen 13).

Imagen 13

Modelos a compararModelo 1: Modelo 2:

Model 1: Ozone ~ Solar.R + Temp + WindModel 2: Ozone ~ Solar.R + Temp + Wind + Solar.R:Temp + Temp:Wind

ModelosRes.DfRSSDfSum of SqF Pr(> F)

110748003

21053863529368,112,731,122e-05***

Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Tabla 15. Tabla de Anlisis de Varianza

Evaluando la tabla 15 se observa que el modelo 2 que incluye a las interacciones Solar.R-Temp y Temp-Wind es estadsticamente significativo para explicar el fenmeno. Se acepta que y son distintos de cero, y el mejor modelo que explica el fenmeno es el 2.La ecuacin lineal del modelo elegido es:

4. Validacin de Modelo elegidoLos supuestos de un modelo estadsticos se refieren a una serie de condiciones que deben darse para garantizar la validez del modelo. 1. Linealidad: La ecuacin de regresin adopta una forma particular. La variable dependiente es la suma de un conjunto de elementos: el origen de la recta, una combinacin lineal de variables independientes y los residuos. El incumplimiento del supuesto suele denominarse error de especificacin. Algunos ejemplos son: omisin de variables independientes importantes, inclusin de variables independientes irrelevantes, no linealidad (la relacin entre las variables independientes y la dependiente no es lineal), parmetros cambiantes (los parmetros no permanecen constantes durante el tiempo que dura la recogida de datos), no aditividad (el efecto de alguna variable independiente es sensible a los niveles de alguna otra variable independiente), etc.2. Independencia: Los residuos son independientes entre s, es decir, los residuos constituyen una variable aleatoria (los residuos son las diferencias entre los valores observados y los pronosticados).3. Homocedasticidad: Para cada valor de la variable independiente(o combinacin de valores de las variables independientes), la varianza de los residuos es constante.4. Normalidad: Para cada valor de la variable independiente(o combinacin de valores de las variables independientes), los residuos se distribuyen normalmente con media cero.5. No-Colinealidad: No existe relacin lineal exacta entre ninguna de las variables independientes. El incumplimiento de este supuesto da origen a colinealidad o multicolinealidad. La colinealidad es un problema porque, en el caso de colinealidad perfecta no es posible estimar los coeficientes de la ecuacin de regresin; y en el caso de colinealidad parcial, aumenta el tamao de los residuos tipificados y esto produce coeficientes de regresin muy inestables.La independencia, homocedasticidad y normalidad, estn estrechamente asociados al comportamiento de los residuos, por tanto, un anlisis cuidadoso de los residuos puede informarnos sobre el cumplimiento de los mismos.

4.1 Anlisis de los residuos4.1.1 LinealidadPara comprobar la linealidad se procede a realizar el test de Reset de no linealidad siguiendo estos pasos: Modelos DiagnsticosnumricosTest RESET de no linealidad (Imagen 14)

Imagen 14

RESET testdata: Ozone ~ Solar.R + Temp + Wind + Solar.R:Temp + Temp:WindRESET = 5.824, df1 = 3, df2 = 102, p-value = 0.001029Como el p-valor es menor a 0.05, se concluye que el modelo lineal no ajusta adecuadamente.Tambin puede obtenerse informacin sobre la linealidad a partir de una inspeccin del diagrama de dispersin (Imagen 9).4.1.2 IndependenciaUno de los supuestos bsicos de los modelos de regresin lineal es el de independencia entre los residuos. El estadstico de Durbin-Watson proporciona informacin sobre el grado de independencia existente entre ellos. El estadstico oscila entre cero y cuatro y toma el valor 2 cuando los residuos son independientes. Los valores menores que 2 indican autocorrelacin positiva, y los mayores que 2 autocorrelacin negativa. Podemos asumir independencia entre los residuos cuando toma valores entre 1,5 y 2,5.Para el clculo de Durbin-Watson se procede de la siguiente manera:ModelosDiagnsticos Numricos Test de Durbin-Watson para autocorrelacin (Imagen 15).

Imagen 15Durbin-Watson testdata: Ozone ~ Solar.R + Temp + Wind + Solar.R:Temp + Temp:WindDW = 1.9438, p-value = 0.6657Puesto que el valor DW= 1,9438 se encuentra entre 1,5 y 2,5, podemos asumir que los residuos son independientes.4.1.3 HomocedasticidadSe dispone de una serie de grficos que permite obtener informacin sobre el grado de cumplimiento de los supuestos de homocedasticidad.

Imagen 16Para obtener los grficos se procede de la siguiente manera Modelos GrficasGrficas bsicas de diagnstico (Imagen 16).

Imagen 17. Grficas Bsicas de Diagnstico del Modelo 2.

En el grfico de dispersin (Residuos vs valores ajustados) que se muestra en la Imagen 17, los residuos deberan formar una nube de puntos sin estructura y con aproximadamente la misma variabilidad para todas las zonas alrededor del valor cero del residuo; esto no se cumple, podemos ver que la variabilidad crece a medida que los valores ajustados crecen y se tendra duda acerca de la homocedastidad del modelo.El p-valor del test de Breusch-Pagan (Imagen 18) es menor a 0.05, lo que confirma la Heterocedasticidad:Breusch-Pagan testdata: Ozone ~ Solar.R + Temp + Wind + Solar.R:Temp + Temp:WindBP = 23.4355, df = 1, p-value = 1.292e-06

Imagen 18

4.1.4 NormalidadEn cuanto a la grfica Normal Q-Q de residuos estandarizados vs cuartiles tericos (Imagen 19), se observa que existen valores anmalos en los extremos de la grfica, la mayora de los valores estandarizados se encuentran entre -2 y +2, por lo que se considera que cumple con la normalidad el modelo propuesto.

Imagen 19

4.1.5 No colinealidadPara el estudio de la colinealidad se sigue los siguientes pasos: Modelos Diagnsticos numricos Factores de inflacin de varianza (Imagen 20).

Imagen 20

En la ventana de resultados se obtiene:Solar.RTemp WindSolar.R:Temp Temp:Wind 76.06339 18.48100 68.63490 92.31022 53.36437Si alguno de los valores supera el valor 4 implica que hay colinealidad. En este modelo todos los valores superan dicha cantidad y por lo tanto, hay colinealidad.

Conclusin

El anlisis de regresin lineal mltiple es un mtodo estadstico empleado en muchas reas del conocimiento. En este estudio, dicho anlisis se aplic a los datos de concentracin de ozono, velocidad media del viento, temperatura diaria mxima y radiacin solar, monitoreadas en la ciudad de New York. El periodo que abarco el estudio fue de mayo a septiembre de 1973. El objetivo fue evaluar si existe correlacin entre la variable dependiente (concentracin de ozono) y las independientes (velocidad media del viento, temperatura diaria mxima y radiacin solar). El fenmeno se ajust a un modelo de Regresin lineal mltiple (Modelo 2) que incluye adems de todas las variables independientes la interaccin entre Solar.R-Temp y Temp-Wind.Con el anlisis tambin se observa que la variable con mayor efecto sobre la concentracin de ozono es la interaccin Temp-Wind con un nivel de significancia de 0,00085 seguido de la Temp con 0,00368 seguido del Wind, Solar.R-Temp y Solar.R.Este modelo no cumple con la mayor parte de los supuestos estadsticos para un modelo de regresin lineal, por ende no se puede garantizar la validez del mismo.Respecto al comportamiento del modelo: Presenta mayor correlacin entre las variables en comparacin con el Modelo 1, confirmando que la inclusin de las interacciones al modelo aumenta el grado de asociacin lineal (R^2). No presenta linealidad. Los residuos se distribuyen normalmente pero existen observaciones atpicas. Los residuos no son homocedsticos (la varianza de los residuos no es constante). Los residuos son independientes. Existe colinealidad.Evidentemente se podra cambiar el modelo propuesto y ensayar un modelo no lineal y as elaborar una ecuacin ms precisa para dicho estudio.

Bibliografa

Piris da Motta R.; 2011. Apunte de clase Anlisis de Varianza. http://www.wmcac.org/airquality/factors.html http://prezi.com/xf9tunzpqn1d/regresion-lineal-simple-v20/ Walpole R., Myers R., Myers S.; 1999. Probabilidad y Estadstica para Ingenieros. 6ta. Ed. Prentice-Hall. http://www.scielo.org.mx/scielo.php?pid=S018629792010000100005&script=sci_arttext http://ocw.bib.upct.es/pluginfile.php/5253/mod_resource/content/1/Regresion_lineal_con_R_Commander.pdf http://uce.uniovi.es/CURSOICE/Informese4.html

Pgina 30