UNA APLICACION REAL DEL MÉTODO DE …tesis.uson.mx/digital/tesis/docs/21312/Capitulo2.pdf ·...

13
19 UNA APLICACION REAL DEL MÉTODO DE REGRESIÓN LINEAL Planteamiento del problema Desde siempre los seres humanos han buscado adelantarse a cualquier eventualidad con la finalidad de minimizar los riesgos en cualquiera de sus actividades tanto recreativas como aquellas de carácter económico. Particularmente en agricultura, se ha vuelto indispensable contar con bases de datos meteorológicos fiables, ya que todas las actividades agrícolas dependen en gran parte del clima. En México, la Comisión nacional del agua (Conagua), a través del Servicio Meteorológico Nacional (SMN), es la fuente oficial de datos meteorológicos y climáticos. No obstante, la base de datos con que cuenta el SMN no es la óptima si lo que se busca es hacer inferencias para la agricultura, ya que las estaciones del SMN no se encuentran en zonas agrícolas, además de que existe un retraso considerable para la disposición de los datos (varía de región a región pero los retrasos van desde meses hasta varios años). Es por estas razones que en Sonora se impulsó con ayuda del gobierno y de los productores agrícolas el establecimiento de la red de estaciones agro meteorológicas conocida en la actualidad como la red AGROSON (AGROSON, 2004) La red AGROSON tuvo sus inicios en 1996 con la instalación de tres estaciones (Cd. Obregon (CIANO), Caborca (CIANO), Hermosillo (CECH)) y en la actualidad cuenta con 52 estaciones, distribuidas en las diferentes regiones agrícolas del Estado. Dichas estaciones registran rutinariamente en periodos de 10 minutos, nueve variables meteorológicas (Temperatura ambiente, temperatura máxima, temperatura mínima, humedad relativa, radiación solar, precipitación, humedad de la hoja, velocidad y dirección del viento).

Transcript of UNA APLICACION REAL DEL MÉTODO DE …tesis.uson.mx/digital/tesis/docs/21312/Capitulo2.pdf ·...

Page 1: UNA APLICACION REAL DEL MÉTODO DE …tesis.uson.mx/digital/tesis/docs/21312/Capitulo2.pdf · 2011-05-13 · existían observaciones con datos incompletos y se organizó la base de

19

UNA APLICACION REAL DEL MÉTODO DE REGRESIÓN LINEAL

Planteamiento del problema

Desde siempre los seres humanos han buscado adelantarse a cualquier

eventualidad con la finalidad de minimizar los riesgos en cualquiera de sus

actividades tanto recreativas como aquellas de carácter económico.

Particularmente en agricultura, se ha vuelto indispensable contar con bases de

datos meteorológicos fiables, ya que todas las actividades agrícolas dependen en

gran parte del clima.

En México, la Comisión nacional del agua (Conagua), a través del Servicio

Meteorológico Nacional (SMN), es la fuente oficial de datos meteorológicos y

climáticos. No obstante, la base de datos con que cuenta el SMN no es la óptima

si lo que se busca es hacer inferencias para la agricultura, ya que las estaciones

del SMN no se encuentran en zonas agrícolas, además de que existe un retraso

considerable para la disposición de los datos (varía de región a región pero los

retrasos van desde meses hasta varios años). Es por estas razones que en

Sonora se impulsó con ayuda del gobierno y de los productores agrícolas el

establecimiento de la red de estaciones agro meteorológicas conocida en la

actualidad como la red AGROSON (AGROSON, 2004)

La red AGROSON tuvo sus inicios en 1996 con la instalación de tres estaciones

(Cd. Obregon (CIANO), Caborca (CIANO), Hermosillo (CECH)) y en la actualidad

cuenta con 52 estaciones, distribuidas en las diferentes regiones agrícolas del

Estado. Dichas estaciones registran rutinariamente en periodos de 10 minutos,

nueve variables meteorológicas (Temperatura ambiente, temperatura máxima,

temperatura mínima, humedad relativa, radiación solar, precipitación, humedad de

la hoja, velocidad y dirección del viento).

Page 2: UNA APLICACION REAL DEL MÉTODO DE …tesis.uson.mx/digital/tesis/docs/21312/Capitulo2.pdf · 2011-05-13 · existían observaciones con datos incompletos y se organizó la base de

20

Con el establecimiento del Sistema de Alerta Fitosanitaria del Estado de Sonora

(SIAFESON, 2008) se volvió prioritario contar con un sistema de control de calidad

de los datos meteorológicos, por lo que entre los diversos objetivos del SIAFESON

se encuentra el de organizar y depurar las bases de datos climáticos y

meteorológicos existentes en Sonora. Como resultado de la depuración ya

mencionada se encontró que la base de datos de la red AGROSON contaba con

gran cantidad de “huecos” (Figura 7. Pag. 25) en sus registros de temperatura

ambiente, es decir pérdida de datos, como consecuencia de los altos costos de

mantenimiento y de errores en el manejo de la base de datos. Es por ello que el

personal del SIAFESON se ha dado a la tarea de “recuperar” los datos perdidos

en la medida de sus posibilidades.

Objetivo General

Estandarizar y rellenar las series de temperatura de las estaciones

agrometeorológicas del Valle del Mayo para su utilización en los diversos modelos

fitosanitarios aplicables al sur de Sonora.

Justificación

A lo largo del programa y de los estudios llevados por AGROSON, la información

obtenida y la certeza de los datos ofrecidos por AGROSON se ha visto seriamente

cuestionada, ya que se han encontrado datos fuera de rango, series incompletas,

demasiados huecos en la información, inhomogeneidad de la información

(corrimientos de cero) o columnas con los mismos datos. Los problemas antes

mencionados obedecen a diversas circunstancias que van desde el problema de

comunicación con las estaciones hasta un manejo inadecuado de la información.

Los modelos fitosanitarios requieren de series de tiempo fiables de las diversas

variables meteorológicas. Una serie de tiempo o serie temporal es una colección

de observaciones tomadas a lo largo del tiempo cuyo objetivo principal es

describir, explicar, predecir y controlar algún proceso. Las observaciones están

Page 3: UNA APLICACION REAL DEL MÉTODO DE …tesis.uson.mx/digital/tesis/docs/21312/Capitulo2.pdf · 2011-05-13 · existían observaciones con datos incompletos y se organizó la base de

21

ordenadas respecto al tiempo y sucesivas observaciones son generalmente

dependientes.

Este trabajo busca dotar al SIAFESON de series de tiempo fiables y continuas en

el tiempo para la variable temperatura de las estaciones del Valle del Mayo para

su utilización en modelos fitosanitarios con fines de pronóstico. Lo anterior serviría

para prevenir o pronosticar problemas fitosanitarios en la zona con mayor certeza

de la que se tiene actualmente.

Delimitaciones del Estudio En Sonora existen 52 estaciones Agro meteorológicas, de las cuales este trabajo

se enfocará en nueve estaciones correspondientes a la zona agrícola del Valle del

Mayo (Figura 4). Cabe mencionar que si bien es necesario estandarizar y rellenar

las series de tiempo de las nueve variables que se registran en las estaciones,

este trabajo se centrará en las series de temperatura ambiente, que incluye:

temperatura mínima, máxima y promedio; ya que son las variables con mayor

demanda dentro de los modelos fitosanitarios.

Figura 4: Estaciones agro meteorológicas en el Valle del Mayo

Page 4: UNA APLICACION REAL DEL MÉTODO DE …tesis.uson.mx/digital/tesis/docs/21312/Capitulo2.pdf · 2011-05-13 · existían observaciones con datos incompletos y se organizó la base de

22

El Valle del Mayo El Valle del Mayo es la zona que comprende desde las sierras de Alamos hasta

las costas de Huatabampo, este valle limita al norte con el Valle del Yaqui, al sur

con el estado de Sinaloa y al oriente con el Mar de Cortez. El Valle del Mayo

comprende los municipios de Huatabampo, Álamos, Etchojoa, Quiriego y Navojoa.

Esta zona se caracteriza por su riqueza en suelos, además por sus mantos

acuíferos localizados al sur de estado, por los cuales hacen ideal estas tierras

para la agricultura, que por sus características meteorológicas y geográficas, lo

hacen un lugar ideal para la siembra. El Valle del Mayo cuenta con una superficie

de alrededor de 140 mil hectáreas, de las cuales su principal producción es de

trigo.

Page 5: UNA APLICACION REAL DEL MÉTODO DE …tesis.uson.mx/digital/tesis/docs/21312/Capitulo2.pdf · 2011-05-13 · existían observaciones con datos incompletos y se organizó la base de

MetodEl pro

en el

dología apocedimiento

esquema s

plicada o que se sig

siguiente, e

Id

Se

E

D

guió para r

l cual se ex

Figura 5. M

Analiz

entificar pa

eleccionar

De

stimar corr

Definir paráda

Estima

Anális

resolver la p

xplicara en

etodología a

zar base de

atrón de da

método de

epurar dat

relación ent

metros y matos faltant

r valores fa

sis de resul

problemátic

la sección

aplicada

datos

atos faltant

e imputació

tos

tre variable

modelos partes

altantes

ltados

ca plantead

de resultad

tes

ón

es

ra

2

da se resum

dos:

23

me

Page 6: UNA APLICACION REAL DEL MÉTODO DE …tesis.uson.mx/digital/tesis/docs/21312/Capitulo2.pdf · 2011-05-13 · existían observaciones con datos incompletos y se organizó la base de

24

Resultados del caso

Analizar base de datos.

La base datos analizada incluye 80,109 registros correspondientes a 2967 días

comprendidos entre enero del 2002 hasta junio de 2010.

Se detectaron valores no factibles o improbables, además de múltiples datos

faltantes. Después de eliminar los valores improbables se identificó un total de

19,335 datos faltantes, que equivalen al 24.13%.

En la tabla 5 que aparece a continuación, se detallan los datos faltantes por

estación. Tabla 5: Resumen de datos faltantes por estación

Estación No.Datos No.Datos faltantes

% de faltantes Observaciones

Jupare 8901 2733 30.70% Inició operaciones el 1/1/2003

Buaysicobe 8901 2022 22.72%

Tesia 8901 1047 11.76%

Sahuaral 8901 2040 22.92%

Mumuncuera 8901 2055 23.09%

Tres Carlos 8901 2067 23.22%

Cemay 8901 111 1.25% Inició operaciones el 1/25/2002

Chapote 8901 3930 44.15% Inició operaciones el 1/23/2005

Huatabampo 8901 3330 37.41% Inició operaciones el 5/15/2005

TOTAL 80109 19335

Identificar patrón de datos faltantes.

Al analizar la matriz de datos faltantes, se puede identifica un patrón de datos

perdidos completamente al azar, es decir del tipo MCAR. Por las dimensiones de

la matriz (27x2967), no es posible reproducirla completamente para su

visualización, pero en la figura 6 se muestra un segmento de la misma, y en la

figura 7 se puede apreciar la ausencia de datos en las series de temperatura de

manera muy agregada.

Page 7: UNA APLICACION REAL DEL MÉTODO DE …tesis.uson.mx/digital/tesis/docs/21312/Capitulo2.pdf · 2011-05-13 · existían observaciones con datos incompletos y se organizó la base de

25

Figura 6. Patrón general de datos faltantes

Figura 7. Patrón de series de datos de temperatura ambiente

Page 8: UNA APLICACION REAL DEL MÉTODO DE …tesis.uson.mx/digital/tesis/docs/21312/Capitulo2.pdf · 2011-05-13 · existían observaciones con datos incompletos y se organizó la base de

26

Seleccionar método de imputación

Para seleccionar el método de imputación se consideraron los siguientes

aspectos:

El tipo de variable a imputar es continua (temperatura máxima, mínima y

promedio);

El propósito de la imputación es contar con una base datos completa y

consistente para que posteriormente estos datos puedan ser utilizados en

modelos fitosanitarios con fines de pronóstico, que sirvan para prevenir o

pronosticar problemas fitosanitarios en la zona con mayor certeza.

La base de datos no será utilizada para análisis de covarianza o

correlación.

La naturaleza de la variable a imputar y el patrón de datos faltantes.

La red AGROSON no cuenta con software especializado, por lo que es

necesario realizar la imputación con los recursos disponibles.

La opinión de expertos en meteorología.

El método de imputación seleccionado es el de Regresión Lineal a partir de

variables correlacionadas. El coeficiente de correlación mínimo aceptable se

estableció en 0.9.

Considerando que se requiere estimar los datos faltantes de 27 variables distintas

(3 variables x 9 estaciones), se necesita definir una ecuación de regresión lineal

para cada una de ellas.

Depurar datos

Para poder analizar la relación entre las variables de la base de datos, es

necesario estandarizar los tamaños de muestra de todas las estaciones; con este

propósito, se eliminaron todos los registros correspondientes a las fechas donde

existían observaciones con datos incompletos y se organizó la base de datos en

EXCEL.

Page 9: UNA APLICACION REAL DEL MÉTODO DE …tesis.uson.mx/digital/tesis/docs/21312/Capitulo2.pdf · 2011-05-13 · existían observaciones con datos incompletos y se organizó la base de

27

Estimar correlación entre variables

Para calcular la correlación entre las variables, se construyeron 3 matrices (una

para cada tipo de variable faltante) a partir de la información obtenida aplicando la

herramienta análisis de datos de EXCEL. Las matrices de correlación aparecen

en las tablas 6, 7 y 8.

Tabla 6: Coeficiente de Correlación para la variable “Temperatura máxima”.

T.Max Jupare Buayisacobe Tesia Huatabampo Sahuaral Mumuncuera Tres Carlos Cemay Chapote

Jupare 0.9707 0.9567 0.9851 0.9832 0.9658 0.9746 0.9514 0.9617

Buayisacoba 0.9717 0.9817 0.9812 0.9739 0.9797 0.9694 0.9805

Tesia 0.9735 0.9761 0.9738 0.9775 0.9690 0.9701

Huatabampo 0.9859 0.9876 0.9877 0.9671 0.9727

Sahuaral 0.9763 0.9822 0.9664 0.9733

Mumuncuera 0.9832 0.9660 0.9666

Tres Carlos 0.9682 0.9731

Cemay 0.9624

Chapote

Tabla 7. Coeficiente de Correlación para la variable “Temperatura mínima”.

T.Min Jupare Buayisacobe Tesia Huatabampo Sahuaral Mumuncuera Tres Carlos Cemay Chapote

Jupare 0.9886 0.9795 0.9922 0.9929 0.9878 0.9907 0.9840 0.9907

Buayisacoba 0.9848 0.9881 0.9885 0.9804 0.9865 0.9848 0.9907

Tesia 0.9801 0.9802 0.9783 0.9821 0.9843 0.9872

Huatabampo 0.9915 0.9866 0.9918 0.9845 0.9907

Sahuaral 0.9908 0.9933 0.9861 0.9935

Mumuncuera 0.9941 0.9855 0.9888

Tres Carlos 0.9880 0.9926

Cemay 0.9895

Chapote

Tabla 8. Coeficiente de Correlación para la variable “Temperatura promedio”.

T.Prom Jupare Buayisacobe Tesia Huatabampo Sahuaral Mumuncuera Tres Carlos Cemay Chapote

Jupare 0.9935 0.9882 0.9965 0.9958 0.9908 0.9942 0.9830 0.9910

Buayisacoba 0.9917 0.9944 0.9933 0.9913 0.9938 0.9860 0.9942

Tesia 0.9920 0.9921 0.9923 0.9934 0.9881 0.9931

Huatabampo 0.9973 0.9965 0.9977 0.9871 0.9943

Sahuaral 0.9951 0.9963 0.9868 0.9946

Mumuncuera 0.9969 0.9877 0.9931

Tres Carlos 0.9881 0.9946

Cemay 0.9874

Chapote

Page 10: UNA APLICACION REAL DEL MÉTODO DE …tesis.uson.mx/digital/tesis/docs/21312/Capitulo2.pdf · 2011-05-13 · existían observaciones con datos incompletos y se organizó la base de

28

Definir parámetros y modelos para datos faltantes

Se ajustó un modelo de Regresión Lineal para cada variable faltante, tomando

como variables predictoras las que tenían un coeficiente de correlación mayor y

datos disponibles en las fechas requeridas.

Por ejemplo, si consideramos la estación Tres Carlos y requerimos imputar la

variable “Temperatura máxima”, para las fechas comprendidas del 30 de enero de

al 21 de febrero de 2002 se utilizarían los datos de la estación Huatabampo ya

que tiene el mayor coeficiente de correlación: 0.987737311 (ver figura 6), pero en

este caso la estación Huatabampo no tiene datos disponibles en la fecha

requerida; la única estación con datos en esas fechas es Tesia con un coeficiente

de correlación de 0.9777.

El análisis de datos de EXCEL, también proporciona los parámetros de la

ecuación de regresión lineal, los cuales se organizaron en 27 matrices (una para

cada variable faltante) que aparecen en el anexo 2.

En la tabla 9 se muestra la matriz correspondiente a la variable Temperatura

máxima de la estación Tres Carlos:

Tabla 9: Matriz de Coeficientes de Correlación, Pendiente e Intersección

Tres Carlos

Estación Coef. Correlación Pendiente Intersección

Huatabampo 0.987737311 1.026521005 -0.412547279

Mumuncuera 0.983221225 0.996119398 0.209765894

Sahuaral 0.982241584 0.989327546 -0.271157996

Buayisacobe 0.979669398 0.939473246 -0.210107464

Tesia 0.977485269 1.008415564 -1.218797738

Jupare 0.97460431 -0.210107464 -0.210107464

Chapote 0.973061957 0.932072241 1.540377708

Cemay 0.968238191 0.903293815 2.344118732

Page 11: UNA APLICACION REAL DEL MÉTODO DE …tesis.uson.mx/digital/tesis/docs/21312/Capitulo2.pdf · 2011-05-13 · existían observaciones con datos incompletos y se organizó la base de

29

por lo tanto la ecuación de regresión a utilizar para estimar las temperaturas

máximas es:

= -1.218 + 1.008 xi

Estimar valores faltantes

Para calcular los valores faltantes, se aplica la ecuación anterior y se obtienen los

valores que aparecen en la tabla 12. Tabla 10: Valores faltantes (yi) Tabla 11: Valores a utilizar (xi)

TRES CARLOS

Fecha T.Prom T.Max T.Min

30/01/2002 ¿

31/01/2002 ¿

01/02/2002 ¿

02/02/2002 ¿

03/02/2002 ¿

04/02/2002 ¿

05/02/2002 ¿

06/02/2002 ¿

07/02/2002 ¿

08/02/2002 ¿

09/02/2002 ¿

10/02/2002 ¿

11/02/2002 ¿

12/02/2002 ¿

13/02/2002 ¿

14/02/2002 ¿

15/02/2002 ¿

16/02/2002 ¿

17/02/2002 ¿

18/02/2002 ¿

19/02/2002 ¿

20/02/2002 ¿

21/02/2002 ¿

TESIA

Fecha T.Prom T.Max T.Min

30/01/2002 14.08 19.29 5.545

31/01/2002 13.53 20.81 4.655

01/02/2002 11.52 19.95 2.68

02/02/2002 16.29 25.96 9.76

03/02/2002 17.77 24.16 12.15

04/02/2002 16.17 18.28 14.03

05/02/2002 15.62 21.27 9.46

06/02/2002 15.41 25.01 7.88

07/02/2002 16.42 26.13 8.21

08/02/2002 17.28 29.19 8.28

09/02/2002 15.98 27.97 5.22

10/02/2002 16.11 26.85 4.001

11/02/2002 17.93 27.68 8.11

12/02/2002 16.28 26.59 6.832

13/02/2002 16.45 27.18 6.436

14/02/2002 17.6 28.04 8.08

15/02/2002 19.81 30.63 12.29

16/02/2002 20.06 29.95 11.86

17/02/2002 17.55 26.93 11.53

18/02/2002 15.49 23.11 7.39

19/02/2002 13.98 25.83 3.076

20/02/2002 15.55 27.81 4.166

21/02/2002 18.25 31.71 3.935

Page 12: UNA APLICACION REAL DEL MÉTODO DE …tesis.uson.mx/digital/tesis/docs/21312/Capitulo2.pdf · 2011-05-13 · existían observaciones con datos incompletos y se organizó la base de

30

Tabla 12. Valores estimados Ecuación para T.Máxima Ecuación para T.Mínima Ecuación para T.promedio

y=a+bX Fecha T.Max y=a+bX T.Min y=a+bX T.Prom

a= -1.2188 30/01/2002 18.23354 a= 1.079526 6.575243 a= -0.84998 12.84686

b= 1.008416 31/01/2002 19.76633 b= 0.991112 5.693153 b= 0.972787 12.31182

01/02/2002 18.89909 3.735707 10.35652

02/02/2002 24.95967 10.75278 14.99672

03/02/2002 23.14452 13.12154 16.43644

04/02/2002 17.21504 14.98483 14.87998

05/02/2002 20.2302 10.45545 14.34495

06/02/2002 24.00168 8.88949 14.14066

07/02/2002 25.1311 9.216557 15.12318

08/02/2002 28.21685 9.285935 15.95977

09/02/2002 26.98659 6.253132 14.69515

10/02/2002 25.85716 5.044966 14.82161

11/02/2002 26.69415 9.117446 16.59209

12/02/2002 25.59497 7.850805 14.98699

13/02/2002 26.18994 7.458324 15.15236

14/02/2002 27.05717 9.087713 16.27107

15/02/2002 29.66897 13.26029 18.42093

16/02/2002 28.98325 12.83412 18.66412

17/02/2002 25.93783 12.50705 16.22243

18/02/2002 22.08569 8.403845 14.21849

19/02/2002 24.82858 4.128187 12.74958

20/02/2002 26.82524 5.208499 14.27685

21/02/2002 30.75806 4.979553 16.90338

El procedimiento descrito para el ejemplo es el que se siguió para estimar todas

las variables faltantes.

Page 13: UNA APLICACION REAL DEL MÉTODO DE …tesis.uson.mx/digital/tesis/docs/21312/Capitulo2.pdf · 2011-05-13 · existían observaciones con datos incompletos y se organizó la base de

31

Análisis de resultados

Como resultado de la imputación por regresión lineal, se pudieron estimar todos

los datos faltantes. Todos los valores imputados se consideran factibles ya que se

encuentran dentro del rango esperado. No se detectan sesgos con respecto al

comportamiento de los datos.

Figura 8: Valores Imputados

0

5

10

15

20

25

30

35

T.Max

T.Min

T.Prom

Lineal (T.Prom)