Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This...

111
Dirección: Dirección: Biblioteca Central Dr. Luis F. Leloir, Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires. Intendente Güiraldes 2160 - C1428EGA - Tel. (++54 +11) 4789-9293 Contacto: Contacto: [email protected] Tesis de Maestría Evalución de la capacidad de Evalución de la capacidad de predicción de granizo de índices predicción de granizo de índices atmosféricos atmosféricos Banchero, Santiago 2017-08-28 Este documento forma parte de la colección de tesis doctorales y de maestría de la Biblioteca Central Dr. Luis Federico Leloir, disponible en digital.bl.fcen.uba.ar. Su utilización debe ser acompañada por la cita bibliográfica con reconocimiento de la fuente. This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico Leloir, available in digital.bl.fcen.uba.ar. It should be used accompanied by the corresponding citation acknowledging the source. Cita tipo APA: Banchero, Santiago. (2017-08-28). Evalución de la capacidad de predicción de granizo de índices atmosféricos. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Cita tipo Chicago: Banchero, Santiago. "Evalución de la capacidad de predicción de granizo de índices atmosféricos". Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2017- 08-28.

Transcript of Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This...

Page 1: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Di r ecci ó n:Di r ecci ó n: Biblioteca Central Dr. Luis F. Leloir, Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires. Intendente Güiraldes 2160 - C1428EGA - Tel. (++54 +11) 4789-9293

Co nta cto :Co nta cto : [email protected]

Tesis de Maestría

Evalución de la capacidad deEvalución de la capacidad depredicción de granizo de índicespredicción de granizo de índices

atmosféricosatmosféricos

Banchero, Santiago

2017-08-28

Este documento forma parte de la colección de tesis doctorales y de maestría de la BibliotecaCentral Dr. Luis Federico Leloir, disponible en digital.bl.fcen.uba.ar. Su utilización debe seracompañada por la cita bibliográfica con reconocimiento de la fuente.

This document is part of the doctoral theses collection of the Central Library Dr. Luis FedericoLeloir, available in digital.bl.fcen.uba.ar. It should be used accompanied by the correspondingcitation acknowledging the source.

Cita tipo APA:

Banchero, Santiago. (2017-08-28). Evalución de la capacidad de predicción de granizo de índicesatmosféricos. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires.

Cita tipo Chicago:

Banchero, Santiago. "Evalución de la capacidad de predicción de granizo de índicesatmosféricos". Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2017-08-28.

Page 2: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Universidad de Buenos Aires

Facultad de Ciencias Exactas y Naturales

Departamento de Computacion

Evaluacion de la capacidad de prediccionde granizo de ındices atmosfericos

Tesis presentada para optar al tıtulo de Magister en

Explotacion de Datos y Descubrimiento de Conocimiento

Santiago Banchero

Director: Dr. Marcelo Soria

Buenos Aires, 2017

Page 3: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

EVALUACION DE LA CAPACIDAD DE PREDICCION DE

GRANIZO DE INDICES ATMOSFERICOS

En la actividad agrıcola existen muchos factores de riesgo que condicionan la produccion,

algunos pueden ser tratados por el hombre, como por ejemplo enfermedades o plagas pero

tambien existen otros que no pueden ser controlados y que de suceder ponen en peligro

la seguridad de las personas y producen grandes trastornos economicos. Este conjunto

de factores de riesgo tienen que ver con el comportamiento de la atmosfera y los eventos

extremos que surgen de ella. En particular, la ocurrencia de granizo constituye uno de

los fenomenos meteorologicos capaces de infligir danos cuantiosos al deteriorar seriamente

cultivos, construcciones y medios de transporte. Con el objetivo de evaluar cual es la ca-

pacidad de prediccion de ocurrencia de granizo de un conjunto de ındices de inestabilidad,

se procesaron 168 fechas del ano 2015 donde hubo caıda de granizo. Se utilizo la red de

radares de INTA para la determinacion de las areas con desarrollo convectivo y esta infor-

macion fue utilizada como target para la construccion de modelos de pronostico. Tambien

se utilizaron datos del pronostico operativo GFS de donde se extrajeron unas 60 variables

de diferentes horarios a partir de las cuales se calcularon ındices atmosfericos como Total

Totals, K-Index, Showalter, SWEAT Index, entre otros. A partir de los ındices y utilizando

tecnicas de agrupamiento como Modelos de Mezclas Gaussianas se realizaron clusters por

fechas y horarios de pronosticos. Cruzando los clusters obtenidos con GFS y utilizando la

informacion de los radares se etiquetaron los grupos como positivos o negativos segun pue-

dan o no desarrollar conveccion. Luego se verifico el comportamiento de los ındices dentro

de los clusters a partir de su condicion de positivo o negativo y el comportamiento de

estos fue adecuado con los umbrales de peligrosidad vistos en la bibliografıa. Se ajustaron

diferentes modelos de regresiones utilizando Support Vector Regression y regresiones regu-

larizadas (Ridge y LASSO) para modelar el comportamiento de la probabilidad acumulada

para valores mayores a 50 y 60 dBZ a partir de los ındices atmosfericos. Los resultados

de estos experimentos no fueron buenos y no fue posible modelar la densidad de dBZ a

partir de los ındices. Tambien se ajustaron clasificadores con Random Forest a partir de

los datos etiquetados con los clusters, estos resultados fueron muy buenos logrando un

i

Page 4: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

muy buen ajuste en testing. Con los modelos obtenidos se pronosticaron varias fechas y

se mapearon las probabilidades de con que las celdas fueron clasificadas como positivas.

Estos pronosticos se validaron con puntos de campo y los resultados mostraron una buena

correlacion espacial entre los puntos y las celdas con probabilidades mayor a 0.5 de ser

positivas. Para cumplir con este trabajo se desarrollo una arquitectura de procesamiento

compuesta por diferentes modulos que preparan los datos de cada uno de los proveedores.

Esta plataforma modular fue implementada para que escale horizontalmente.

Palabras claves: Granizo, Radares meteorologicos, Global Forecast System, Pronosticos,

Data Mining, Big Data.

Page 5: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

AGRADECIMIENTOS

Agradezco a mis padres por ensenarme que con esfuerzo y dedicacion todo es posible y

por alentarme siempre y en todo momento en mi carrera de estudiante. A mi amor por

estar siempre. Tambien a mis hermanos, por alegrarme la vida. A Romina Mezher por su

gran predisposicion y generosidad para explicarme como funciona la parcela, el rho y el

mar de conceptos de meteorologıa durısimos para un informatico. A los Pavos Inductivos

(Guido y Eloisa) por ser el primer gran exito de la maestrıa. A mis amigos de la UNLu

y a los mismos de siempre. A mi Director Marcelo Soria por acompanarme a lo largo de

todo el trabajo.

iii

Page 6: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

A Liliana

Page 7: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Indice general

1.. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Conceptos Generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2.1. Tormentas Severas: Granizo . . . . . . . . . . . . . . . . . . . . . . . 2

1.2.2. Modelos de Prediccion Numerica: GFS . . . . . . . . . . . . . . . . . 4

1.2.3. Indices de Inestabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2.3.1. SHOW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2.3.2. LI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2.3.3. Convective Available Potencial Energy . . . . . . . . . . . 10

1.2.3.4. Inhibicion Convectiva . . . . . . . . . . . . . . . . . . . . . 12

1.2.3.5. K-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.2.3.6. Total Totals . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.2.3.7. SWEAT Index . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.2.3.8. Altura de la Isoterma de cero grados . . . . . . . . . . . . . 17

1.2.3.9. Lapse Rate . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.2.3.10. Altura LCL . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.2.3.11. Shear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.2.3.12. DCI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.2.4. Radares Meteorologicos . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.2.5. Conceptos de Data Mining . . . . . . . . . . . . . . . . . . . . . . . 23

1.2.6. Conceptos de Big data . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.3. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.. Materiales y Metodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.1. Area de Estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2. Conjunto de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.2.1. Datos de GFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.2.2. Datos de RADAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

v

Page 8: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2.2.3. Datos de campo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.2.4. Generacion de los datasets . . . . . . . . . . . . . . . . . . . . . . . . 44

2.3. Tecnicas Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.3.1. Modelos Gaussianos Mixtos . . . . . . . . . . . . . . . . . . . . . . . 47

2.3.2. Regresiones Regularizadas . . . . . . . . . . . . . . . . . . . . . . . . 48

2.3.2.1. Regresion Ridge . . . . . . . . . . . . . . . . . . . . . . . . 49

2.3.2.2. Regresion Lasso . . . . . . . . . . . . . . . . . . . . . . . . 50

2.3.2.3. Seleccion del parametro Lambda . . . . . . . . . . . . . . . 50

2.3.3. Support Vector Regression . . . . . . . . . . . . . . . . . . . . . . . 51

2.3.4. Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.. Determinacion de Areas Convectivas . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.1. Obtencion de clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.2. Analisis de los agrupamientos . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.. Modelos de pronosticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.1. Pronosticos utilizando regresiones . . . . . . . . . . . . . . . . . . . . . . . . 70

4.2. Pronosticos utilizando clasificaciones . . . . . . . . . . . . . . . . . . . . . . 73

4.2.1. Caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.2.2. Caso 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

4.2.3. Caso 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5.. Conclusiones y trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

5.2. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.. Anexo I: Caracterizacion de los agrupamientos a traves de tablas . . . . . . . . . 83

7.. Anexo II: Publicaciones realizadas en el marco de la tesis . . . . . . . . . . . . . 89

Bibliografıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

Page 9: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. INTRODUCCION

En la actividad agrıcola existen muchos factores de riesgo que condicionan los resulta-

dos. Algunos pueden ser tratados por el hombre, como por ejemplo enfermedades o plagas,

pero tambien existen otros que no pueden ser controlados y que de suceder ponen en peli-

gro la seguridad de las personas y producen grandes trastornos economicos. Este conjunto

de factores de riesgo esta relacionado con el comportamiento de la atmosfera y los eventos

extremos que surgen de ella. En particular, la ocurrencia de granizo constituye uno de

los fenomenos meteorologicos capaces de infligir danos cuantiosos al deteriorar seriamente

cultivos, edificios y medios de transporte. En Argentina la precipitacion de granizo tiene

una distribucion espacio-temporal heterogenea, segun [98],[97],[96]. La mayor frecuencia

en el ano se presenta durante el verano y la primavera, mientras que durante el otono y el

invierno la ocurrencia es menor y en algunas regiones como en Cuyo o el extremo Noroeste

del paıs la frecuencia es practicamente nula..

Las tareas a realizar seran construir modelos a partir de tecnicas de aprendizaje au-

tomatico utilizando como datos de entrada ”Indices de inestabilidad 2realizar validaciones

con datos observados por los radares meteorologicos. A su vez, se realizara una validacion

con datos relevados en campo donde se verifico la caıda de granizo.

1.1. Objetivos

El objetivo general de este trabajo es evaluar cual es la capacidad de prediccion de

ocurrencia de granizo de un conjunto de ındices de inestabilidad utilizando algoritmos de

machine learning para el area comprendida por la red de radares de INTA.

Los objetivos especıficos incluyen: 1) evaluar la utilizacion de ındices de inestabilidad

calculados con (Global Forecast System) GFS para pronosticar granizo, 2) evaluar modelos

predictivos construidos con tecnicas de regresiones regularizadas, regresiones con Maquinas

de Vector Soporte (SVM) y metodos de clasificacion con Random Forest; utilizando como

datos de entrada los ındices de inestabilidad y datos de RADAR como variable objetivo,

3) generar una arquitectura de procesamiento de los datos de pronostico, 4) ajustar los

metodos de validacion con los datos relevados en campo donde se verifico la caıda de

1

Page 10: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 2

granizo.

1.2. Conceptos Generales

1.2.1. Tormentas Severas: Granizo

Una tormenta severa es un fenomeno atmosferico con capacidades destructivas, como

pueden ser tormentas electricas intensas, tormentas de granizo y tornados. El granizo se

considera un riesgo natural [71]. La precipitacion de granizo esta caracterizada por una alta

variabilidad espacial y temporal. En Argentina, los danos provocados por este fenomeno

meteorologico extremo ponen en riesgo la seguridad de las personas y afecta a diferentes

sectores economicos, tanto en las zonas urbanas como rurales [96].

El granizo es la precipitacion en forma de conglomerados irregulares de hielo (figura

1.1), producido por nubes convectivas y casi siempre en cumulonimbus1 [16]. Por con-

vencion, el granizo tiene un diametro de 5 mm o mas, mientras que las partıculas mas

pequenas de origen similar, anteriormente llamados granizo pequeno, puede clasificarse

ya sea como granulos de hielo o nieve granulada [108]. Las tormentas que se caracterizan

por presentar fuertes corrientes ascendentes, un gran contenido de agua lıquida, nubes con

tamanos de gotas grandes y gran altura vertical favorecen la formacion de granizo [30].

Figura: 1.1: Fisonomıa de los diferentes tipos de granizo [44]

Generalmente, el granizo proviene de tormentas electricas. Sin embargo, alrededor del

60 por ciento de las tormentas no generan granizo en lo alto [30]. La figura 1.2 ilustra los

procesos que original el granizo.

1 Los cumulonimbus o cumulonimbos son nubes de gran desarrollo vertical, internamente formadas por

una columna de aire calido y humedo que se eleva en forma de espiral rotatorio. Su base suele encontrarse

a menos de 2 km de altura mientras que el tope puede alcanzar unos 15 a 20 km de altitud [19].

Page 11: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 3

Inicialmente, una corriente ascendente transporta las gotas de agua o nucleos de hielo

muy pequenos (graupel) sobre el nivel de congelacion para formar el granizo. En algun

punto, los nucleos congelados caen de la corriente ascendente y colisionan con gotas que

la cubren con una capa de agua lıquida. Si el nucleo de hielo es llevado nuevamente hacia

arriba por una corriente ascendente, este se volvera a congelar formando una segunda capa

de hielo. Esta secuencia puede repetirse numerosas veces, con cada pasaje por encima del

nivel de congelacion se incrementa el grosor del hielo [43].

De este modo, el tamano final del granizo esta determinado por la intensidad de la

corriente ascendente, puesto que cuanto mayor sea la fuerza de los movimientos verticales

mayor sera el tamano de granizo que pueden transportar [43]. El granizo que llega al suelo

desciende a una velocidad de 40 metros por segundo; y por lo general es menos de 10 por

ciento del volumen de lluvia producido por una tormenta [62].

Figura: 1.2: Proceso de formacion del granizo con el cumulonimbus ya formado (Adaptado de [43]).

Las tormentas que producen caıda de granizo encuentran las condiciones mas favorables

para su desarrollo en horas de la tarde-noche y durante las estaciones de primavera y el

verano [98]. Generalmente, es mas propenso en regiones continentales y en latitudes medias

[67]. Sobre regiones puntuales, localizadas y durante periodos de tiempo de corta duracion.

El granizo es considerado un riesgo agro-climatico2 y es uno de los principales genera-

dores de danos en cultivos. En Argentina se estima que el 85 % de los seguros agropecuarios

corresponden a granizo [106].

2 Se denomina riesgo agro-climatico a la probabilidad de afectacion del rendimiento o la calidad de los

cultivos por efecto de un fenomeno climatico adverso [14].

Page 12: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 4

El promedio anual de eventos de granizo es maximo sobre Cordoba y La Pampa y

disminuye hacia el norte del Litoral [96]. El mayor porcentaje de eventos durante la pri-

mavera en el Noreste del paıs, mientras que sobre Cordoba, La Pampa y sur de Buenos

Aires el maximo se observa en el verano, en los meses de Diciembre y Enero. Durante el

otono la ocurrencia de eventos de granizo presenta su menor frecuencia [99].

1.2.2. Modelos de Prediccion Numerica: GFS

La simulacion numerica de fenomenos geofısicos contribuye a nuestra comprension de

los complejos procesos en el sistema Tierra. Las ideas basicas de prediccion numerica y

de la modelizacion del clima fueron desarrolladas hace aproximadamente un siglo, mucho

antes de que se construyera la primera computadora electronica [91].

Las tecnicas de prediccion numerica (NWP - Numerical Weather Prediction) se centran

en tomar las observaciones actuales del tiempo y en la utilizacion de modelos computacio-

nales para el procesamiento de esas observaciones con el objetivo de predecir el estado

futuro del clima [3].

La justificacion de cualquier forma de modelado se debe a que es casi imposible llevar

a cabo experimentos con la atmosfera. Por esta razon, la comprension de los mecanismos

subyacentes fundamentales que rigen las corrientes atmosfericas, el clima y el cambio

climatico puede tener lugar solo a traves de observaciones o modelado [22].

Un pronostico basado en NWP requiere de condiciones iniciales que provienen del

analisis que se construye mediante la asimilacion de distintas observaciones meteorologicas

en el modelo. La calidad del analisis y, por ende, del pronostico depende no solo de los

metodos utilizados, sino tambien de la calidad de esas observaciones [4].

De acuerdo con la aplicacion y la necesidad, se utilizan distintos tipos de modelos

de NWP, desde modelos de escala global que generan pronosticos a 15 dıas o mas, con

una resolucion entre 15 y 100 km, hasta modelos regionales o modelos de mesoescala que

generan pronosticos de escala mas reducida, con una resolucion espacial mayor y resultados

mas frecuentes [4]. En la figura 1.3 se muestra un esquema de la relacion espacio-temporal

de las diferentes escalas con los respectivos procesos dinamicos que se dan en la atmosfera

y sus escalas espacio-temporales. En el apartado anterior se hablo del granizo que por

tratarse de un fenomeno convectivo, esta definido en la mesoescala donde la escala temporal

del pronostico se mide en horas y la resolucion espacial se fija entre 2 y 20 kilometros [110].

Page 13: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 5

Figura: 1.3: Escalas tiempo-espacio de procesos dinamicos en la atmosfera (Adaptado de [88])

El Global Forecast System (GFS) [128] [84] [83], es un sistema de prediccion numerica

del tiempo a escala global (figura 1.4) para generar pronosticos a corto plazo. Decenas de

variables del suelo y de la atmosfera estan disponibles a traves de este conjunto de datos.

GFS provee un abanico importante de variables [83], entre las principales: datos de

temperaturas, vientos, precipitaciones, humedad del suelo y concentracion de ozono at-

mosferico, entre otros [1]. Este sistema de prediccion numerica tiene una cobertura mun-

dial, con una resolucion horizontal de 28 kilometros entre puntos de la grilla, que se utiliza

por los pronosticadores operacionales para predecir el tiempo hasta 16 dıas.

El modelo GFS es corrido cuatro veces al dıa (a las 00, 06, 12 y 18 horas GMT) y

produce una serie de predicciones con intervalos de 3 horas comenzando con la hora 0

hasta 240 y de intervalos de 12 horas de 240 hasta la hora 384. La extension vertical de

los productos modelados estan organizados en niveles. Por ejemplo, el modelo GFS tiene

niveles con elevaciones en referencia a la superficie del terreno. Estos datos tienen un rango

de 1 a 2 metros por debajo del nivel del suelo y 100 metros por encima; superficies de

presion en la atmosfera libre (de 1.000 milibares (mb) hasta 1 mb) y capas atmosfericas

Page 14: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 6

(por ejemplo, troposfera) entre otras [25]. En total se publican mas de 300 variables [10].

Estos datos, disponibles cuatro veces al dıa, tienen una cobertura global en formato

de grilla con una resolucion espacial de 1.0, 0.5 y 0.25 [103] grados [105]. Para la grilla de

0.25 ◦ x 0.25 ◦ se genera una matriz de 1440 por 721 (Longitud/Latitud) desde 0 ◦ Este a

359.75 ◦ Este y desde 90 ◦ Norte a 90 ◦ Sur.

Las grillas de salida estan disponibles en formato GRIB/GRIdded Binary [38] que es

una extension de datos conciso utilizado en meteorologıa para almacenar datos historicos y

pronosticados del tiempo y fue estandarizado por la Commission for Basic Systems (CBS)

para sistemas basicos de la World Meteorological Organization (WMO) [2].

Figura: 1.4: Mapa de temperatura ( ◦C) en superficie pronosticada con GFS 0.25 ◦.

Los datos de GFS son accesibles a traves de las plataformas del NOAA Operational

Model Archive Distributed System (NOMADS) [15] [123]. Estas plataformas permiten la

distribucion rapida, cercano al tiempo real, de modelos del oceano y del tiempo a traves

de protocolos estandarizados que facilitan el acceso a los diferentes conjuntos de datos

de las multiples agencias. El objetivo de esta iniciativa incluye un mayor acceso a las

salidas de los modelos para usos interdisciplinarios ası como un archivo permanente de

esos productos [124].

Page 15: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 7

1.2.3. Indices de Inestabilidad

Se entiende por inestabilidad al proceso por el cual se aparta al sistema (o parcela de

aire) de su estado de equilibrio [59]. Esta perturbacion hace que el aire se acelere en la

vertical y se eleve rapidamente formando nubes. El ascenso libre del aire es debido a su

flotabilidad positiva, producto de su mayor temperatura (menor densidad) con respecto a

su entorno [75]. El aire en la troposfera inferior se levanta hasta que se vuelve menos denso

que el aire circundante y alcanzada esta condicion se eleva por sı mismo. La velocidad a

la que se eleva depende de la diferencia de densidad entre el aire ascendente y el aire

circundante [75].

Por otro lado, una region de la atmosfera sera estable si el ascenso de una parcela de

aire tiende a hundirse nuevamente al liberarse. Esto requiere que el aire desplazado sea

mas frıo (y por tanto mas denso) que su circundante [80].

Algunas veces la atmosfera es facilmente desplazada y una parcela de aire, dado un im-

pulso inicial ascendente, continua subiendo incluso despues de que el proceso de elevacion

inicial cesa. En otras ocasiones, la atmosfera se resiste a tal elevacion. La susceptibilidad

del aire para elevarse es llamada estabilidad estatica. Si hay un forzante inicial (hacia

arriba), la parcela adquiere empuje y asciende de forma estaticamente inestable [43].

El la figura 1.5 [32] se ilustran los diferentes tipos de estabilidad atmosferica, que se

describe en terminos de los efectos del ambiente en el movimiento vertical. Las condiciones

de estabilidad pueden ser: estable, neutra o inestable y ademas pueden existir simultanea-

mente en los distintos niveles de la atmosfera.

La estabilidad o inestabilidad atmosferica puede ser caracterizada por medio de los

ındices que reflejan las condiciones atmosfericas en niveles particulares y permiten expre-

sar esas condiciones a traves de un unico valor numerico llamado ındice de inestabilidad

[48]. La estimacion de la inestabilidad atmosferica a traves del uso de ındices, general-

mente requiere el calculo en base a varios parametros termodinamicos [95]. Por lo tanto

seran necesarias mediciones de variables atmosfericas como presion, altura, temperatura,

temperatura de punto rocıo, entre otras [63].

La inestabilidad es un factor crıtico en el desarrollo de tiempo severo y los ındices

de inestabilidad de fenomenos meteorologicos extremos pueden ser una herramienta util

cuando se aplican correctamente a una situacion de conveccion [137]. La utilizacion de los

Page 16: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 8

Figura: 1.5: Condiciones de estabilidad atmosferica [109]. a) Una atmosfera estable suprime u opone

resistencia al movimiento vertical. b) Una atmosfera neutra no suprime ni estimula el

movimiento vertical. c) Una atmosfera inestable intensifica o estimula el movimiento

vertical del aire.[32]

ındices permite determinar el potencial, severidad y tipo de conveccion esperada [41].

La mayorıa de los ındices corresponden a una diferencia de temperatura, temperatura

de rocıo, presion, altura, etc. entre dos superficies isobaricas elegidas arbitrariamente (o

alturas), tales como 925 mb, 850 mb 700 mb y 500 mb entre otras [48].

Tradicionalmente, los ındices se calculan utilizando radiosondas3, que tienen un area

de cobertura de 200 km [2]. Debido a la baja densidad de puntos de relevamiento, puesto

que las sondas son lanzadas desde diversos lugares, como aeropuertos, universidades, etc.,

para el presente trabajo se decidio utilizar los datos de GFS.

Existen una gran cantidad de ındices de inestabilidad que permiten determinar si

estan dadas las condiciones de conveccion. Estos ındices han sido ajustados para diferentes

regiones del mundo y sus rangos tambien varıan segun las latitudes en que se utilizan. Tanto

en regiones montanosas como en la proximidad de los tropicos estos ındices tienden a ser

menos eficientes, pero en regiones de llanuras mas homogeneas son muy buenos descriptores

3 Una radiosonda es un dispositivo empleado en globos meteorologicos para medir varios parametros

atmosfericos y transmitirlos a un aparato receptor fijo[60].

Page 17: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 9

de conveccion. A continuacion se definiran algunos de los ındices mas relevantes y se

comentaran las principales caracterısticas e intervalos de criticidad segun la bibliografıa y

los casos evaluados.

1.2.3.1. Showalter Index

El ındice Showalter (SI) [131] es calculado por el ascenso de una parcela de aire me-

diante un proceso adiabatico seco desde 850 mb a su Lifting Condensation Level4 (LCL)

y luego por un proceso pseudo-adiabatico hasta 500 hPa. Permite estimar el potencial de

inestabilidad de la capa entre 850 mb y 500 mb mediante la medicion del empuje en 500

mb de una parcela de aire que ascendio hasta ese nivel [113]. Los valores de SI negativos

revelan la existencia de inestabilidad latente de la capa entre 850 y 500 mb (tabla 1.1).

SI = T500 − Tp500

Donde:

T500 Es la temperatura en 500 mb

Tp500 Es la temperatura de la parcela en el ascenso adiabatico desde 850 mb hasta

500 mb

1.2.3.2. Lifted Index

Lifted Index (LI) [54] es comunmente utilizado para medir la estabilidad a partir de

la diferencia entre la temperatura de parcela que asciende hasta 500 mb y la temperatura

ambiental a 500 mb. Surge como una modificacion de Showalter Index [131] pero el LI

se desarrollo como un indicador de inestabilidad latente para ayudar en la prediccion de

tormentas severas [113].

Una parcela de aire asciende desde superficie tomando como T y W el valor medio

de los primeros 100 hPa desde superficie [144]. Esta parcela hipotetica asciende por un

proceso adiabatico seco hasta el LCL y luego por un proceso pseudo-adiabatico hasta 500

hPa. El LI refleja la diferencia entre la temperatura del ambiente y de la parcela en 500

4 Lifting Condensation Level es el nivel en que una parcela de aire humedo asciende a traves de un

proceso adiabatico seca hasta alcanzar el nivel de saturacion [18].

Page 18: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 10

Tabla: 1.1: Valores de Showalter Index que indican la probabilidad de formacion de tormenta

(Adaptada de [13])

SI Potencial de Tormenta

> 4 Estable. Probabilidad de tormenta nula.

1 to 3 Marginalmente inestable. Posibles tormentas.

-2 to 0 Moderadamente inestable. Se incrementan las chances de tormentas.

-3 to -2 Potencial de tormentas alto.

-5 to -4 Muy inestable.

-10 to -6 Extremadamente inestable.

< -10 Corra por su vida!

hPa [152]. En la tabla 1.2 puede observarse los valores crıticos del ındice, donde valores

negativos son indicadores de conveccion [11].

LI = T500 − Tp500 (1.1)

Donde:

T500 Es la temperatura en 500 mb

Tp500 Es la temperatura de la parcela en el ascenso adiabatico desde superficie.

1.2.3.3. CAPE

CAPE (Convective Available Potencial Energy) [102] mide la cantidad de energıa dis-

ponible para conveccion. Esta directamente relacionado con el potencial de maxima velo-

cidad vertical de una corriente ascendente. Ası, altos valores indican mayor probabilidad

de tormentas severas.

El ındice de energıa convectiva potencialmente disponible es un valor integrado y, al

igual que el Lifted Index, una parcela teorica asciende mediante un proceso adiabatico. En

este caso la parcela asciende hasta iguala su temperatura con el entorno que la rodea, es

Page 19: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 11

Tabla: 1.2: Valores de Lifted-Index que indican la probabilidad de formacion de tormenta (Adap-

tado de [11])

LI Potencial de Tormenta

> 0 Estable, aunque una debil conveccion es posible para

LI de 1 a 3 si se registran fuertes ascensos.

-1 to -3 Marginalmente inestable. Probalidad de tormentas, es necesario un disparador.

-4 to -5 Moderadamente inestable. Probabilidad de tormentas.

-6 to -7 Muy inestable. Probabilidad de tormentas fuertes/severas. Posibles tornados.

< -9 Extremadamente inestable. Probabilidad de tormentas severas y tornados.

decir, hasta que alcanza el nivel de equilibrio (EL) [151]. El area positiva (figura 1.6) entre

la temperatura de la parcela y la temperatura ambiente es el CAPE. Puede ser calculado

con la siguiente formula:

CAPE =

∫ EL

LFC(Tvp − Tva)Rd d ln(p) (1.2)

Donde:

Tvp Temperatura virtual de la parcela.

Tva Temperatura virtual del ambiente.

Rd Constante de gas para aire seco.

p Presion.

LFC5 es el nivel de libre conveccion.

EL es el nivel de equilibrio.

Generalmente, un valor de CAPE ≥ 1000 J kg−1 es considerado como un fuerte indi-

cador de alta probabilidad de tormenta severas [63]. En la tabla 1.3 se resumen los valores

crıticos del ındice.5 Level of Free Convection (LFC) es el nivel en el que una masa de aire saturado se vuelve mas calido

que el aire circundante y comienza a elevarse libremente. Esto ocurre mas facilmente en un ambiente

condicionalmente inestable [129].

Page 20: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 12

Figura: 1.6: Determinacion del nivel de conveccion libre, nivel de equilibrio y areas de energıa

negativa y positiva (Adaptado de [48])

Tabla: 1.3: Valores de CAPE que indican la probabilidad de formacion de tormenta

CAPE Potencial de Tormenta

< 300 Potencial pequeno o no convectivo.

300 a 1000 Potencial convectivo debil.

1000 a 2500 Potencial convectivo moderado.

> 2500 Potencial convectivo fuerte.

1.2.3.4. Inhibicion Convectiva

La inhibicion convectiva (o CIN de Convective Inhibition) [31] se determina usando el

mismo proceso usado para calcular CAPE. Se trata de una medida de estabilidad de la

Page 21: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 13

atmosfera y define el empuje de una parcela de aire integrando verticalmente el area nega-

tiva (figura 1.6). Es un buen indicador de estabilidad general y de tendencia de conveccion

al ser menos vigoroso con valores altos .

El CIN es la energıa que necesita la parcela para ascender hasta el nivel de conveccion

libre y ası poder desarrollar conveccion. Este ındice describe el factor de limitacion que es

capaz de prevenir la conveccion a pesar de la existencia de valores altos de CAPE [118].

CIN =

∫ LFC

SFC(Tvp − Tva)Rd d ln(p) (1.3)

Donde:

Tvp Temperatura virtual de la parcela.

Tva Temperatura virtual del ambiente.

Rd Constante de gas para aire seco.

p Presion.

LFC Nivel de libre conveccion.

SFC Superficie.

Valores altos de CIN indican inhibicion de los desarrollos convectivos (tabla 1.4), pero

en algunas ocasiones puede ser util para la focalizacion y aumento de la conveccion por

efecto disparo [35].

Tabla: 1.4: Valores de CIN que indican la probabilidad de formacion de tormenta

CIN Potencial de Tormenta

< 100 Inestabilidad potencial.

100 to 200 Marginalmente estable.

200 to 300 Moderadamente estable.

> 400 Muy estable.

Page 22: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 14

1.2.3.5. K-Index

K-Index (KI) [58] fue desarrollado para evaluar el potencial de tormentas severas. Este

ındice se determina utilizando una simple formula que incorpora temperatura y punto de

rocıo en diferentes niveles de la atmosfera.

Se trata de una combinacion del gradiente vertical de temperatura (lapse rate6), la

diferencia de temperatura entre 850 mb 500 mb, el contenido de humedad de niveles bajos

(temperatura de punto de rocıo en 850 mb) y la humedad en capas profundas aproximado

por la diferencia entre temperatura y temperatura de punto de rocıo en 700 mb.

KI = (T850–T500) + TD850–(T700–TD700) (1.4)

Donde:

T850 Temperatura en 850 mb.

T500 Temperatura en 500 mb.

TD700 Temperatura de rocıo en 700 mb.

TD850 Temperatura de rocıo en 850 mb.

Cuando el valor de KI es mayor o igual a 30 ◦C es de esperar la ocurrencia de tormentas

severas (tabla 1.5).

6 Lapse Rate: Es la velocidad de cambio de una variable atmosferica, por lo general la temperatura con

respecto a la altura. Un gradiente inclinado implica una rapida disminucion de la temperatura con respecto

a la altura. Es un signo de inestabilidad [130].

Page 23: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 15

Tabla: 1.5: Valores de K-Index que indican la probabilidad de formacion de tormenta

KI Potencial de Tormenta

0 a 15 0 %

18 a 19 20 % Improbable.

20 a 25 35 % tormentas aisladas.

26 a 29 50 % tormentas muy dispersas.

30 a 35 85 % de ocurrencia de tormentas.

> 100 % de ocurrencia de tormentas.

1.2.3.6. Total Totals

El ındice Total Totals (TT) [100] se define como la suma de otros dos ındices que son:

Vertical Totals (VT) y Cross Totals (CT). Fue ideado como primera aproximacion para

determinar la ubicacion de un area con probabilidad de tiempo severo [48].

V T = T850 − T500 (1.5)

CT = Td850 − T500 (1.6)

TT = V T + CT (1.7)

Tabla: 1.6: Valores de Total-Totals que indican la probabilidad de formacion de tormenta

TT Potencial de Tormenta

45 a 50 Probabilidad de tormentas.

50 a 55 Mayor probabilidad de tormentas, posiblemente severas.

> 55 Tormentas severas.

El VT representa la estabilidad estatica o el lapse rate entre 850 y 500 mb. EL CT

incluye la temperatura del punto de rocıo en 850 mb (Td850). Como resultado, TT repre-

senta tanto la estabilidad estatica como la humedad en 850 mb, pero es un ındice poco

Page 24: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 16

representativo para situaciones en las que la humedad de capas bajas esta por debajo de

los 850 mb [12]. En la tabla 1.6 pueden observarse los valores crıticos del ındice.

1.2.3.7. SWEAT Index

El SWEAT Index (o Severe Weather Advisory Trend) [100] [24] surge como una he-

rramienta de pronostico operativo para predecir zonas con potencial para el desarrollo de

conveccion [48]. Evalua las estructuras termodinamicas y de viento de las capas entre 850

a 500 mb con el proposito de medir el potencial de tormentas severas.

SWEAT = 12Td850 + 20(TT − 49) + 2 f8 + f5 + 125 (S + 0,2) (1.8)

Donde:

T850 Temperatura en 850 mb.

TT Indice Total Totals (ecuacion 1.7).

f8 Velocidad del viento en 850 mb.

f5 Velocidad del viento en 500 mb.

S Seno de la velocidad del viento en 500 mb menos en 850 mb. S = sin(ws500−ws850).

El ultimo termino de la ecuacion 1.8 es igualado a cero si no se cumple cualquiera de

las condiciones siguientes:

1. La direccion del viento en 850 mb esta en el rango de 130 a 250 grados.

2. La direccion del viento en 500 mb esta en el rango de 210 a 310 grados.

3. La diferencia en las direcciones de viento son positivas.

4. La velocidad del viento tanto en 850 como en 500 mb son menores a 15 nudos.

La inclusion del termino de cortante (o wind shear) y los valores mınimos de estabilidad

y velocidad del viento pretenden poder discriminar entre tormentas debiles de muy fuertes.

Ademas, el ındice fue disenado unicamente como un indicador del potencial de desarrollo

de tiempo severo, ya que es necesario un mecanismo disparador para que el aire ascienda

y desarrollar potencial de tormentas [48]. Fuertes tormentas pueden presentar valores de

Page 25: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 17

SWEAT entre 250 y 300 si hay un fuerte empuje (o lifting) presente [5]. En la tabla 1.7

se muestran los valores crıticos del ındice.

Tabla: 1.7: Valores de SWEAT index que indican la probabilidad de formacion de tormenta

SWEAT Potencial de Tormenta

> 272 Estable. Baja probabilidad de tormentas.

273 a 299 Riesgo bajo. Tormentas aisladas.

300 a 400 Riesgo moderado. Aproximan a los lımites severos.

401 a 600 Riesgo elevado. Algunas tormentas electricas severas.

601 a 800 Riesgo alto. Tormentas severas.

> 800 Fuertes vientos, pero no es favorable para tiempo severo.

1.2.3.8. Altura de la Isoterma de cero grados

El nivel de congelacion es el nivel mas bajo en un sondeo en el cual se indica una

temperatura de 0 ◦C (isoterma de ◦C). La altura de la isoterma de cero grados indica en

que elevacion comienza el proceso de cristalizacion ya que el momento mas importante en

el desarrollo de la nube convectiva es la iniciacion de la formacion de hielo de la nube [20].

Cuando las temperaturas descienden bajo cero en los niveles inferiores se favorece la

formacion de granizo, porque allı las temperaturas se encuentran por debajo del punto

de congelacion en una porcion mas profunda de la tormenta. Esto significa que es mas

probable que se forme granizo en tormentas con niveles de congelacion por debajo de 3650

m. Cuanto mayor sea la CAPE, mayor sera la velocidad de las corrientes ascendentes y el

potencial de produccion de granizo, tanto en tamano como en cantidad [141].

1.2.3.9. Lapse Rate

El Lapse Rate (LR) [141] es un indicador de estabilidad de la atmosfera, que es deter-

minada a partir de la comparacion de la temperatura de una parcela de aire ascendente

con la temperatura del aire alrededor de el al mismo nivel. En este trabajo se utilizan LR

de capas bajas de 0 a 3 km y capas medias de 0 a 6 km.

A diferencia de los ındices vistos anteriormente no existe rangos estandarizados de

Page 26: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 18

peligrosidad para estos ındices. No obstante en algunos trabajos [34] se muestra que valores

entre 6.5 y 8.5 ◦C/km son indicadores de tormentas severas y granizo.

1.2.3.10. Altura del LCL

La humedad relativa en los lımites de las capas altas estan relacionada con el desarrollo

de tormentas severas y super celdas y este comportamiento puede ser representado a traves

del Lifted Condensation Level [34]. La altura del LCL es un buen discriminador para situa-

ciones de tormentas con granizo y aun mas para el desarrollo de super celdas y tornados

[116], [34]. El comportamiento de esta variable muestra que valores de condensacion se

dan a menor altura en areas de desarrollo convectivo severo.

1.2.3.11. Cortante de viento vertical

La organizacion de la conveccion profunda puede afectarse por la cortante vertical

del viento, el CAPE, la humedad relativa y la distribucion vertical de esas variables, entre

otras cosas. Un parametro que funciona correctamente para cuantificar la cortante vertical

y el tipo de tormenta que se observara es la magnitud del vector diferencial de viento 0−6

km, que casualmente se lo denomina cortante 0− 6 km [64].

1.2.3.12. Deep Convective Index

El ındice de conveccion profunda (o DCI Deep Convective Index ) intenta combinar las

propiedades de temperatura potencial equivalente en 850 mb con la inestabilidad.

DCI = T850 + Td850 − LIsfc−500 (1.9)

Es medido en grados C, donde LI es el valor del ındice Lifted desde superficie a 500 mb.

Los valores crıticos de DCI como indicador de tormentas severas son superiores a 30◦C

[66].

1.2.4. Radares Meteorologicos

La palabra RADAR es el acronimo de Radio Detection And Ranging [119]. Original-

mente los radares fueron construidos con propositos militares durante la Segunda Guerra

Mundial. La tecnologıa radar permitıa al personal militar observar el movimiento de las

Page 27: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 19

aeronaves y los buques enemigos, pero durante esas tareas se descubrio que en las panta-

llas del radar tambien aparecıa la precipitacion. Cuando la guerra finalizo, la tecnologıa

de radar habıa avanzado considerablemente y la comunidad cientıfica comenzo a usar los

equipos excedentes para estudiar y observar los fenomenos meteorologicos [9].

El radar meteorologico funciona emitiendo a la atmosfera pulsos de energıa electro-

magnetica en el rango de frecuencias de las microondas (figura 1.7) y generalmente en las

longitudes de onda de 3 cm (banda X), 5 cm (banda C) y 10 cm (banda S) [119]. Cuando

dichos pulsos alcanzan un objeto, parte de esa energıa electromagnetica retorna hacia el

radar mientras que otra parte es absorbida por el objeto y la energıa restante se dispersa

en distintas direcciones.

Figura: 1.7: Frecuencias de RADAR y el espectro electromagnetico (adaptado de [133]).

Un radar basicamente consta de cuatro principales componentes como se observa en el

diagrama de la figura 1.8. Estos son: el transmisor para generar la senal de alta frecuencia,

una antena para emitir la senal hacia el espacio y para recibir el eco devuelto por el objeto

alcanzado, un receptor para amplificar la senal y lograr que sea lo suficientemente fuerte

para que sea util y por ultimo un sistema de visualizacion que permita a las personas

observar lo que el radar ha detectado [119].

El radar emite pulsos mientras la antena gira 360 grados en forma horizontal o acimut.

Estos giros (o revoluciones) comienzan con una elevacion cercana a los 0 grados y luego

Page 28: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 20

aumenta el angulo de elevacion [9]. Segun la ingenierıa del radar estos pueden alcanzar

angulos de hasta 90 grados de elevacion o realizar giros completos de 180 grados. Existen

otros, como es el caso de los NEXTRAD (Next Generation Weather Radar), que solo

alcanzan los 45 grados de elevacion. La estrategia de escaneo (o barrido) determinara las

elevaciones y angulos a observar, un barrido completo generalmente es realizado con unas

10 o 12 elevaciones y alcanza una elevacion de 20 grados. Esta tarea de escaneo puede

durar como mınimo cinco minutos [69].

Figura: 1.8: Diagrama de de los componentes basicos de un radar (Adaptado de [119])

La reflectividad radar (Z) o factor de reflectividad Z (ecuacion 1.10) es una medida de

la capacidad de los blancos de interceptar y devolver la energıa de un eco [119]. El total

de energıa que retorna al radar suele ser mucho menor que la del pulso inicial emitido. El

receptor amplifica la senal devuelta y utiliza su amplitud para el calculo de Z [9]. Se asume

el criterio de dispersion de Rayleigh, que considera que las partıculas (gotas de agua) son

significativamente mas pequenas que la longitud de onda con la cual se explora [42].

Page 29: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 21

Z =n∑i=1

D6n (1.10)

Z se calcula a partir de la suma de la sexta potencia de los diametros (D) de todos

los blancos que dispersan la energıa transmitida en la unidad de volumen muestreada. La

relacion con la sexta potencia indica (como se observa en la figura 1.9) que las partıculas

grandes predominan en el valor Z calculado, es decir, la presencia de varias gotas grandes

producen el mismo valor de reflectividad que cientos de gotas pequenas [9].

Figura: 1.9: Muestras volumetricas con valores de reflectividad radar Z equivalentes (Adaptado de

[9])

Dado que el tamano de las gotas de lluvia suele medirse en milımetros y el volumen

normalmente se expresa en metros cubicos, reflectividad del radar se expresa en mm6/m3

[119]. Esta medida tiene ordenes de magnitud elevados y por este motivo para aplicaciones

meteorologicas se calcula un factor de reflectividad Z equivalente (ecuacion 1.11) medida

en decibelios7 (dB). Generalmente la precipitacion produce valores de Z mayores a 60 dBZ

para regiones con lluvias fuertes y granizo [42].

dBZ = 10 log Z (1.11)

7 Decibel expresa una razon entre cantidades y no una cantidad. Es decir, permite expresar cuantas

veces mas o cuantas veces menos, pero no la cantidad exacta. Es una expresion logarıtmica que permite

obtener una unidad de medida relativa [17], [61].

Page 30: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 22

Los radares emiten y reciben radiacion electromagnetica (EM), que se compone de

campos electricos y magneticos que oscilan con la frecuencia de radiacion [119]. La energıa

se propaga a traves de la atmosfera mediante una onda EM con el campo electrico del

vector oscilante en el plano horizontal paralelo al suelo. Por lo tanto, se dice que estas ondas

estan polarizadas horizontalmente [86]. Estos son llamados radares de simple polarizacion

y no permiten obtener variables polarimetricas.

Figura: 1.10: Esquema que ilustra la propagacion simultanea de ondas electromagneticas, polari-

zacion horizontal (azul) y polarizacion vertical (naranja). El plano realizado por los

ejes rotulados H y V se denominan el ”plano de polarizacion 2es normal a la direccion

de propagacion de las ondas (Adaptado de [86])

Por otro lado, existen radares de doble polarizacion (o polarimetricos a secas) [86]

donde la radiacion emitida tiene una orientacion horizontal y vertical simultaneamente,

como se observa en la figura 1.10. Esta caracterıstica permite obtener variables de tipo

polarimetricas que facilitan la observacion de objetos donde es posible recoger informacion

sobre el tamano, forma y orientacion de objetivos dentro del volumen de muestreo del

radar[119].

Page 31: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 23

Figura: 1.11: Esquema del calculo Composite Reflectivity (Adeptado de [8])

En este trabajo no se utilizaron variables polarimetricas sino que solo se incluyo con

reflectividad (dBZ) diaria del producto Composite Reflectivity [8] tambien conocido como

Column Maximum o simplemente CMAX. Este producto es calculado a partir del stack

completo de volumenes para un dıa obteniendose una nueva imagen que tiene solo los

maximos del stack (figura 1.11). Este producto es de suma utilidad debido a que permite

aislar areas con gran actividad de tormenta.

1.2.5. Conceptos de Data Mining

Data Mining (DM) es la tarea de descubrir patrones interesantes de grandes reposito-

rios de datos, donde las alternativas de almacenamiento son muy heterogeneas abarcando

bases de datos, data warehouses u otros repositorios de informacion. Se trata de un cam-

po de estudio interdisciplinario, que surge de areas como estadıstica, machine learning,

visualizacion de datos, recuperacion de informacion, bases de datos y computacion de alto

desempeno (o HPC - High-Performance Computing). Existen otras areas de las ciencias

de la computacion que tambien contribuyen al DM como redes neuronales, reconocimiento

de patrones, analisis espacial de datos, procesamiento de senales y muchos otros campos

de aplicaciones tales como negocios, economıa y bioinformatica [67]. El problema basico

que aborda el DM es poder trasformar datos de bajo nivel en otras formas que pueden ser

mas compactas, abstractas y mas utiles.

Mas precisamente, podemos definir al DM como un proceso de descubrimiento de patro-

nes potencialmente utiles, interesantes y previamente desconocidos de una gran coleccion

Page 32: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 24

de datos [126]. Ademas, se lo conoce popularmente como Knowlidge Discovery in Data-

bases (KDD), que refiere a la extraccion no trivial de informacion implıcita, previamente

desconocida y potencialmente util en bases de datos [47]. Cabe destacar, que aunque los

conceptos de DM y KDD son tratados como sinonimos, la minerıa de datos forma parte

del proceso de descubrimiento de conocimiento (Figura 1.12).

Figura: 1.12: Proceso de descubrimiento de conocimiento

El proceso de KDD [47] esta compuesto de unos nueve pasos que van desde la com-

prension del problema hasta la utilizacion de los patrones y conocimientos encontrados.

Este proceso iterativo consiste de los siguientes pasos [94]:

Entender el dominio de aplicacion: En este paso se presta especial interes en entender el

dominio de aplicacion. ¿Cual es el problema a resolver? ¿Cuales son los objetivos?

Las personas que estan a cargo de un proyecto KDD necesitan entender y definir los

objetivos del usuario final y el medio ambiente en el que el proceso de descubrimiento

de conocimiento se llevara a cabo (incluyendo conocimiento previo que sea relevante).

Seleccionar un conjunto de datos: Esta es la etapa de seleccion e integracion de diferentes

fuentes de datos adicionales que pueden ser requeridas en el proceso.

Preprocesamiento y limpieza de datos: Se trata de mejorar la fiabilidad de los datos. Aquı se

Page 33: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 25

incluye limpieza de datos, tratamiento de datos faltantes y la eliminacion de ruido

o valores atıpicos.

Transformacion: tambien conocida como etapa de consolidacion [126], esta es una fase en

que los datos son transformados de forma apropiada para el procesos de mining.

Escoger la tarea de mining: Es un proceso esencial donde se aplican metodos inteligentes

para extraccion de patrones a partir de los datos. DM comunmente involucra cuatro

clases de tareas, estas son: clustering, clasificacion, regresion y reglas de asociacion.

Aquı se selecciona el metodo mas adecuado de acuerdo a los datos disponibles y los

objetivos del analisis.

Seleccion del algoritmo de mining a utilizar: Ya tenemos la estrategia, ahora decidimos la

tactica a utilizar. Esta etapa incluye seleccionar el metodo especıfico para ser usado

en la busqueda de patrones. Se debe decidir compensando cuestiones de precision y

capacidad de explicar del algoritmo seleccionado.

Utilizacion del algoritmo de data mining: Finalmente se realiza la implementacion del al-

goritmo de DM. En este paso puede ser necesario emplear el algoritmo varias veces

hasta que los resultados sean satisfactorios, esto sera posible a traves del ajuste de

los parametros del algoritmo utilizado.

Evaluacion: Se evaluan e interpretan los patrones obtenidos para determinar si se llego a

un nuevo conocimiento. Los patrones descubiertos tienen que poder ser validados

utilizando nuevos datos con algun grado de certidumbre. Seran requeridas medidas

cuantitativas para evaluar los patrones y determinar si un resultado es mejor que

otro.

Utilizacion del conocimiento: El desafıo de esta etapa es superar las condiciones de labo-

ratorio. Pasar de los datos seleccionados para ajustar el modelo al mundo real y se

debera verificar potenciales conflictos con conocimiento previos.

La minerıa de datos es un tema candente de las ciencias de la computacion de los

ultimos quince anos y esta tiene una extensiva aplicacion en varios campos. DM trae un

monton de beneficios para el area de negocios, sociedad, gobiernos y las personas. Sin

Page 34: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 26

embargo, la privacidad, seguridad y el mal uso de la informacion son un gran problema si

no se trata correctamente [126].

1.2.6. Conceptos de Big data

En la actualidad la poblacion mundial excede los 7.400 millones de personas [7] y mas

de 3.900 millones de estas personas tienen acceso a Internet. Aun mas, 5.000 millones de

individuos utilizan telefonos celulares. Un resultado de esta revolucion tecnologica es que

millones de personas estan generando una inmensa cantidad de datos a traves de estos

dispositivos. Las redes de sensores contribuyen a este crecimiento generando una gran

cantidad de datos estructurados y no estructurados [85].

Big Data es el termino que se utiliza para conjuntos de datos masivos con estructuras

variadas y complejas, donde el almacenamiento, el analisis y la visualizacion es un problema

difıcil de manejar[125].

Se caracteriza por tres aspectos: (a) los datos son numerosos, (b) los datos no pueden ser

categorizados en las bases de datos relacionales habituales, y (c) los datos son generados,

capturados y procesados de manera muy rapida. Big Data es prometedor para aplicaciones

de negocios y esta aumentando rapidamente como un segmento de la industria de IT.

Se ha generado un interes significativo en varios campos, incluyendo la fabricacion de

maquinas para el cuidado de la salud, transacciones bancarias, social media y aplicaciones

de teledeteccion.

Tradicionalmente, los datos son almacenados en un formato altamente estructurado

para maximizar su contenido de informacion. Sin embargo, los volumenes de datos actuales

son impulsados por ambos datos no estructurados y semi-estructuradas.

Esta asombrosa tasa de crecimiento en la captura de datos genera numerosos proble-

mas y retos crıticos, las tres areas tematicas fundamentales que deben abordarse en el

tratamiento de grandes volumenes de datos: los problemas de almacenamiento, las cues-

tiones de gestion, y problemas de procesamiento. Cada uno de ellos representa un gran

conjunto de problemas tecnicos de investigacion por derecho propio [82].

El concepto de Big Data tiene diferentes dimensiones y no se refiere solo a la gran

cantidad de datos, sino tambien a la heterogeneidad de las fuentes de datos y de la ve-

locidad en el analisis de los datos. Un modelo ampliamente extendido (figura 1.13) para

caracterizar los problemas que ataca el Big Data es el de las tres V [101], [78]. Sobre el eje

Page 35: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 27

Volumen, se mueven los escenarios actuales que implican soluciones tecnologicas que se

ocupan de los datos en el orden de pebibyte (250 bytes), exbibyte (260 bytes) o mas alto.

A lo largo del eje Velocidad es posible distinguir diferentes tipos de analisis que van desde

analisis fuera de lınea donde no ha restricciones en el tiempo de respuesta hasta streaming

con stream mining y respuestas en tiempo real. Y en el eje Variedad existen diferentes

formatos entre los que se destacan: los formatos estructurados (por ejemplo bases de datos

relacionales), formatos semi-estructurados (XML basados en gramatica, basados en JSON,

etc.) y formatos no estructurados (datos que no estan expresados en una representacion

estandar).

Figura: 1.13: Tres dimensiones clasicas del Big Data (Adaptado de [125])

Estos conceptos se fueron ampliando en la literatura y algunos trabajos incrementa-

ron el numero de Vs [37]. A continuacion se presenta una lista no exhaustiva de estas

incorporaciones:

Variabilidad: se mide cuan impredecible es el flujo y los tipos de datos. Es decir, los

cambios en la estructura de los datos y como los usuarios pretende interpretar esos

datos.

Veracidad: el sesgo, el ruido, la anormalidad y la fiabilidad de los conjuntos de datos.

Volatilidad: cuanto tiempo los datos estan disponibles y si deben ser almacenados o

no.

Visualizacion: Esta es la parte mas difıcil de grandes volumenes de datos. Significa

hacer que una vasta cantidad de datos sea comprensibles, en una forma facil de leer

Page 36: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 28

y entender [146].

Valor: las ganancias en la nueva informacion utilizando tecnologıas de Big Data. Le

da una ventaja a la organizacion, ya que adquiere la capacidad de tomar decisiones,

contestando a preguntas que anteriormente se consideraban fuera de su alcance [46].

Cada una de las dimensiones realizan operaciones tradicionales en administracion de

repositorios de datos mas complejos. Por ende, si el volumen incrementa, el almacena-

miento se vuelve todo un desafıo tanto como procesar los datos por medio de herramien-

tas de analisis. Los sistemas de almacenamiento como los algoritmos de analytics deben

ser escalables en este escenario. Ademas, la dimension variedad dificulta sobremanera el

almacenamiento de datos y el analisis a traves de la integracion de datos con diferentes

estructuras [28].

Por otro lado, las primeras aplicaciones de Big Data han estado relacionadas con la

meteorologıa y los pronosticos. La necesidad de obtener una mejor comprension del tiempo

y predecir con mayor precision a partir de observaciones antiguas sobre la direccion del

viento, formaciones de nubes, la presion barometrica y los intentos mas recientes para

acumular datos de satelites, sensores y otras fuentes vuelven a la prediccion del tiempo un

gran desafıo y es todo un reto computacional desde siempre [65]. Este es un problema de

Big Data y requiere resolver costosos calculos en tiempo real e integrar grandes cantidades

de datos observados para la asimilacion en los modelos no lineales y en estructuras de

grillas de enorme cantidad de celdas [68].

1.3. Antecedentes

El pronostico de granizo es una tarea muy compleja para los meteorologos debido

a grandes incertidumbres tanto en la prevision como en los procesos de observacion. A

diferencia de las condiciones meteorologicas mas tradicionales tales como la temperatura

y las precipitaciones, el granizo difıcil de medir con instrumentos automatizados. Existen

diferentes trabajos que estudian con variados enfoques las problematica de pronosticar

ocurrencia de granizo.

En el caso de [92] utiliza ındices de estabilidad obtenidos a traves de radiosondas y

ademas otros datos como presion atmosferica, temperatura de rocıo, entre otras medicio-

Page 37: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

1. Introduccion 29

nes; que son las entradas de algoritmos de aprendizaje automatico como regresion logıstica

para ajustar modelos de pronosticos.

Otro trabajo como [81] utiliza las salidas GFS para pronosticar granizo, aunque en

este caso no se recurre a tecnicas de aprendizaje automatico, sino que realiza un analisis

estadıstico sobre un conjunto de variables que son procesadas para calcular ındices de

inestabilidad. Existen otras iniciativas como [27], que utilizan datos de reanalisis de NCEP

para simular a traves de datos modelados y corregidos como se distribuye el granizo a nivel

global.

Se revisaron trabajos que a partir de tecnicas clasicas de machine learning y la utili-

zacion de informacion de RADAR y/o pronosticos numericos han ajustado modelos que

permiten determinar areas convectivas, modelar precipitacion o tormentas severas con

granizo [50], [51], [52]. A traves de tecnicas clasicas como k-means y arboles de decision

y utilizando datos de RADAR identifican areas de desarrollo convectivo en tiempo real

[50]. En [53], se utilizan las salidas de modelos numericos de pronosticos del tiempo de

alta resolucion y se integran con modelos de aprendizaje automatico para poder realizar

predicciones de areas con potencial para precipitar granizo en perıodos cortos de tiempo.

En este trabajo se utilizan algoritmos de clasificacion basados en metodos de ensambles

como Random Forest, Riddge Logistic Regresion, entre otros. Y utilizan como variables

de entrada ındices atmosfericos (CAPE, CIN, LCL, Lapse Rate, 0 - 6 Shear) y variables

simuladas de RADAR.

Page 38: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. MATERIALES Y METODOS

En este capıtulo quedan plasmados las principales actividades realizadas para confor-

mar el conjunto de datos. Aquı se incorporan las descripciones detalladas de cada una de

las fuentes de datos utilizadas en trabajo y como estas fueron relevadas. Ademas se realiza

una somera descripcion del area de estudio.

2.1. Area de Estudio

El area de estudio es la region cubierta por la Red de Radares de INTA [76] (Figura

2.1), compuesta por dos radares polarimetricos y uno sin polarimetrıa. El perıodo de

estudio esta comprendido de enero a diciembre de 2015 donde en toda la zona para el

ano estudiado se registraron un total de NN eventos de granizo que fueron relevados de

diferentes fuentes.

Figura: 2.1: Area cubierta por la Red de Radares INTA

30

Page 39: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 31

2.2. Conjunto de Datos

En el presente trabajo se utilizaron datos de diversas fuentes y de naturaleza diferente.

Por un lado, se trabajo con datos modelados provenientes de los pronosticos GFS. Tambien

se utilizaron datos tomados de sensores remotos como es el caso de los originados en la red

de radares de INTA. Los datos de campo fueron obtenidos de diferentes proveedores, como

por ejemplo de empresas aseguradoras de riesgo de granizo. Estas organizaciones tienen

una gran presencia en zonas rurales con gran cobertura del area de estudio de este trabajo.

Por otro lado, se recolecto un volumen considerable de puntos en zonas urbanas a traves

de denuncias o publicaciones en sitios de microblogging como Twitter. Y por ultimo, se

recolectaron eventos del sitio Alert.AR del SMN.

Administrador

de

Tareas

DB

Gestión

Proceso

GFS

Proceso

RADAR

Proceso

de

extracción

Gestor de Logs

Cola de Datos Primarios

Cola de extracción

Figura: 2.2: Arquitectura del sistema de procesamiento

Para coordinar todas las tareas de pre procesamiento y generacion de datasets para

la etapa de modelado, se desarrollaron diferentes modulos de procesamientos integrados.

Para la gestion de los trabajos realizados por cada modulo se utilizaron dos colas de

Page 40: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 32

mensajes AMQP (implementadas con rabbitMQ [150]). Se eligio esta opcion (Figura 2.2)

de implementacion ya que facilito sobremanera poder escalar horizontalmente agregando

modulos en diferentes equipos disponibles.

El modulo GFS es el encargado de preprocesar las grillas GRIB/GRIdded Binary

[38] para poder calcular los ındices atmosfericos y realizar las transformaciones espaciales

correspondientes para que coincidan con los datos de Radar. Ademas realiza los recortes

correspondientes para delimitar el area de interes.

En el modulo de RADAR lo que se realiza es el calculo del producto CMAX para el dıa

del evento. Esto consiste en tomar un dıa completo de imagenes para cada radar (son 144

barridos diarios, uno cada diez minutos) y para las dos primeras elevaciones integrar los

valores obteniendo la mayor reflectividad durante el dıa. Esto va a determinar los lugares

por donde pasaron las nubes con mayor probabilidad de haber alcanzado condiciones de

conveccion.

Por ultimo, el modulo de extraccion que permite calcular para cada celda de GFS la

densidad de pıxeles de radar con valores de dBZ superiores a un umbral (en este caso

50 dBZ). Para esto se utiliza un ajuste no parametrico para cada celda GFS utilizando

Densidad Kernel [132] y calculando la integral del area bajo la curva para valores de dBZ

mayores o iguales al umbral [21].

2.2.1. Datos de GFS

Las salidas del modelo de pronostico GFS estan disponibles en el servidor del National

Oceanic and Atmospheric Administration (NOAA) National Operational Model Archive &

Distribution System (NOMADS) para descarga [15], [104]. De este repositorio se obtuvo

un conjunto reducido de 32 variables pronosticadas que son las requeridas para el calculo

de los ındices de inestabilidad atmosferica (tabla 2.1). Ademas, se obtuvieron otros tres

ındices pronosticados que son provistos tambien por GFS.

Page 41: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 33

Tabla: 2.1: Variables e ındices pronosticados por GFS que se utilizan en este trabajo. Las superficies

isobaricas estan medidas en hectopascales (hPa).

Variables Superficie Isobarica [hPa] Superficie

300 500 700 850 925

Altura Geopotencial [gpm] x x x x x

Humedad Relativa [ %] x x x x x

Temperatura [K] x x x x x

u-componente del viento [m/s] x x x x x

v-componente del viento [m/s] x x x x x

Velocidad vertical (presion) [Pa/s] x x x x x

Lifted Index [K] x

Energıa potencial convectiva disponible [J/kg] x

Inhibicion convectiva [J/kg] x

En el trabajo se utilizaron tres pronosticos para determinar las condiciones atmosfericas

a las 12 hs UTC de un dıa. Las horas previas utilizadas son: 12, 18 y 24 de las corridas 00,

18 y 12 respectivamente (tabla 2.2). En la figura 2.3 se puede ver de manera esquematica

como se trabajo con los pronosticos para la hora de referencia de un dıa. Por lo tanto, el

conjunto de datos provenientes de GFS se compone de 84 variables pronosticadas para las

12z. Esto surge de las 24 variables de cada uno de los tres pronosticos previos.

Tabla: 2.2: Corridas y pronosticos GFS utilizados en el trabajo

Dıa Corrida Pronostico

12 18 24

Ayer 12 x

18 x

Hoy 00 x

Page 42: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 34

Los datos del pronostico GFS son provistos en grillas regulares de 0.25 grados en for-

mato GRIB/GRIdded Binary [38]. Estos archivos disponibles vıa web son descargados

utilizando un programa de procesamiento por lotes con un conjunto de parametros que

permiten la descarga unicamente de las variables de interes, en las superficies isobaricas y

las fechas solicitadas. En relacion a la disponibilidad temporal de los archivos en el reposi-

torio cabe mencionar que los mismos se encuentran publicados en una ventana deslizante

de 14 dıas. Es decir, NOMADS pone a disposicion los ultimos catorce dıas para descargar

luego los pronosticos se pierden.

Figura: 2.3: Esquema de las corridas y pronosticos GFS utilizados para la hora del pronostico de

referencia de la 12z

Una vez que los datos fueron descargados, se procedio a calcular otras variables deri-

vadas y que son necesarias para computar los ındices. Estas fueron calculadas combinando

variables en similares superficies isobaricas (por ejemplo: 300 hPa, 700 hPa y ası para cada

una). Las variables calculadas fueron a) Temperatura del punto de rocıo [77], b) Direccion

del viento [87] y c) Velocidad del viento [87]. En la tabla 2.3 se listan las variables calcula-

das, las diferentes entradas utilizadas para su calculo y la respectiva formula que permite

obtenerla.

Page 43: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 35

Tabla: 2.3: Variables que se calcularon a partir de los datos de GFS para una misma superficie

isobarica.

Variable Variables de entrada Formula

Temperatura del punto de rocıo Temperatura (T ) 35 ∗ log( hr100) + T

Humedad Relativa (hr)

Direccion del viento u-componente del viento (uv) 270− (arctan (vc, uc) ∗ π180)

v-componente del viento (vc)

Velocidad del viento u-componente del viento√uc2 + vc2

v-componente del viento

Para la obtencion de los ındices atmosfericos (vistos en el Capitulo 1) que no son pro-

vistos por GFS se desarrollaron un conjunto de modulos de procesamiento que permitieron

leer los datos en formatos GRIB/GRIdded Binary [38], procesarlos y guardarlos en Geo-

TIFF [120] para facilitar su manejo y reducir el espacio en disco. La implementacion de

los modulos fue realizada en lenguaje Python 2.7 1 y se utilizo la librerıa GDAL/OGR

[55] para poder acceder a los datos y traducir los formatos. La implementacion consta de

cuatro modulos:

GFSMap: Permite mapear cada una de las variables GFS en una estructura de

datos basadas en Numpy Array [145]. Y ademas, calcula las variables atmosfericas

que se calculan con GFS (tabla 2.3).

GFSIndex: Implementa el calculo de todos los ındices atmosfericos.

GFSOutput: Genera la salida en GeoTiff para todas las variables procesadas y los

ındices calculados.

GFSRedim: Realiza una redimension de los datos GFS, esto implica: recortar el

GRIB/GRIdded al area de estudio, realizar una transformacion de la imagen y se

reproyecta a coordenadas geograficas (WGS84).

1 https://www.python.org/

Page 44: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 36

Tambien fue necesario implementar el calculo de la parcela que asciende por un procesos

adiabatico. Para esto se tradujo a Python el desarrollo de [122] que implementa el metodo

de la parcela utilizando un proceso reversible [89]. Ası fue posible, por ejemplo, calcular

la temperatura de la parcela que asciende desde 850 hPa hasta 500 hPa para calcular el

ındice Showalter.

Tabla: 2.4: Resumen de las principales caracterısticas del conjunto de datos de GFS.

Caracterıstica Detalle

Perıodo 2015-01-26 a 2016-07-31

# de archivos 19019

Tamano (TB) 1.5

Archivos por dıa 40 (Aprox. 2 GB)

# de archivos faltantes 496

La base de datos completa de GFS que se armo abarca el perıodo desde Enero de 2015

hasta Julio de 2016, aunque con varios dıas de datos faltantes. En promedio un archivo

con todas las 35 variables ocupa en disco 50 MB en promedio. En la Tabla 2.4 se muestra

un resumen que caracteriza los datos GFS, allı puede observarse que el volumen total de

datos es de 1.5 TB y el tamano diario es 2 GB aproximadamente.

2.2.2. Datos de RADAR

Se utilizaron los datos de RADAR [76] que se generan sin polarimetrıa, unicamente

fueron incluidos los datos de reflectividad medidos en dBZ. A partir estos datos se cons-

truyo una variable objetivo utilizando umbrales [42] conocidos para estos datos que son

indicadores de conveccion con gran probabilidad de granizo.

Las tareas de preprocesamiento de estos datos consistieron en realizar una agregaciones

diarias de las dos primeras elevaciones (0.5◦ y 1.3◦) de un volumen de RADAR (Figura

2.4). Con los 144 archivos diarios (uno cada 10 minutos), se realizo un producto similar a

Composite Reflectivity (o CMAX) [8] pero que reune la maxima reflectividad diaria.

Page 45: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 37

Figura: 2.4: Detalle de las elevaciones utilizadas (izquierda), el stack de barridos diarios para las

dos elevaciones (centro) y la resolucion espacial de una imagen de RADAR, esa es la

representacion de una elevacion (derecha).

Los datos de radar y GFS tienen diferentes escalas temporales y espaciales. La tem-

poralidad se maneja haciendo una agregacion diaria donde se construye una imagen de

todo el dıa siguiendo y conservando los pıxeles de mayor reflectividad. Para lograr que

exista una coincidencia espacial se genera una medida resumen que analiza la distribucion

de pıxeles de RADAR dentro de una celda GFS. Ası para cada celda del pronostico glo-

bal se extraen los pıxeles con los valores de dBZ y se estima una funcion de densidad de

probabilidad utilizando el metodo de Densidad Kernel [132].

Por ultimo, se calcula la integral definida para los valores mayores o igual al umbral de

50 dBZ [8] y se obtiene ası la probabilidad acumulada a partir de ese valor. Inicialmente se

trabajo con valores mas bajos de reflectividad como umbral (30 dBZ) y se fue ajustando

empıricamente ese valor ya que se encontro que los valores mas bajos introducen ruido

y promueven la aparicion de falsos positivos. En la Figura 2.5 se muestra el detalle del

metodo, donde la funcion de densidad para una celda GFS con gran actividad de conveccion

aglutina una alta cantidad de valores con reflectividad superior al umbral. Para el ejemplo

la probabilidad de encontrar celdas mayores a 50 dBZ es del 0.503.

Para la realizacion de estos calculos se implemento un conjunto de scripts de procesa-

miento que recorren las celdas GFS y para cada una de estas hacen una extraccion de los

pıxeles de RADAR y el calculo de las probabilidades.

Page 46: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 38

Figura: 2.5: Detalle del metodo utilizado para la construccion de la variable objetivo. Para una

celda GFS con gran actividad convectiva (derecha) se estima una funcion de densidad

probabilıstica utilizando Densidad Kernel (izquierda).

A continuacion se describe en detalle cuales fueron los pasos para el preprocesamiento

de los datos de RADAR para convertir los volumenes de cada barrido en grillas carte-

sianas. Para esto se requirio la implementacion de un script Bash [115] que organiza el

procesamiento en cinco pasos con sus respectivos modulos:

1. Recuperacion de los volumenes desde el backup de RADAR. Este modulo recupe-

ra a partir de la fecha/hora y un valor delta que representa las horas previas y

posteriores de esa hora todos los volumenes necesarios para el calculo. Para esto se

implemento un programa Python que solo utiliza las librerıas estandares del lenguaje

[90].

2. Conversion de formato vol a cfRadial [39] que es una adptacion de netCDF [117].

Dado que los archivos de RADAR estan en un formato propietario de la aplicacion

Rainbow [56] (.vol) estos son convertidos a netCDF para facilitar el procesamiento.

Para esto se utilizo el comando RadxConvert de la librerıa Radx [40].

3. Conversion a grillas cartesianas. Los archivos de RADAR por defecto estan en coor-

denadas polares, en este paso son convertidos a coordenadas planas utilizando un

Page 47: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 39

proceso de grillado e interpolacion de los datos. Esta tarea, se realiza con un script

Python que utiliza la librerıa Py-ART [70].

4. Calculo de Composite Reflectivity (o CMAX). Este modulo integra las grillas de todo

el dıa y retorna una grilla con los valores maximos de dBZ. La implementacion fue

en Python utilizando la librerıa GDAL/OGR [55].

5. Extraccion de los valores de RADAR para cada celda GFS. Este proceso de extrac-

cion y calculo de probabilidades con el metodo de Densidad Kernel fue implementado

con Python y R. En R se hizo el calculo de densidades y la integral definida (utili-

zando el modulo sfsmisc [93]) desde el umbral de 50 dBZ hasta el valor maximo de

dBZ y con Python utilizando la librerıa GDAL/OGR se recorrio la grilla de GFS

formando un polıgono que representa la celda y a partir de ese vector se extraen los

pıxeles de RADAR como se mostro en la Figura 2.5.

Se procesaron un total de 429 fechas de los tres radares para el 2015 (Tabla 2.5), en

total unos 61776 archivos. Para cada radar y cada una de las fechas fue calculado el CMAX

como medida resumen de ese dıa y radar. El tamano resultante de ese procesamiento es

de 257 GB.

Tabla: 2.5: Resumen de los datos procesados de radar

Radar Cantidad de dıas Tamano (GB)

Anguil 132 61

Parana 152 106

Pergamino 145 90

Total 429 257

2.2.3. Datos de campo

El numero de personas que participan activamente en sitios de redes sociales continua

aumentando rapidamente. Twitter tiene hoy en dıa mas de 600 millones de usuarios y se

publican en promedio un total de 58 millones de tweets cada dıa [6]. La utilizacion de redes

sociales como insumo de aplicaciones colaborativas relacionadas con el clima, el control

Page 48: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 40

del transito o en tareas de concientizacion combinada con diferentes redes de sensores es

cada vez mas comun.

Se comenzara describiendo cual ha sido el metodo para ubicar espacialmente, deter-

minando la latitud y longitud, publicaciones realizadas en la red social Twitter [33] a

partir de la extraccion de nombre de entidades (o NER del ingles Named Entity Recog-

nition) correspondientes a ubicaciones. Si bien en esta red social existe informacion de

posicionamiento es provista por su API, esta no siempre es publicada por los usuarios.

Figura: 2.6: Distribucion de puntos provenientes de Twitter que fueron ubicados utilizando NER

Se ha implementado un framework (figura 2.7) para el acopio y procesamiento de

tweets que consta de varios modulos entre los que se incluyen la captura, que facilita la

obtencion de tweets realizando busquedas sobre la interfaz REST provista por Twitter y

filtrando por palabras claves que identifican al granizo. Y por otro lado, el modulo que

aplica tecnicas de NER con extraccion y posterior clasificacion de las entidades. Esas

entidades de ubicaciones encontradas son comparadas con las existentes en un gazzeteer

[61], [72] que es una lista de nombres geograficos junto con su ubicacion geografica y alguna

informacion adicional.

Para cada nombre de un lugar, ciudad, provincia, paıs, etc. que fue obtenido de Geo-

Page 49: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 41

names [138] se recuperan las coordenadas geograficas como latitud y longitud con datum

WGS842. Los puntos que se obtienen son validados con informacion obtenida de la red de

radares meteorologicos del Instituto Nacional de Tecnologıa Agropecuaria (INTA).

Figura: 2.7: Arquitectura del framework de procesamiento de gestion de tweets

Se implementaron dos bases de datos para almacenar diferentes componentes de este

problema. Por un lado, se trabajo con una base de tweets donde a partir del procesamiento

de la estructura de datos recuperada a traves de la API REST de Twitter se procede a

guardar en una base de datos relacional los datos de: autor, lugar y tweet. Los que se

van procesando se integran en otra base de datos que tiene capacidad de gestion de datos

georeferenciados.

Con este metodo de recoleccion de evidencia de eventos de granizo se consiguio una

cantidad importante de puntos de validacion para el area de estudio. En la tabla 2.6, se

2 El WGS84 es un sistema de coordenadas geograficas mundial que permite localizar cualquier punto

de la Tierra (sin necesitar otro de referencia) por medio de tres unidades dadas. WGS84 son las siglas en

ingles de World Geodetic System 84 (que significa Sistema Geodesico Mundial 1984) [107].

Page 50: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 42

resume el total de eventos por cada radar.

Tabla: 2.6: Eventos relevados de Twitter para cada radar

Radar Total Eventos

Anguil 49

Parana 1825

Pergamino 3008

Total 4882

El principal obstaculo que se encontro al utilizar NER para este problema ha sido la

ambiguedad de los nombres de las ubicaciones. Este es un problema tıpico de esta disciplina

y para esos casos se definieron algunas heurısticas a partir de la informacion que se extrae

del usuario de Twitter.

Figura: 2.8: Validacion de puntos para el evento del dıa 16 de Septiembre de 2015.

Como se menciono anteriormente, la validacion de los puntos se realizo utilizando

informacion de los radares de INTA. En la figura 2.8 pueden observarse un conjunto de

Page 51: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 43

puntos de ejemplo para un evento del dıa 16 de Septiembre de 2015 donde la denuncia del

evento en la red social coincide con zonas de reflectividad alta. Todos los puntos que se

obtuvieron se validaron superponiendo cada tweet sobre imagenes del producto CMAX de

RADAR utilizando una reflectividad diaria del producto Composite Reflectivity [8].

La segunda fuente de puntos de validacion provinieron de las companıas de seguros

agrıcolas que son importantes generadoras de informacion georeferenciada indispensable

para validacion de los modelos. El procedimiento que estas organizaciones siguen comienza

con la denuncia de un evento por parte del productor y los tasadores de la empresa verifican

in situ la ocurrencia del evento para poder evaluar y tasar el dano. En este trabajo solo

es necesario confirmar la ocurrencia del evento por lo tanto el porcentaje de dano no

sera tenido en cuenta. En esta etapa se concreto un convenio de vinculacion con la empresa

Sancor Seguros a traves del cual se pudo acceder a un gran numero de puntos aptos para

realizar la validacion.

480310

77

570

220

0 2 13 20

669

4148

2633

0

1000

2000

3000

4000

1 2 3 4 5 6 7 8 9 10 11 12

Mes

Ca

ntid

ad

Cantidad de puntos por mesprovistos por aseguradoras

Figura: 2.9: Grafico de barras mensuales relevados por empresas aseguradoras de granizo.

En total de empresas de seguro contra granizo se relevaron un total de 168 fechas y 9142

puntos. En la Figura 2.9 se muestra la cantidad de puntos por mes provistos por empresas

Page 52: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 44

aseguradoras de granizo. Como se puede observar los datos de estas organizaciones se

encuentran sesgados a las diferentes campanas agrıcolas. Donde en la interseccion entre

campanas durante Junio, Julio y Agosto practicamente no hay eventos.

2.2.4. Generacion de los datasets

La generacion de datasets se separo segun las diferentes etapas de modelado. En este

trabajo se siguieron dos caminos de analisis, por un lado la determinacion de areas con-

vectivas utilizando GFS y validando con RADAR a traves de un proceso de segmentacion

utilizando tecnicas de clustering. Y por otro, el pronostico de granizo con verificacion de

datos de campo con modelos de regresion y clasificaciones.

Tabla: 2.7: Listado de ındices de inestabilidad atmosferica calculados a partir de GFS

Indice Variables GFS

Showalter Index Temperatura en 500 mb

Temperatura en 850 mb

K-Index Temperatura en 850 mb

Temperatura en 500 mb

Temperatura de rocıo en 700 mb

Temperatura de rocıo en 850 mb

Total Totals Temperatura en 500 mb

Temperatura en 850 mb

Temperatura de rocıo en 850 mb

SWEAT Index Temperatura en 850 mb

Total Totals

Velocidad del viento en 850 mb

Velocidad del viento en 500 mb

En este sentido fueron generados diferentes datasets para los distintos analisis, unica-

mente se trabajo con ındices atmosfericos calculados para este trabajo a partir de GFS

(Tabla 2.7) y ademas se utilizaron los que ya vienen calculados en el pronostico (CAPE,

Page 53: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 45

CIN y Lifted). Tambien se hicieron tres separaciones para cada uno de los pronosticos

de 24, 18 y 12 horas previas al momento pronosticado y se definieron dos umbrales de

reflectividad 50 y 60 dBZ (Tabla 2.9) y de esta manera se obtuvieron un total de seis

datasets.

Los datos de GFS y RADAR tienen diferentes escalas temporales y espaciales, por lo

tanto para poder trabajar con ambos se realizo una agregacion (Up Scale) de los datos de

RADAR. Este proceso permitio obtener una medida resumen de los datos diarios de dBZ

para poder trabajar con GFS en la grilla de 0.25◦ (como se mostro en la Seccion 2.2.2).

Ası, todos los registros de estos datasets contienen la representacion de una celda GFS a

la que se le incorpora el valor de probabilidad extraıdo con el proceso de agregacion de los

datos de RADAR.

El resultado es un conjunto de archivos CSV3 que seran los datos de entrada de los

respectivos modelos. En la Tabla 2.1 se listaron todas las variables pronosticadas por GFS

y los ındices que este modelo global de pronostico provee.

Por otro lado, en la Tabla 2.3 se listaron las variables calculadas a partir de los datos

pronosticados de GFS. A continuacion en la Tabla 2.7, se listan todos los ındices calculados

a partir de datos pronosticados que completan el listado de variables utilizadas como

predictores de granizo.

Para obtener algunos ındices se realizaron interpolaciones lineales entre diferentes su-

perficies isobaricas como fue el caso de: Isoterma de 0◦, Lapse Rate, Altura del LCL4,

0-1 km Shear y 0-6 Shear [64]. Este metodo valido de estimacion permitio incrementar el

numero de ındices y facilito su calculo. En la Tabla 2.8 se muestran algunas de las rectas

utilizadas.

3 Comma Separated Value4 Lifted Condensation Level

Page 54: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 46

Tabla: 2.8: Funciones utilizadas en la estimacion de variables adicionales. Las variables GFS o deri-

vadas que se utilizan para estos calculos son: Altura Geopotencial (HGT), Temperatura

(T), Temperatura del LCL (TLCL), Velocidad del viento (Spd)

Indice Funcion

Isoterma de 0◦ iso0 = −T925T700−T925 ∗ (HGT700 −HGT925) +HGT925

Lapse Rate Primero se interpolan las temperatura a 3 y 6 km

0 a 3 km LR3km = − (T3000−T925)( 30001000

−T9251000

)

0 a 6 km LR6km = − (T6000−T925)( 30001000

−T9251000

)

Altura del LCL HLCL = (TLCL−T300)(T925−T300) ∗ (HGT925 −HGT300) +HGT300

0-1 km Shear shear0−1km = 1000−HGT300HGT925−HGT300 ∗ (Spd925 − Spd300) + Spd300

0-6 Km Shear shear0−6km = 6000−HGT300HGT925−HGT300 ∗ (Spd925 − Spd300) + Spd300

En el analisis se utilizaron solo fechas con eventos positivos registrados por algunos de

los medios que se mencionaron en la Seccion 2.2.3 y a partir de los pronosticos para las 24,

18 y 12 horas previas se calcularon los ındices y las variables necesarias. De los 168 dıas

con eventos registrados quedaron solo 50 fechas con datos completos. En la Tabla 2.9 se

muestra como quedaron repartidas todas las celdas para ese conjunto de fechas. Como se

puede observar la distribucion de casos es muy desbalanceada. Y al restringir el dominio

de dBZ a 60 los casos de probabilidades mayores a cero se reducen significativamente.

Tabla: 2.9: Distribucion de casos positivos y Negativos para cada una de los conjuntos de datos.

50 dBZ 60 dBZ

Probabilidades 12 18 24 12 18 24

= 0 39001 39149 39277 40417 40756 40886

≥ 0 1436 1631 1632 20 24 23

Page 55: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 47

2.3. Tecnicas Modelado

Las tareas de modelado incluyen tecnicas de aprendizaje no supervisado y supervisa-

do. Por un lado, se utilizo clustering para la construccion del target de fuerte actividad

convectiva con alta probabilidad de ocurrencia de granizo. En aprendizaje supervisado se

utilizaron regresiones y clasificaciones para modelar el problema. Se ajustaron diferentes

metodos de regresiones, regularizadas (Lasso y Ridge) [74], [140] y ademas regresiones con

Maquinas de Vector Soporte (SVM) [135], [147], [134], [148] y para las clasificaciones se

utilizo Random Forest [26].

En el proceso de segmentacion con clustering se utilizo Modelos Gausianos Mixtos

(GMM) [57] para determinar la cantidad correcta de poblaciones dentro de un espacio de N

dimensiones y etiquetar la membresia de cada punto a una distribucion. Las evaluacion del

ajuste de los clusters es segun el criterio de informacion bayesiana (BIC) [127] mientras que

los modelos de regresion seran evaluados con la Raız cuadrada del Error Medio (RMSE).

2.3.1. Modelos Gaussianos Mixtos

Los modelos de mezcla, tambien llamados Gaussianos Mixtos (o Gaussian Mixture

Models - GMM) forman una clase expresiva de modelos para la estimacion de la densi-

dad y tienen aplicacion en un amplio rango de temas [57]. Fundamentalmente, estos son

utilizados para estimaciones de densidad en problemas no supervisados, con propositos de

agrupamiento (o clustering), entre otros [149]. GMM es modelo probabilıstico que asume

que todos los puntos del dataset son generados de una mezcla de un numero finito de

distribuciones Gaussianas con parametros desconocidos.

El algoritmo mas popular para aprender modelos mixtos es Expectation Maximization

(EM) [36]. Para un conjunto finito de datos Xn de n observaciones y una mezcla inicial

f0, el algoritmo provee una forma para generar una secuencia de modelos mixtos f i con

log-likelihood en Xn no decreciente. El algoritmo EM es conocido por converger a optimos

locales sin garantizar la convergencia a optimos globales. El log-likelihood de un dataset

bajo la distribucion mixta encontrada es altamente dependiente del f0.

Ademas, EM es muy sensible a la inicializacion del modelo, por lo tanto puede demorar

demasiado tiempo en converger si los valores de inicializacion son pobres o incluso quedarse

atrapado en un optimo local. Una forma de inicializar los parametros de un GMM es

Page 56: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 48

utilizando k-medias como primer paso y con las medias y las covarianzas de esos clusters

inicializar EM.

La eleccion del numero de componentes adecuado se realizo utilizando el Criterio de

Informacion Bayesiana (BIC) [127]. Se trata de un procedimiento de seleccion de modelos

basados en metodos teoricos de informacion. Utilizan una medida de perdida informacion

cuando se utiliza un modelo particular para aproximar el modelo verdadero, que es desco-

nocido. Un conjunto de modelos competidores, tales como diferentes numeros de clusters,

se clasifican de acuerdo a su perdida relativa de informacion. El modelo con la perdida de

informacion relativa mas baja - o criterio de informacion mas bajo - es el que se prefiere.

El BIC es calculado como:

BIC = −2LL(Ψ|datos) + p ln(n) (2.1)

Donde −2LL es dos veces el log-likelihood negativo maximizado y p es la cantidad de

parametros [45].

Para el trabajo se probaron dos implementaciones de GMM una con el lenguaje R

[114] utilizando el paquete mclust [49] y la segunda con Python Scikit-Learn [112] que

implementa diferentes clases para estimar modelos Gaussianos mixtos que corresponden

a diferentes estrategias. Finalmente se escogio la implementacion de Python para realizar

los analisis debido a que permite realizar una parametrizacion mas clara.

2.3.2. Regresiones Regularizadas

Los metodos de regresiones regularizadas (o Shrinkage Methods) permiten realizar es-

timaciones o predicciones a traves de regresiones y son de gran utilidad en problemas de

multicolinealidad entre los regresores [136]. Estos metodos permiten modificar los coefi-

cientes de una regresion segun sean mejores o peores predictores. Un modelo que contenga

a todas las p variables predictoras, al utilizar una tecnica que restringe o regulariza las es-

timaciones de coeficientes y que reduce las estimaciones del coeficiente hacia cero, permite

que solo las mejores variables tengan coeficientes significativos. Estas restricciones deben

mejorar el ajuste, pero resulta que la reduccion de los coeficientes estimaciones tambien

puede reducir significativamente su varianza. Las dos tecnicas mas conocidas para redu-

cir los coeficientes de regresion a cero son la regresion Ridge y Lasso [79]. Estas tecnicas

Page 57: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 49

tambien son utilizadas como Feature Selection [139].

2.3.2.1. Regresion Ridge

Regresion Ridge (o Regularizacion de Tikhonov) [74], [140] es generalmente el metodo

de regularizacion mas utilizado para problemas ill-posed debido a que son problemas que no

tienen una unica solucion. La regularizacion, simplemente introduce informacion adicional

para elegir la mejor solucion para ese problema [111].

El proceso de ajustes por mınimos cuadrados estima los coeficientes β1, ..., βp utilizando

los valores que minimizan la suma de los cuadrados de los residuos (RSS):

RSS =N∑i=1

(yi − β0 −p∑j=1

βjxij)2 (2.2)

Ridge es muy similar a los mınimos cuadrados, con la excepcion de que los coeficientes

son estimados por la minimizacion de una suma diferente. En particular, las estimaciones

de los coeficientes de regresion Ridge βR son los valores que se minimizan:

N∑i=1

(yi − β0 −p∑j=1

βjxij)2 + λ

p∑j=1

β2j = RSS + λp∑j=1

β2j (2.3)

donde λ ≥ 0 es el parametro a ajustar y debe ser determinado separadamente. La

ecuacion 2.3 compensa dos diferentes criterios. Al igual que con los mınimos cuadrados, la

regresion Ridge busca estimaciones de coeficientes que se ajustan bien a los datos, redu-

ciendo la suma de cuadrado de los residuos. Sin embargo, el segundo termino λ∑pj=1 β

2j

llamado penalidad por contraccion o regulacion, es pequeno cuando β1, ..., βp son cercanos

a cero. El ajuste del parametro λ sirve para controlar el impacto relativo de estos dos

terminos en los coeficientes estimados de la regresion. Cuando λ = 0, el termino de pena-

lidad no tiene efecto y la regresion Ridge sera similar al ajuste por mınimos cuadrados.

Sin embargo, cuando λ→∞, el impacto de la penalidad por regularizacion se incrementa

y los coeficientes estimados de la regresion Ridge seran proximos a cero. A diferencia de

los mınimos cuadrados, que generan solo un conjunto de estimaciones de coeficientes, la

regresion Ridge producira un conjunto diferente de estimaciones de coeficientes βRλ para

cada valor de λ.

Por ultimo, cabe destacar que en la Ecuacion 2.3 la penalidad regularizada es apli-

cada a β1, ..., βp, pero no a la interseccion β0. Ya que lo que se busca es regular la aso-

Page 58: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 50

ciacion estimada de cada variable con la respuesta; sin embargo, no se quiere penalizar

la interseccion que es simplemente una medida del valor medio de la respuesta cuando

xi1 = xi2 = ... = xip = 0. Si se centran los datos, es decir, que tienen media cero antes de

realizar la regresion Ridge entonces la interseccion tendra la forma β0 = y =∑ni=1 yi/n.

2.3.2.2. Regresion Lasso

LASSO (Least Absolute Shrinkage and Selection Operator) [139] es un metodo de

regresion que implica penalizar el tamano absoluto de los coeficientes de regresion. Al

penalizar (o restringir) de manera equivalente la suma de los valores absolutos de las esti-

maciones terminan en una situacion en la que algunos de los parametros estimados pueden

ser exactamente cero. Cuanto mayor sea la penalizacion aplicada (es decir, λ → ∞), las

estimaciones adicionales se reducen a cero. Esto es conveniente cuando queremos realizar

alguna seleccion automatica de variables, o cuando se trata de predictores altamente corre-

lacionados, donde la regresion estandar normalmente tendra coeficientes de regresion que

son ‘demasiado grandes’. Ademas, facilita la interpretacion del modelo ya que reduce la

cantidad de variables siendo esta una de las principales ventajas sobre Ridge que siempre

genera modelos donde se incluyen a todas las variables [79].

La regresion LASSO supera esa desventaja de Ridge. Los coeficientes de LASSO, βLλ ,

minimizan la suma:

N∑i=1

(yi − β0 −p∑j=1

βjxij)2 + λ

p∑j=1

|βj | = RSS + λp∑j=1

|βj | (2.4)

Como puede observarse tanto LASSO (2.4) como Ridge (2.3) tienen la misma formula-

cion. Con la diferencia que el termino de penalizacion de Ridge β2j que ha sido reemplazado

por |βj |. En terminos estadısticos, se dice que LASSO utiliza una penalidad `1 en lugar

de una `2. La norma `1 de un vector de coeficientes β viene dada por ‖ β ‖1=∑|βj |.

La regularizacion con LASSO fuerza a los coeficientes estimados a que sean exacta-

mente igual a cero cuando el ajuste del parametro λ es suficientemente grande.

2.3.2.3. Seleccion del parametro λ

Las implementaciones de Ridge y de LASSO requieren un metodo para seleccionar el

parametro ajustado λ utilizado en (2.3) y (2.4). La validacion cruzada (Cross-Validation

Page 59: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 51

- CV) provee una forma simple de abordar este problema [79]. Se elige un conjunto de

valores λ y se calcula el error de validacion cruzada para cada valor de λ y se selecciona

el valor del parametro con menor error. Finalmente, el modelo se vuelve a ajustar usando

todas las observaciones disponibles y el valor seleccionado del parametro.

2.3.3. Support Vector Regression

El abordaje de maquinas de vector soporte (SVM) para trabajar con valores reales

[135], [147], [134], [148] es conocido como Support Vector Regression (SVR) y se caracteriza

por tratar problemas de regresion a partir de la introduccion de una funcion de perdida.

Figura: 2.10: Funcion de perdida lineal por partes ε-insensitive (Adaptado de [23])

SVR utiliza la funcion de perdida ε-insensitiva (Figura 2.10) donde si la desviacion entre

el valor real y el predicho es menor que ε, entonces la funcion de regresion no se considera

erronea. Matematicamente estamos buscando −ε ≥ w.xi − b − yi ≥ ε. Geometricamente

puede ser visualizado como una banda o un tubo de tamano 2ε alrededor de la funcion

de hipotesis f(x) y cualquier punto fuera de este tubo puede ser visto como errores de

entrenamiento (Figura 2.11).

Page 60: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 52

Figura: 2.11: Grafico de wx − b vs y con el tubo ε-insensitiva. Los puntos por fuera del tubo son

errores de la etapa de entrenamiento (Adaptado de [23])

Como minimizamos ‖ w ‖ para penalizar el exceso de complejidad, para dar cuenta de

los errores de entrenamiento tambien se introducen las variables z y zi (llamadas variables

de holgura o slack) para los dos tipos de errores de entrenamiento. El primero calcula el

error de subestimacion de la funcion y el segundo calcula el error de sobreestimar. Estas

variables de holgura son cero para puntos dentro del tubo y aumentan progresivamente

para puntos fuera del tubo de acuerdo con la funcion de perdida utilizada.

Para una funcion de perdida ε−insensitiva lineal la tarea es optimizar:

mınw,b,z,z

C∑i=1

(zi + zi) +1

2‖ w ‖2

sujeto a(w.xi − b− yi) + zi ≥ ε

(w.xi − b− yi)− zi ≤ −ε

zi, zi ≥ 0 i = 1, ...,m

(2.5)

Para construir funciones de regresion no lineales, se utiliza el calculo del Lagrangiano

[148] y se agregan las funciones kernels. Aparte de las formulaciones dadas aquı es posible

definir otras funciones de perdida que dan lugar a diferentes funciones de doble objetivo.

Ademas, en lugar de especificar ε a priori es posible fijar un lımite superior v(0 ≤ v ≤ 1)

sobre la fraccion de puntos situados fuera de la banda y luego encontrar ε optimizando.

De igual manera que para clasificacion, es posible formular un enfoque de programacion

Page 61: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 53

lineal para la regresion:

mınα,α,b,z,z

m∑i=1

αi +m∑i=1

αi + Cm∑i=1

zi + Cm∑i=1

zi

sujeto a yi − ε− zi ≤

m∑j=1

(αj − αj)K(xi, xj)− b

≤ yi + ε− zi

zi, zi, αi, αi ≥ 0 i = 1, ...,m

(2.6)

La minimizacion aproximada de la suma de los αi reduce el numero de vectores de

soporte. Por lo tanto, el metodo favorece a funciones dispersas que se aproximan sin

problemas a los datos [23].

2.3.4. Random Forest

Random Forest (RF) [26], [73] funciona bajo la premisa de que si un arbol es bueno,

entonces muchos arboles (un bosque) deberıan ser mejores, siempre que haya suficiente

variedad entre ellos. Lo mas interesante de Random Forest es la manera en que crea alea-

toriedad a partir de un conjunto de datos estandar. Esto es logrado a traves de Bagging.

Por ejemplo, si se desea crear RF entonces podemos hacer que los arboles sean distin-

tos entrenandolos en datos ligeramente diferentes, ası que tomamos muestras de haciendo

bootstrap del conjunto de datos para cada arbol. Sin embargo, esto no es suficiente alea-

toriedad todavıa. El otro lugar obvio donde es posible agregar aleatoriedad es limitar las

opciones que el arbol de decision puede hacer. Para esto en cada nodo, solo habra dispo-

nible un subconjunto aleatorio de las variables y solo puede escoger de ese subconjunto en

lugar de todo el conjunto de features.

De esta manera, ademas de aumentar la aleatoriedad en el entrenamiento de cada

arbol, tambien acelera el entrenamiento, ya que hay menos variables para buscar en cada

etapa. Por supuesto, introduce un nuevo parametro (cuantas features considerar), pero

el RF al azar no parece ser muy sensible a este parametro. En la practica, un tamano

utilizado es la raız cuadrada del numero de variables es lo que se utiliza habitualmente. El

efecto de estas dos formas de aleatoriedad es reducir la varianza sin afectar el sesgo. Otra

ventaja de esto es que no hay necesidad de podar los arboles.

Hay otro parametro que aun no sabemos elegir, que es el numero de arboles que se

ajustaran. Sin embargo, esto es bastante facil de elegir si queremos resultados optimos:

Page 62: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

2. Materiales y Metodos 54

podemos seguir construyendo arboles hasta que el error deje de disminuir. Una vez que

se entrena el conjunto de arboles, la salida del bosque es la mayorıa de votos para la

clasificacion o la respuesta media para la regresion.

Page 63: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

3. DETERMINACION DE AREAS CONVECTIVAS

En este capıtulo se describe el proceso de analisis basado en clustering, para la deter-

minacion de areas homogeneas utilizando los ındices de inestabilidad derivados de GFS.

Luego las areas son cruzadas con datos de RADAR para poder relacionar cada grupo con

lo observado a traves de la red de radares. Estos valores de reflectividad (dBZ) son los que

van a permitir identificar las celdas de un cluster - construidos con datos pronosticados -

y marcarlas con o sin presencia de celdas de granizo.

3.1. Obtencion de clusters

Los clusters fueron obtenidos utilizando la tecnica de Modelos de Mezclas Gaussianas

(GMM) [57], [149]. Ası se determino el numero correcto de componentes o clusters exis-

tentes en cada pronostico GFS y se evaluaron las fechas con eventos positivos, es decir,

que hay evidencia de la caıda de granizo.

Figura: 3.1: Esquema del criterio de seleccion de clusters positivos y negativos. El umbral de re-

flectividad puede ser 50 o 60 dBZ.

En la Figura 3.1 se muestra de manera esquematica cuales son los pasos, junto con

55

Page 64: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

3. Determinacion de Areas Convectivas 56

Codigo 3.1: Configuracion de la llamada al proceso de GMM

mixture . GaussianMixture (

n components = 2 , . . . , 3 0 ,

cova r i ance type=’ f u l l ’ ,

t o l=1e−4,

max i ter =1000 ,

n i n i t =100 ,

in i t params=’ kmeans ’ ,

random state =1234 ,

warm start=True

)

los criterios para la obtencion de los clusters. En primer lugar, se realiza el ajuste de

los modelos de GMM con la parametrizacion que se muestra en el Codigo 3.1. Luego se

unen las bases de datos resultantes de los clusters y las probabilidades de RADAR para

identificar cuales clusters tuvieron celdas donde realmente hubo un desarrollo convectivo,

en este caso los criterios son dos: dBZ mayor a 50 o mayor a 60. Y por ultimo, se identifican

todas las celdas de un cluster como positivo o negativo segun hayan tenido o no celdas.

En la parametrizacion (Codigo 3.1) para el ajuste de las mezclas gaussianas se buscaron

los mejores ajustes para el rango de componentes de 2 a 30. Se utilizo el criterio de una

matriz de covarianza general para cada componente (covariance type = full). Se fijo un

umbral de convergencia para el algoritmo de EM (tol = 1e − 4) que determina el lımite

inferior de ganancia promedio. Tambien se limito el maximo de iteraciones de EM a 1000.

Y para mejorar la convergencia de EM se utilizo K-medias para inicializar los pesos.

De los 150 casos de pronosticos en los que se corrio GMM (50 dıas en cada una de las

tres horas previas pronosticadas) la distribucion de cantidad de componentes (o tamanos

de clusters) encontrados esta entre 8 y 20 (Figura 3.2). Los tamanos de clusters mas

frecuentes son 13 y 14 y su frecuencia es de 30 en ambos casos.

Page 65: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

3. Determinacion de Areas Convectivas 57

Distribución de la cantidad de componentes

# componentes

Fre

cu

en

cia

10 12 14 16 18 20

05

10

15

20

25

30

35

Figura: 3.2: Histograma de distribucion del numero de componentes por pronostico de los 150 casos

totales.

Los resultados de los ajustes con GMM fueron evaluados con el Criterio de Informacion

Bayesiana (BIC) [127], que es el metodo estandar para la determinacion del modelo. Aun-

que es el criterio habitual para la seleccion del mejor modelo, no siempre se corresponde

con el mejor agrupamiento. Por este motivo se incluyeron otras metricas como: Coeficiente

de Silueta [121] y Calinski/Harabasz score [29].

En el grafico de la Figura 3.3 se muestran los resultados para cada numero de compo-

nentes, los valores de BIC que se obtuvieron del ajuste junto con los ancho promedio de

silueta para cada cantidad de grupos muestran que los mejores valores de silueta no supe-

ran el ancho promedio de 0.5 en ninguno de los casos. Tambien se destaca que los mejores

agrupamientos son los valores extremos en ambas metricas, como ocurre con varios de los

tamanos de componentes.

Un comportamiento similar se observa con Calinski/Harabasz (CH) score, los valores

mas bajos del criterio de informacion bayesiana coinciden con los valores altos de la calidad

del agrupamiento que se obtuvieron con CH. Tambien es para destacar que la metrica de

CH es mas compacta que silueta y la puntuacion de los agrupamientos no presenta tantos

Page 66: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

3. Determinacion de Areas Convectivas 58

valores extremos como si ocurre con silueta.

−1e+05

−8e+04

−6e+04

−4e+04

−2e+04

9 10 11 12 13 14 15 16 17 18 19 20

# Componentes

BIC

BICA

0.1

0.2

0.3

0.4

0.5

9 10 11 12 13 14 15 16 17 18 19 20

# Componentes

Silh

ou

ett

e

SilhouetteB

200

400

600

800

9 10 11 12 13 14 15 16 17 18 19 20

# Componentes

Ca

linski &

Ha

rab

asz

Calinski & Harabaz ScoreC

Figura: 3.3: Boxplot de los valores de BIC (A) para la seleccion del mejor modelo de GMM y los

respectivos valores de Coeficiente de Silueta (B) y Calinski/Harabasz score (C) para

evaluar la calidad del agrupamiento en los clusters con igual cantidad de componentes.

3.2. Analisis de los agrupamientos

El analisis realizado consistio en observar el comportamiento de los ındices atmosfericos

dentro de los dos grupos identificados por el proceso de clustering. Se realizo una inter-

pretacion del comportamiento de estos ındices segun esten presentes en celdas donde hay

evidencia de conveccion o no utilizando graficos y tablas. Para la comparacion de estos re-

sultados se construyeron un conjunto de tablas que estan disponibles en el Anexo I. Allı se

muestran los valores mınimos, maximos y promedios de cada ındice para su pronostico y

umbral de reflectividad.

En la Figura 3.4, se muestra el grafico de cajas para el ındice Total Totals (TT) donde

Page 67: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

3. Determinacion de Areas Convectivas 59

los valores de las celdas positivas son mas elevados que para las negativas. Es decir, tanto

para el umbral de 50 dBZ como para 60 dBZ los valores de la mediana para el ındice

son mayores en los positivos teniendo ası mayor cantidad de valores en la region crıtica

(TT ≥ 50). El 75 % de las celdas positivas tienen valores de TT ≥ 45 en ambos conjuntos.

−20

0

20

40

60

Negativo Positivo

Tipo de evento

°C

Total Totals (50 dBZ)A

−20

0

20

40

60

Negativo Positivo

Tipo de evento

°C

Total Totals (60 dBZ)B

Figura: 3.4: Boxplot de Total Totals. A) Umbral de dBZ ≥ 50 y B) dBZ ≥ 60

Los valores atıpicos que se observan para TT corresponden a tres dıas con humedad

relativa pronosticada muy baja en 850 mb. En el mapa de la Figura 3.5 se muestra la

distribucion espacial de la variable para las 12z en el nivel de presion de 850 mb donde se

puede observar en azul la zona seca y en colores calidos la zona humeda.

Se realizo una verificacion de los datos con el radio sondeo del dıa (Figura 3.6) y allı se

observo que la region seca esta presente pero algunos niveles mas arriba. Los datos del

sondeo muestran que en 850 mb la humedad relativa es de 34 % y que esta comienza a

ascender por una adiabatica seca a partir de 810 mb con valores entre 1 % y 5 % hasta 520

mb donde nuevamente entra en una capa humeda.

Page 68: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

3. Determinacion de Areas Convectivas 60

Figura: 3.5: Mapa de Humedad Relativa en 850 mb, pronosticada por GFS para las 12z del dıa 3

de Octubre de 2015.

Figura: 3.6: Grafico Stuve de las 12z para el dıa 3 de Octubre de 2015. La elipse en rojo muestra

que en 850 mb todavıa hay humedad (34 %) y comienza a partir de 810 mb su ascenso

por la adiabatica seca, donde los valores de HR estan entre 1 % y 5 % hasta que se

incrementa a partir del nivel de 520 mb (Adaptado de [142]).

Page 69: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

3. Determinacion de Areas Convectivas 61

El ındice K (KI) evidencia una mayor concentracion de valores crıticos en las celdas

positivas, la mediana de este ındice se encuentra muy cercana al umbral de peligrosidad.

En el caso de dBZ ≥ 50 este valor supero los 28 ◦C mientras que para dBZ ≥ 60 este

valor supera los 30 ◦C (Figura 3.7). Estos valores estan en el lımite inferior de criticidad

donde tormentas con lluvia torrencial o con clima severo son posible.

Los valores extremos que se observan de k-index pueden ser atribuidos a que este ındice

utiliza la diferencia entre la temperatura y la temperatura del punto de rocıo en 700 mb,

el aire seco en ese nivel resulta en valores muy bajos del ındice [143].

−150

−100

−50

0

50

Negativo Positivo

Tipo de evento

°C

K−Index (50 dBZ)A

−150

−100

−50

0

50

Negativo Positivo

Tipo de evento

°C

K−Index (60 dBZ)B

Figura: 3.7: Boxplot de K-Index. A) Umbral de dBZ ≥ 50 y B) dBZ ≥ 60

Para medir estabilidad se utilizaron los ındices Showalter (SI) y Lifted (LI). SI mostro va-

lores crıticos en ambos conjuntos de datos y el valor de la mediana fue inferior a 0 tanto

para 50 dBZ como para 60 en las celdas positivas (Figura 3.8) aunque posee una gran

cantidad de valore extremos tanto en las celdas positivas como negativas.

Page 70: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

3. Determinacion de Areas Convectivas 62

−20

−10

0

10

20

Negativo Positivo

Tipo de evento

°C

Showalter (50 dBZ)A

−20

−10

0

10

20

Negativo Positivo

Tipo de evento

°C

Showalter (60 dBZ)B

Figura: 3.8: Boxplot de Showalter. A) Umbral de dBZ ≥ 50 y B) dBZ ≥ 60

En el caso del LI los valores crıticos del ındice (−9 ≥ LI ≥ 0) estan presentes pero

en menor cantidad aunque si hay una marcada diferencia entre las celdas positivas y las

negativas. En el caso de las primeras su mediana es de 1.4 ◦C en 50 dBZ y 1.5 ◦C en 60

dBZ. En los graficos de cajas no se observan valores atıpicos (Figura 3.9).

−10

0

10

20

Negativo Positivo

Tipo de evento

°C

Lifted (50 dBZ)A

−10

0

10

20

Negativo Positivo

Tipo de evento

°C

Lifted (60 dBZ)B

Figura: 3.9: Boxplot de Lifted. A) Umbral de dBZ ≥ 50 y B) dBZ ≥ 60

El ındice SWEAT evalua el potencial de tormentas severas combinando varios parame-

tros donde los valores crıticos del ındice comienza a partir de 150 con severidad leve. Aquı se

Page 71: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

3. Determinacion de Areas Convectivas 63

observo que las celdas positivas poseen las medianas por encima de esta cota inferior y

superan en ambos casos a las celdas no convectivas (Figura 3.10). Aunque en estas ultimas

pudo apreciarse una mayor dispersion y presencia de valores extremos.

0

100

200

300

400

500

Negativo Positivo

Tipo de evento

Po

ten

cia

l d

e T

orm

en

taSWEAT Index (50 dBZ)A

0

100

200

300

400

500

Negativo Positivo

Tipo de evento

Po

ten

cia

l d

e T

orm

en

ta

SWEAT Index (60 dBZ)B

Figura: 3.10: Boxplot de SWEAT Index. A) Umbral de dBZ ≥ 50 y B) dBZ ≥ 60

En las cortantes de vientos de capas bajas (Shear 0 a 3 km) se observaron muy pocas

diferencias entre las medianas para el dataset de 50 dBZ, pero si se observan variaciones

al restringir la reflectividad a 60 dBZ (Figura 3.11). En el primer conjunto las medianas

son muy similares tanto para celdas positivas como para negativas donde en ambos casos

apenas superan los 7.5 metros por segundo. Mientras que en el segundo conjunto, existen

diferencias entre los grupos donde la mediana de los casos positivos es menor (6.51 m/s)

que para los negativos (7.64 m/s). Aun ası, las distribuciones de esta variable en ambos

casos tienen un gran solapamiento en todos sus cuartiles para los dos tipos de eventos.

Page 72: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

3. Determinacion de Areas Convectivas 64

0

10

20

Negativo Positivo

Tipo de evento

m/s

0 a 1 KM Shear (50 dBZ)A

0

10

20

Negativo Positivo

Tipo de evento

m/s

0 a 1 KM Shear (60 dBZ)B

Figura: 3.11: Boxplot de 0 a 1 km Shear (m/s)

Con las cortantes de capas profundas (Shear 0 a 6 km) se observo que los valores se

incrementan pero el comportamiento para el umbral de 50 dBZ no mostro diferencias en

las distribuciones de las celdas positivas y negativas, donde existe un gran solapamiento de

las distribuciones. Por el contrario, si se observaron cambios leves en las medianas cuando

se restringio el umbral a reflectividades mayores a 60 dBZ. Alrededor del 75 % de las celdas

positivas ocurren con cortantes de capas profundas mayores a 15.52 m/s [64].

0

10

20

30

40

50

Negativo Positivo

Tipo de evento

m/s

0 a 6 KM Shear (50 dBZ)A

0

10

20

30

40

50

Negativo Positivo

Tipo de evento

m/s

0 a 6 KM Shear (60 dBZ)B

Figura: 3.12: Boxplot de 0 a 6 km Shear (m/s)

El punto de congelamiento, o altura de la isoterma de 0 ◦C, mostro para las celdas

positivas que el 100 % de los casos ocurrieron en alturas por encima de los 1600 m AGL y

Page 73: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

3. Determinacion de Areas Convectivas 65

ademas el 75 % estan por encima de los 3300 m AGL. En ambos umbrales de dBZ se ha

observado que existe un marcado solapamiento entre las distribuciones de celdas positivas

y negativas.

0

1000

2000

3000

4000

5000

Negativo Positivo

Tipo de evento

m A

GL

Altura de la Isoterma de 0°C (50 dBZ)A

0

1000

2000

3000

4000

5000

Negativo Positivo

Tipo de evento

m A

GL

Altura de la Isoterma de 0°C (60 dBZ)B

Figura: 3.13: Altura de la Istoterma de 0 ◦C (m AGL). A) Umbral de dBZ ≥ 50 y B) dBZ ≥ 60

Segun [34], las tormentas con granizo mayor a 2 pulgadas tienden a tener cortantes

de bajo nivel mas leves y bases de nubes mas altas. En este sentido se observaron para la

variable Altura del LCL (Figura 3.14) valores en la mediana de 2643 metros para celdas

positivas mientras que para negativas el valor supero los 3000 metros. Para el umbral de

60 dBZ al disminuir la cantidad de celdas estos valores de mediana bajan entre 2400 y

3000 metros.

Page 74: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

3. Determinacion de Areas Convectivas 66

0

2500

5000

7500

Negativo Positivo

Tipo de evento

m A

GL

Altura del LCL (50 dBZ)A

0

2500

5000

7500

Negativo Positivo

Tipo de evento

m A

GL

Altura del LCL (60 dBZ)B

Figura: 3.14: Altura del LCL (m AGL). A) Umbral de dBZ ≥ 50 y B) dBZ ≥ 60

Los valores extremos de LCL pueden atribuirse a que la region de estudio esta general-

mente dividida por dos masas de aire muy distintas, como el ejemplo que se puede observar

en la Figura 3.15. El mapa corresponde a la variable temperatura del LCL calculada con

los datos GFS de 12 hs previas al pronostico de referencia de las 12z (9 AM) del dıa 27

de Enero de 2015 correspondiente a una de las fechas de estudio. Allı se observan cam-

bios muy bruscos de temperatura de LCL en el area del radar de Anguil. Esas marcadas

diferencias repercuten en la forma en que se calcula posteriormente la altura donde se

produce el LCL dando valores fuera de rango o muy extremos para la variable. El mismo

comportamiento se observo para los pronosticos de las 18 y 24 horas previas.

Page 75: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

3. Determinacion de Areas Convectivas 67

Figura: 3.15: Mapa de Temperatura de LCL (◦C) del dıa 27 de Enero de 2015

En el grafico 3.16 se muestran los resultados del Deep Convective Index cuyos valores

crıticos estan ubicados por encima de los 30 ◦C. Como puede observarse para 50 dBZ 25 %

de los casos se encuentran en la region crıtica, lo mismo ocurre para 60 dBZ.

−50

0

50

Negativo Positivo

Tipo de evento

°C

DCI (50 dBZ)A

−50

0

50

Negativo Positivo

Tipo de evento

°C

DCI (60 dBZ)B

Figura: 3.16: DCI (◦C). A) Umbral de dBZ ≥ 50 y B) dBZ ≥ 60

Page 76: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

3. Determinacion de Areas Convectivas 68

En el conjunto de datos de GFS compuesto por 50 fechas con eventos de granizo se

observaron 12 dıas donde el CAPE fue igual a 0 J/kg (Figura 3.17). Los valores mas altos

del ındice en esta muestra se observaron en el mes de diciembre, allı se vieron celdas con

CAPE mayores a 3000 J/kg. En todo el conjunto de datos se hubo 16 dıas con potencial

de conveccion por encima de 1000 J/kg.

Por otro lado, la Inhibicion Convectiva (CIN) tuvo valores distintos a cero 40 dıas de

50 (Figura 3.18). Si bien no hay una tabla de valores crıticos para CIN, cuando el area de

inhibicion esta entre -200 y -15 J/kg se incrementa el desarrollo de celdas de tormentas.

Mientras que al ser el resultado de una inversion estable, con valores a la izquierda de -200

J/kg inhiben significativamente la potencia convectiva.

0

1000

2000

3000

20150127

20150204

20150217

20150222

20150320

20150326

20150402

20150403

20150404

20150405

20150407

20150408

20150409

20150411

20150414

20150415

20150417

20150418

20150420

20150421

20150422

20150715

20150731

20150806

20150808

20150809

20150813

20150826

20150909

20151001

20151003

20151004

20151005

20151007

20151014

20151015

20151016

20151026

20151119

20151120

20151121

20151122

20151123

20151124

20151125

20151126

20151206

20151213

20151214

20151215

20151218

20151220

20151231

Fechas

J/k

g

CAPE = 0 CAPE > 0 Max CAPE

Valores medios y desvíos de CAPE

Figura: 3.17: Grafico de dispersion de valores medios, maximos y desvıos de CAPE por dıa. En los

triangulos se corresponden con los dıas que hubo CAPE, los cırculos con los dıas que

no hubo y los cuadrados son los maximos observados.

Page 77: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

3. Determinacion de Areas Convectivas 69

−800

−400

0

20150127

20150204

20150217

20150222

20150320

20150326

20150402

20150403

20150404

20150405

20150407

20150408

20150409

20150411

20150414

20150415

20150417

20150418

20150420

20150421

20150422

20150715

20150731

20150806

20150808

20150809

20150813

20150826

20150909

20151001

20151003

20151004

20151005

20151007

20151014

20151015

20151016

20151026

20151119

20151120

20151121

20151122

20151123

20151124

20151125

20151126

20151206

20151213

20151214

20151215

20151218

20151220

20151231

Fechas

J/k

g

CIN < 0 CIN = 0 Min CIN

Valores medios y desvíos de CIN

Figura: 3.18: Grafico de dispersion de valores medios y desvıos de CIN por dıa. En los cırculos se

corresponden con los dıas que hubo CIN y los triangulos con los dıas que no hubo.

Del analisis de conglomerados realizado en este capıtulo cabe destacar que los ındices

tiene un comportamiento coherente con los umbrales de peligrosidad en los casos que

estos son bien conocidos. Por otro lado, tambien se observaron comportamientos analogos

a otros estudios para variables construidas como Lapse Rate y cortante de viento vertical.

Los principales conflictos o problemas que se observaron en general fueron las grandes

colas en los graficos de cajas para los casos negativos. Otro problema observado es el gran

solapamiento que existe en estas distribuciones y la poca incidencia de restringir el dominio

de reflectividad a 60 dBZ.

Page 78: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

4. MODELOS DE PRONOSTICOS

El desarrollo de pronosticos a corto plazo de tormentas severas y granizo es muy com-

plejo debido a la gran aleatoriedad del fenomeno. En este capıtulo se presentan los resul-

tados de dos abordajes para pronosticar granizo con tecnicas de minerıa de datos. Por un

lado, se trabajo con tecnicas de regresion donde se busco modelar el comportamiento de la

variable probabilidad acumulada de reflectividad y se utilizaron regresiones regularizadas

(Ridge y LASSO) y ademas se utilizo Support Vector Regression. El segundo abordaje fue

realizando clasificacion de regiones convectivas utilizando Random Forest como algoritmo

de clasificacion.

4.1. Pronosticos utilizando regresiones

Los ajustes fueron realizados con los datos de probabilidad de dBZ como target y

los ındices de inestabilidad como variables explicativas. Los datasets que se utilizaron

fueron para los tres momentos pronosticados por GFS y para los dos umbrales de dBZ.

Se realizaron diferentes trabajos de preprocesamiento para conseguir un mejor ajuste, en

el esquema de la Figura 4.1 se pueden observar los trabajos que se realizaron sobre los

datasets antes de comenzar con las tareas de ajuste de los modelos de regresion. Estas

tareas incluyeron, realizar una limpieza de valores extremos que fueron observados en

la etapa determinacion de areas convectivas. La limpieza consistio en quitar las colas

observadas en los graficos de cajas (en el Capıtulo 3) para los casos negativos ya que estas

generan un marcado solapamiento con los casos positivos. De esta manera todos los casos

que se encontraban a ±1,5 ∗ IRQ fueron eliminados de los casos negativos y se quitaron

del dataset los registros que debido a esto quedaban incompletos.

Se realizaron filtrados de datos para tratar de modelar diferentes comportamientos. En

este sentido, se seleccionaron todas las regiones identificadas como positivas debido a que

en esas zonas existe una mayor paridad entre los casos con probabilidad superior a 0 y los

casos con probabilidades nulas. Luego se realizo un escalado de las variables explicativas

de tipo MinMax para conseguir valores entre 0 y 1.

70

Page 79: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

4. Modelos de pronosticos 71

Figura: 4.1: Esquema de preprocesamiento de los datos de entrenamiento para ajustar modelos de

regresiones.

Las celdas que se obtuvieron con probabilidades superiores estan presentes en menor

cantidad que las celdas nulas, luego de los filtrados y eliminacion de casos esta relacion

es aun muy desbalanceada donde los casos positivos solo alcanzan un 10 % del total del

dataset. Aquı se realizo un muestreo estratificado buscando balancear los casos de pro-

babilidad nula y mayor a cero. Se genero un 10-Fold donde los casos tenıan una relacion

45/55 entre probabilidades no nulas y nulas.

La ultima de las tareas de preprocesamiento fue la de reduccion de dimensionalidad,

se utilizo la tecnica de eliminacion por pares correlacionados ya que al no existir una

relacion lineal entre muchas de las variables los metodos componentes principales no fun-

cionan correctamente esto se comprobo al observar que la primer componente principal

solo capturo apenas el 30 % de la variabilidad total del sistema.

El proceso de reduccion consistio en evaluar la correlacion global de todas las variables

que inicialmente para los diferentes datasets tenıa valores de Pearson que iban desde -0.9

a 0.89. Se probaron diferentes umbrales de corte 0.7, 0.6 y 0.5 y se observo en cuanto se

reducıa la correlacion total del dataset donde posteriormente se ajustaban los modelos de

Page 80: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

4. Modelos de pronosticos 72

regresion solo con las variables que quedaban de la reduccion.

Los resultados que se obtuvieron de los ajustes de regresiones no fueron buenos, los

coeficientes de determinacion evidenciaron que los modelos ajustados no son capaces de

explicar a partir de los ındices de inestabilidad atmosferica el comportamieto de la proba-

bilidad de reflectividad acumulada. En la Tabla 4.1 se muestran los resultados obtenidos

para cada metodo y la parametrizacion con la que se obtuvieron.

Tabla: 4.1: Tabla de resultados de los ajustes conseguidos con los diferentes metodos de regresiones

utilizados y los parametros con los que se obtuvieron.

Ridge LASSO SV-R

HS Param. R2 RMSE Param. R2 RMSE Param. R2 RMSE

12 hs λ = 0,1 0.056 0.0775 Fract: 0.78 0.061 0.089

SV = 309

C = 512

ε = 0,1

0.087 0.092

18 hs λ = 0,1 0.057 0.0781 Fract: 0.94 0.054 0.086

SV = 381

C = 8

ε = 0,2

0.087 0.1

24 hs λ = 0,0 0.048 0.08 Fract: 0.97 0.038 0.087

SV = 381

C = 512

ε = 0,1

0.082 0.096

Los mejores parametros fueron obtenidos a traves de hiperparametrizacion con Grid

Search. En el caso de Ridge se utilizaron valores de λ entre 0 y 1 con paso 0.01. Para LASSO

se utilizo Fraction con valores de 0.1 a 1 con paso de 0.01. Y para SV-R se configuro una

grilla con ε de 0 a 1 con paso 0.01, Costo de 2 a 512 y γ de 0.25 a 4.

La falta de respuesta puede ser atribuida de alguna manera a la disparidad de las

escalas de relevamiento y a la aleatoriedad del fenomeno. Tambien la construccion del

target con densidad kernel puede no ser el mejor metodo ya que se pierde referencia de los

verdaderos valores de reflectividad que se encuentran en cada una de las celdas GFS.

Page 81: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

4. Modelos de pronosticos 73

4.2. Pronosticos utilizando clasificaciones

Para realizar este analisis se utilizaron los resultados de los clusters ajustados en el

Capıtulo 3, donde todas las celdas GFS pertenecientes a un cluster que interceptaban con

probabilidades de dBZ mayo a 50 o 60 eran etiquetadas como positivas mientras las que no

se marcaron como negativas. Con estos seis conjuntos, dos de reflectividad por tres horas

pronosticadas se ajustaron modelos con Random Forest (RF). En la parametrizacion del

algoritmo RF se contemplo la cantidad de arboles, este valor fue de 500, y la cantidad de

variables a muestrear al azar para cada arbol. En este caso se tomo la raız cuadrada de la

cantidad de variables menos uno lo que dio un total aproximado de 4 variables. Los datos

de entrenamiento fueron escalados entre 0 y 1. En la Tabla 4.2 se muestran las evaluaciones

en testing de los modelos ajustados utilizando AUC.

Tabla: 4.2: Resultados de los ajustes con Random Forest utilizando la metrica AUC. Los valores

mostrados son los obtenidos en testing con datos no utilizados en la construccion del

RF.

HS P[dBZ >= 50] P[dBZ >= 60]

12 0.984 0.935

18 0.983 0.958

24 0.979 0.928

Con los modelos ajustados se extrajeron las probabilidades con que se predijo cada

una de las clases para realizar mapas de probabilidad de la clase positiva. De esta manera

para cada fecha se utilizaron los modelos ajustados para las 24, 18 y 12 horas previas a

las 12z del pronostico de referencia y se verificaron los mapas con datos de campo donde

se comprobo la caıda de granizo.

Los resultados de estas pruebas fueron muy alentadores solo para los modelos construi-

dos con los datasets de 50 dBZ, en estos casos se encontro que la correlacion espacial de

los puntos de control y las areas clasificadas como positivas con una probabilidad superior

a 0.5 es alta en este conjunto de analisis. En la Figura 4.2 se muestra en un grafico de

barras los porcentajes de coincidencias de los puntos disponibles para cada fecha.

Page 82: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

4. Modelos de pronosticos 74

24

8

12 6

16

329

95

45

461

195

57

10

2

5

52

31

2

9

2

29

1424

39

6685

104

1989

6

4

2239

0

25

50

75

100

20150127

20150217

20150320

20150403

20150404

20150405

20150411

20150414

20150415

20150417

20150731

20150806

20150808

20150809

20150813

20150909

20151003

20151007

20151014

20151026

20151119

20151120

20151122

20151123

20151124

20151125

20151126

20151213

20151214

20151215

20151218

Fecha

Po

rce

nta

je

Dataset 50 dBZ 12 hs 50 dBZ 18 hs 50 dBZ 24 hs

Figura: 4.2: Grafico de barras con los porcentajes de aciertos por fechas. Los valores sobre las

barras indican la cantidad de puntos disponibles para validacion.

A continuacion se muestran los resultados de diferentes mapeos realizados a partir de

las probabilidades de clasificar como positiva a una celda. Estos mapas de probabilidades

fueron superpuestos con puntos de validacion donde hay evidencia de caıda de granizo.

Se presentan tres casos diferentes en donde varıa la cantidad de puntos con que se cuenta

para validar y tambien donde existen marcadas diferencias en la dispersion de estos datos.

4.2.1. Caso 1

Para este primer ejemplo hay una cantidad representativa de puntos (52 en total)

registrados por aseguradoras de granizo de los cuales mas del 80 % fueron pronosticados

correctamente en los tres pronosticos. En la Figura 4.3 se muestra el mapa correspondiente

al pronostico de 24 horas previas, allı se observa que la mayorıa de los puntos estan en la

zona de probabilidad entre 0.6 y 0.7.

Page 83: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

4. Modelos de pronosticos 75

Figura: 4.3: Pronostico para las 12z del dıa 14 de Abril de 2015 realizado 24 horas previas, 88.46 %

de los puntos se clasificaron bien de un total de 52 puntos.

Figura: 4.4: Pronostico para las 12z del dıa 14 de Abril de 2015 realizado 18 horas previas, 90.38 %

de los puntos se clasificaron bien de un total de 52 puntos.

En la Figura 4.4 se muestra el pronostico de -18 horas. Allı puede observarse que se

Page 84: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

4. Modelos de pronosticos 76

incorpora uno de los puntos no pronosticados en -24 horas alcanzando el 90 % de aciertos.

Este punto en el pronostico anterior se encontraba en la zona de probabilidad entre 0.4 y

0.5. En el mapa siguiente de la -12 horas (Figura 4.5) previas es similar a -18 horas pero

el cumulo de puntos donde hay mayor concentracion quedo en zona de probabilidades que

van desde 0.5 a 0.8.

Figura: 4.5: Pronostico para las 12z del dıa 14 de Abril de 2015 realizado 12 horas previas, 88.46 %

de los puntos se clasificaron bien de un total de 52 puntos.

4.2.2. Caso 2

El siguiente caso es muy diferente al anterior, la cantidad de eventos registrados en ese

dıa y verificados por diferentes medios es muy alto (mas de 1400). Ademas existe una gran

dispersion de los eventos por toda el area de estudio lo que hace suponer que podrıa existir

un desfasaje en las horas de los puntos relevados en relacion al pronostico. Los resultados

de aciertos de los pronosticos han sido muy distintos en las tres horas pronosticadas.

En el pronostico de menos 24 horas se alcanzo un 7.51 % de los casos (Figura 4.6), este

porcentaje puede parecer bajo pero gran parte de los puntos estan en una zona (centro de

Santa Fe) que no esta bien definida ya que hay una cantidad importante de puntos con

probabilidades entre 0.4 y 0.5.

Page 85: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

4. Modelos de pronosticos 77

Figura: 4.6: Pronostico para las 12z del dıa 19 de Noviembre de 2015 realizado 24 horas previas,

7.51 % de los puntos se clasificaron bien de un total de 1424 puntos.

Figura: 4.7: Pronostico para las 12z del dıa 19 de Noviembre de 2015 realizado 18 horas previas,

80.69 % de los puntos se clasificaron bien de un total de 1424 puntos.

Diferente es lo que se pronostica en menos 18 hs (Figura 4.7), allı es notable el cambio

Page 86: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

4. Modelos de pronosticos 78

observado en las zonas que estaban en la frontera de los 0.5 de probabilidad. Gran parte

de esas celdas son vistas como positivas por el pronostico de la 18 que coincide en el 80 %

de los casos. Para la hora siguiente (-12 hs) el rendimiento vuelve a caer como se observa

en la Figura 4.8, disminuyendo el porcentaje de acierto a 31.74 %.

Figura: 4.8: Pronostico para las 12z del dıa 19 de Noviembre de 2015 realizado 12 horas previas,

31.74 % de los puntos se clasificaron bien de un total de 1424 puntos.

Dada la dispersion de los puntos en el area de estudio es muy probable que los puntos

ubicados al sur correspondan a horarios muy diferentes al pronosticado de las 12z. Esa

verificacion sera revisada en trabajos futuros.

4.2.3. Caso 3

En este ultimo caso no se observaron coincidencias entre los pronosticos de las hora

24 y 18 (Figuras 4.9 y 4.10), esto puede deberse tambien a un desfasaje horario de los

puntos ya que son casi 200 puntos y existe una gran dispersion espacial de estos. Las zonas

con probabilidades mayores a 0.5 estan presentes al norte de Santa Fe y al suroeste de la

Provincia de La Pampa y se intensifican las probabilidades en esas zonas (Figura 4.11)

recien en el pronostico de 12 horas previas (corrida de las 00z).

Page 87: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

4. Modelos de pronosticos 79

Figura: 4.9: Pronostico para las 12z del dıa 23 de Noviembre de 2015 realizado 24 horas previas,

0.0 % de los puntos se clasificaron bien de un total de 195 puntos.

Figura: 4.10: Pronostico para las 12z del dıa 23 de Noviembre de 2015 realizado 18 horas previas,

0.0 % de los puntos se clasificaron bien de un total de 195 puntos.

Page 88: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

4. Modelos de pronosticos 80

Figura: 4.11: Pronostico para las 12z del dıa 23 de Noviembre de 2015 realizado 12 horas previas,

2.56 % de los puntos se clasificaron bien de un total de 195 puntos.

Page 89: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

5. CONCLUSIONES Y TRABAJOS FUTUROS

5.1. Conclusiones

El granizo es un peligroso fenomeno climatico severo que causa cuantiosas perdidas

economicas y pone en riesgo la seguridad de las personas. Mejorar la prediccion de granizo

y conocer con hasta 24 horas de anticipacion cuales pueden ser las posibles areas afectadas

permitira a las personas mitigar algunos de los posibles impactos de estos fenomenos

extremos.

Para construir buenos modelos de pronosticos es necesario contar con verdades de

campo para poder validar esos modelos. La obtencion de esos datos implica muchas veces

grandes costos y contar con infraestructura de relevamiento. Para este trabajo se propuso

un metodo de construccion de verdades de campo a partir de las publicaciones redes

de microblogging como Twitter. De esta fuente se obtuvo una cantidad significativa de

puntos que luego fueron validados con informacion de RADAR. El aporte de este trabajo

ha sido la utilizacion de una herramienta como NER para identificar en tweets nombres

de ubicaciones y a partir de un diccionario de toponimos obtener la ubicacion geografica

en latitud y longitud. Esta ha sido una forma novedosa y efectiva para relevar verdades

de campo de granizo de manera automatica.

Del analisis de conglomerados realizado para determinacion de areas convectivas cabe

destacar que los ındices tuvieron un comportamiento coherente con los umbrales de peli-

grosidad en los casos que estos son bien conocidos. Por otro lado, tambien se observaron

comportamientos analogos a otros estudios para variables construidas como Lapse Rate

y cortante de viento vertical (Wind Shear). Los principales conflictos o problemas que

se observaron en general fueron las grandes colas en los graficos de cajas para los casos

negativos. Otro problema observado es el gran solapamiento que existe en estas distri-

buciones y la poca incidencia de restringir el dominio de reflectividad a 60 dBZ, para la

configuracion actual de los radares INTA el umbral de 50 dBZ es mas adecuado. Al margen

de los problemas encontrados, el metodo para determinar areas de conveccion utilizando

GMM y etiquetando los componentes resultantes como positivos o negativos a partir de

lo observado con reflectividad de RADAR fue muy efectivo, a partir de estas separaciones

81

Page 90: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

5. Conclusiones y trabajos futuros 82

se lograron muy buenos ajustes para pronosticar areas de conveccion posteriormente.

En este trabajo se ha mostrado como a partir de la construccion de ındices atmosfericos

implementados con pronosticos operacionales como GFS y combinado con herramientas de

descubrimiento de conocimiento y machine learning es posible mejorar la determinacion

de las areas donde hay alta probabilidad de precipitacion de granizo. El enfoque muestra

la precision en la prediccion de la ubicacion del granizo con hasta un dıa de anticipacion.

Pronosticar areas de conveccion con probabilidad de ocurrencia de granizo funciono me-

jor con el abordaje de un problema de clasificacion, este fue mas efectivo que las regresiones.

Estas ultimas, en ningun caso y con ninguno de los preprocesamientos convergieron a un

solucion haciendo imposible que se pueda explicar el comportamiento de la probabilidad

de reflectividad a partir de ındices atmosfericos.

Por otro lado, la clasificacion de areas convectivas con Random Forest tuvo ajustes

muy buenos para todos los datasets aunque de esos pronosticos los que mejor funcionaron

durante la validacion con verdades de campo fueron los modelos construidos con el umbral

de reflectividad igual a 50 dBZ. Los mapas construidos con las probabilidades de pronos-

ticar una celda como positiva tienen coherencia con los puntos de validacion, es decir, que

existe una buena correlacion espacial entre estos.

5.2. Trabajos futuros

Desarrollar un nuevo target a partir de valores reales de reflectividad (dBZ) para

repetir los experimentos con ajustes de regresiones utilizando un estadıstico que no

suavice la intensidad del evento.

Dadas las diferencias entre escalas espaciales y temporales serıa muy importante

probar estos metodos de machine learning con pronosticos regionales de mayor re-

solucion.

Durante la primera etapa se relevaron muchos ındices atmosfericos pero aun ası al

avanzar en la problematica surgio la necesidad de probar con otros ındices que son

utilizados en otros estudios (MUCAPE, Numero del Bulk y Richardson, etc.).

Page 91: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

6. ANEXO I: CARACTERIZACION DE LOS AGRUPAMIENTOS A

TRAVES DE TABLAS

Tabla: 6.1: Valores promedio, mınimos y maximos para clusters positivos y negativos con umbral

de dBZ ≥ 50 y pronostico de -24 hs.

P[dBZ>=50]

Min Media Max

Negativo Positivo Negativo Positivo Negativo Positivo

Total Totals (TT) -30,27 26,52 40,55 48,52 57,70 60,05

Cross TT -45,67 0,76 14,50 20,20 28,60 28,45

Vertical TT 11,80 20,50 26,06 28,32 35,70 35,80

K Index -145,63 -17,49 12,02 27,20 42,53 45,10

Lifted -9,30 -11,70 7,46 1,88 25,00 16,10

Showalter -21,32 -22,67 3,92 -1,22 24,62 12,87

CAPE 0,00 0,00 56,68 225,90 2078,00 2954,00

CIN -890,00 -871,30 -32,37 -95,97 0,00 0,00

SWEAT Index 8,64 32,82 111,85 195,82 457,20 498,66

Temp. LCL -38,58 -13,91 -0,86 6,25 21,63 21,83

Altura del LCL 290,87 194,92 3260,02 2647,79 8498,25 5504,02

Isoterma 0◦ 180,43 1816,98 3321,73 3740,11 4831,94 4936,42

LR 0 a 3 km 2,59 4,15 6,00 6,37 8,35 7,94

LR 0 a 6 km 4,56 5,31 6,56 6,70 7,83 7,73

Shear 0 a 1 km 0,28 0,57 8,17 8,52 26,32 25,83

Shear 0 a 6 km 0,96 1,80 18,26 18,43 47,88 41,61

DCI -83,59 -14,74 4,45 21,07 44,24 47,92

N = 40909 Negativos = 27651 Positivos = 13258

83

Page 92: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

6. Anexo I: Caracterizacion de los agrupamientos a traves de tablas 84

Tabla: 6.2: Valores promedio, mınimos y maximos para clusters positivos y negativos con umbral

de dBZ ≥ 60 y pronostico de -24 hs.

P[dBZ>=60]

Min Media Max

Negativo Positivo Negativo Positivo Negativo Positivo

Total Totals (TT) -30,27 27,76 42,92 50,08 60,05 56,65

Cross TT -45,67 0,76 16,18 21,67 28,60 27,61

Vertical TT 11,80 22,30 26,74 28,41 35,80 33,20

K Index -145,63 5,53 16,49 31,48 45,10 40,00

Lifted -11,70 -9,20 5,79 1,25 25,00 13,70

Showalter -22,67 -19,50 2,45 -3,97 24,62 11,09

CAPE 0,00 0,00 107,43 243,59 2954,00 2388,00

CIN -890,00 -703,60 -51,19 -110,88 0,00 0,00

SWEAT Index 8,64 45,58 136,16 232,79 498,66 416,61

Temp. LCL -38,58 -13,69 1,21 8,83 21,83 19,18

Isoterma 0◦ 180,43 2982,16 3445,02 3854,46 4936,42 4599,61

LR 0 a 3 km 2,59 4,91 6,11 6,30 8,35 7,61

LR 0 a 6 km 4,56 5,87 6,60 6,62 7,83 7,65

Altura del LCL 194,92 287,33 3084,37 2326,57 8498,25 5493,81

Shear 0 a 1 km 0,28 1,39 8,33 6,88 26,32 16,60

Shear 0 a 6 km 0,96 5,97 18,27 19,66 47,88 41,61

DCI -83,59 -7,86 9,37 24,81 47,92 44,89

N = 40909 Negativos = 39680 Positivos = 1229

Page 93: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

6. Anexo I: Caracterizacion de los agrupamientos a traves de tablas 85

Tabla: 6.3: Valores promedio, mınimos y maximos para clusters positivos y negativos con umbral

de dBZ ≥ 50 y pronostico de -18 hs.

P[dBZ>=50]

Min Media Max

Negativo Positivo Negativo Positivo Negativo Positivo

Total Totals (TT) -22,20 27,33 40,12 48,01 60,04 60,76

Cross TT -37,50 0,63 14,42 20,16 28,81 30,18

Vertical TT 11,60 20,90 25,70 27,84 37,10 35,60

K Index -111,32 -21,82 11,45 25,89 41,88 47,23

Lifted -8,80 -12,10 7,78 2,14 24,50 16,10

Showalter -21,83 -22,66 4,20 -0,96 24,12 12,70

CAPE 0,00 0,00 50,10 224,88 2265,00 3458,00

CIN -960,00 -854,00 -27,75 -83,41 0,00 0,00

SWEAT Index 7,32 30,34 111,85 195,73 458,23 504,49

Temp. LCL -38,24 -13,63 -0,98 6,33 21,04 19,44

Altura del LCL 0,0 126,95 3214,25 2580,06 8615,69 5459,10

Isoterma 0◦ 425,15 1708,33 3269,71 3708,59 4859,68 4910,51

LR 0 a 3 km 2,69 3,85 5,93 6,27 8,58 8,27

LR 0 a 6 km 4,59 5,17 6,51 6,65 7,84 7,72

Shear 0 a 1 km 0,18 0,56 8,30 8,63 25,03 25,79

Shear 0 a 6 km 0,65 1,12 18,62 19,14 46,77 45,72

DCI -74,72 -16,53 3,43 20,39 39,52 46,32

N = 40780 Negativos = 27972 Positivos = 12808

Page 94: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

6. Anexo I: Caracterizacion de los agrupamientos a traves de tablas 86

Tabla: 6.4: Valores promedio, mınimos y maximos para clusters positivos y negativos con umbral

de dBZ ≥ 60 y pronostico de -18 hs.

P[dBZ >=60]

Min Media Max

Negativo Positivo Negativo Positivo Negativo Positivo

Total Totals (TT) -22,20 27,33 42,34 48,18 60,76 58,47

Cross TT -37,50 0,63 16,04 20,27 30,18 28,16

Vertical TT 11,60 22,10 26,30 27,90 37,10 35,60

K Index -111,32 -12,57 15,51 26,39 47,23 44,68

Lifted -12,10 -9,80 6,20 1,82 24,50 14,00

Showalter -22,66 -18,39 2,77 -1,59 24,12 11,35

CAPE 0,00 0,00 98,57 247,31 3458,00 2510,00

CIN -960,00 -609,70 -43,87 -75,36 0,00 0,00

SWEAT Index 7,32 41,71 134,87 211,86 504,49 416,49

Temp. LCL -38,24 -13,12 1,10 6,14 21,04 19,28

Altura del LCL 0,0 80,70 3037,27 2523,45 8615,69 5430,43

Isoterma 0◦ 425,15 2335,99 3397,61 3627,67 4910,51 4600,16

LR 0 a 3 km 2,69 4,73 6,03 6,24 8,58 7,60

LR 0 a 6 km 4,59 5,91 6,55 6,58 7,84 7,60

Shear 0 a 1 km 0,18 0,96 8,45 7,56 25,79 20,89

Shear 0 a 6 km 0,65 4,71 18,62 22,53 46,77 42,86

DCI -74,72 -7,75 8,24 20,17 46,32 44,27

N = 40780 Negativos = 39018 Positivos = 1762

Page 95: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

6. Anexo I: Caracterizacion de los agrupamientos a traves de tablas 87

Tabla: 6.5: Valores promedio, mınimos y maximos para clusters positivos y negativos con umbral

de dBZ ≥ 50 y pronostico de -12 hs.

P[dBZ >=50]

Min Media Max

Negativo Positivo Negativo Positivo Negativo Positivo

Total Totals (TT) -11,18 20,23 39,60 47,63 58,98 60,50

Cross TT -26,48 -6,87 14,12 20,02 28,12 29,10

Vertical TT 12,10 19,60 25,48 27,61 36,80 34,60

K Index -98,75 -15,19 10,52 25,63 39,56 45,92

Lifted -8,60 -11,00 8,21 2,65 23,60 15,50

Showalter -21,24 -22,10 4,23 -1,18 23,24 14,06

CAPE 0,00 0,00 30,87 180,52 1763,00 3143,00

CIN -1002,00 -874,00 -22,96 -72,50 0,00 0,00

SWEAT Index 10,02 27,63 111,61 192,25 460,51 499,74

Temp. LCL -37,88 -20,33 -1,27 5,99 19,88 20,36

Altura del LCL 4,51 166,79 3222,02 2576,25 8565,56 6631,41

Isoterma 0◦ 489,35 1655,37 3234,64 3648,01 4930,06 4904,05

LR 0 a 3 km 2,88 3,91 5,88 6,27 8,62 7,63

LR 0 a 6 km 4,73 5,19 6,50 6,66 7,78 7,78

Shear 0 a 1 km 0,22 0,52 8,36 8,35 27,04 25,92

Shear 0 a 6 km 1,30 1,23 18,55 19,26 46,48 42,95

DCI -64,40 -17,73 2,33 18,81 35,37 46,18

N = 40437 Negativos = 27668 Positivos = 12769

Page 96: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

6. Anexo I: Caracterizacion de los agrupamientos a traves de tablas 88

Tabla: 6.6: Valores promedio, mınimos y maximos para clusters positivos y negativos con umbral

de dBZ ≥ 60 y pronostico de -12 hs.

P[dBZ >=60]

Min Media Max

Negativo Positivo Negativo Positivo Negativo Positivo

Total Totals (TT) -11,18 20,23 41,90 48,77 59,87 60,50

Cross TT -26,48 -6,87 15,81 20,78 29,10 28,60

Vertical TT 12,10 22,20 26,09 27,98 36,80 32,90

K Index -98,75 -2,72 14,88 26,93 45,92 40,05

Lifted -10,20 -11,00 6,61 2,07 23,60 13,90

Showalter -22,10 -17,98 2,76 -4,23 23,24 12,88

CAPE 0,00 0,00 67,63 372,75 2930,00 3143,00

CIN -1002,00 -750,00 -37,25 -76,63 0,00 0,00

SWEAT Index 10,02 38,13 133,87 227,09 499,74 480,38

Temp. LCL -37,88 -20,33 0,81 6,97 20,36 18,68

Isoterma 0◦ 489,35 2259,58 3356,11 3619,39 4930,06 4581,97

LR 0 a 3 km 2,88 4,62 6,00 6,21 8,62 7,61

LR 0 a 6 km 4,73 5,73 6,55 6,61 7,78 7,72

Altura del LCL 4,51 465,32 3040,92 2377,73 8565,56 6422,64

Shear 0 a 1 km 0,22 0,61 8,35 8,65 27,04 19,62

Shear 0 a 6 km 1,23 4,35 18,66 22,10 46,48 42,27

DCI -64,40 -14,69 7,07 20,52 44,68 46,18

N = 40437 Negativos = 39046 Positivos = 1391

Page 97: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

7. ANEXO II: PUBLICACIONES REALIZADAS EN EL MARCO DE

LA TESIS

1. Banchero, S., Soria, M. A., & Mezher, R. (2015). Prediccion de granizo utilizando

ındices atmosfericos. In Simposio Argentino de GRANdes DAtos (AGRANDA 2015)-

JAIIO 44 (Rosario, 2015).

2. Banchero, S., Soria, M. A., & Mezher, R. (2016, November). Big Data para el anali-

sis de tormentas severas. In Simposio Argentino de GRANdes DAtos (AGRANDA

2016)-JAIIO 45 (Tres de Febrero, 2016).

89

Page 98: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Bibliografıa

[1] Global Forecast System (GFS) | National Centers for Environmental Infor-

mation (NCEI) formerly known as National Climatic Data Center (NCDC).

https://www.ncdc.noaa.gov/data-access/model-data/model-datasets/

global-forcast-system-gfs.

[2] Guide to Meteorological Instruments and Methods of Observation WMO, 2008 ed.

WMO-No. 8 (2008 edition, Updated in 2010).

[3] Numerical Weather Prediction | National Centers for Environmental Infor-

mation (NCEI) formerly known as National Climatic Data Center (NCDC).

about:reader?url=https://www.ncdc.noaa.gov/data-access/model-data/model-

datasets/numerical-weather-prediction.

[4] Prediccion numerica del tiempo - Meteorologıa.

http://es.vaisala.com/sp/meteorology/applications/numericalweatherprediction/Pages/default.aspx.

[5] SWEAT Index. http://weather.uky.edu/about_sweat.htm. Accedido el 2016-

02-26.

[6] Twitter Statistics – Statistic Brain. http://www.statisticbrain.com/

twitter-statistics/. Accedido el 2016-07-04.

[7] Worldometers, Real time world statistics. http://www.worldometers.info/

world-population/. Accedido el 25 de Junio de 2016.

[8] Interpretation Guide: COMPOSITE REFLECTIVITY. http://okfirst.mesonet.

org/train/nids/CREFguide.html, 2000. 00000.

[9] Fundamentos de radar meteorologico. http://www.meted.ucar.edu/radar/basic_

wxradar_es/index.htm, 2012.

[10] Inventory of File gfs.t06z.pgrb2.0p25.f000. http://www.nco.ncep.noaa.gov/pmb/

products/gfs/gfs_upgrade/gfs.t06z.pgrb2.0p25.f000.shtml, 12 2014.

90

Page 99: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Bibliografıa 91

[11] Ag Weather Center, D. o. B., and Agricultural Engineering, U. Lifted

Index. http://weather.uky.edu/lifted.html.

[12] Ag Weather Center, D. o. B., and Agricultural Engineering, U. Total

Totals Index. http://weather.uky.edu/about_totl.htm, 2009. Accedido el 2016-

02-26.

[13] Ag Weather Center, Department of Biosystems & Agricultural En-

gineering, U. o. K. Showalter Index. http://weather.uky.edu/show.html.

Accedido el 2016-02-18.

[14] Almada, N., Dıaz, F., Osorio, L., Blatter, J., Rodrıguez, H., De Battista,

J. J., Arias, N., and Bocchio, C. Evaluacion del dano por granizo en soja.

Boletın tecnico. Serie produccion vegetal. EEA Concepcion del Uruguay, 46 (2005).

[15] Alpert, J., and Wang, J. The real time nomads project: Access to operational

model data and value added products. In Proc. 20th Conf. on Interactive Infor-

mation Processing Systems (IIPS) for Meteorology, Oceanography, and Hydrology

(2004).

[16] American Meteorological Society. Hail. Glossary of Meteorology. http:

//glossary.ametsoc.org/wiki/Hail. Accedido el 20 de Enero de 2016.

[17] American Meteorological Society. Decibel - AMS Glossary. http://

glossary.ametsoc.org/wiki/Decibel, 2012. Accedido el 2016-03-02.

[18] American Meteorological Society. Lifting condensation level (LCL). Glossary

of Meteorology. http://glossary.ametsoc.org/wiki/Lifting_condensation_

level, 2012. Accedido el 18 de Febrero de 2016.

[19] American Meteorological Society. Cumulonimbus. Glossary of Meteorology.

http://glossary.ametsoc.org/wiki/Cumulonimbus, 2015. Accedido 20 de Enero

de 2016.

[20] Ananova, L., Gorbatenko, V., and Lukovskaya, I. Radar characteristics of

convective clouds during squalls in the southeastern part of western siberia. Russian

Meteorology and Hydrology 32, 7 (2007), 449–452.

Page 100: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Bibliografıa 92

[21] Banchero, S., Soria, M. A., and Mezher, R. Prediccion de granizo utilizando

ındices atmosfericos. In Simposio Argentino de GRANdes DAtos (AGRANDA 2015)-

JAIIO 44 (Rosario, 2015) (2015).

[22] Beniston, M. From turbulence to climate: numerical investigations of the atmosp-

here with a hierarchy of models. Springer Science & Business Media, 1998.

[23] Bennett, K. P., and Campbell, C. Support vector machines: hype or hallelujah?

ACM SIGKDD Explorations Newsletter 2, 2 (2000), 1–13.

[24] Bidner, A. The air force global weather central severe weather threat (sweat)

index-a preliminary report. Air Weather Service Aerospace Sciences Review, AWS

RP (1970), 105–2.

[25] Bowman, D. C., and Lees, J. M. Near real time weather and ocean model data

access with rnomads. Computers & Geosciences 78 (2015), 88–95.

[26] Breiman, L. Random forests. Machine Learning 45, 1 (2001), 5–32.

[27] Brooks, H. E., Lee, J. W., and Craven, J. P. The spatial distribution of severe

thunderstorm and tornado environments from global reanalysis data. Atmospheric

Research 67 (2003), 73–94.

[28] Caldarola, E. G., and Rinaldi, A. M. Big data: A survey - the new paradigms,

methodologies and tools. In DATA 2015 - Proceedings of 4th International Confe-

rence on Data Management Technologies and Applications, Colmar, Alsace, France,

20-22 July, 2015. (2015), pp. 362–370.

[29] Calinski, T., and Harabasz, J. A dendrite method for cluster analysis. Com-

munications in Statistics-theory and Methods 3, 1 (1974), 1–27.

[30] Changnon, S. A., Changnon, D., and Hilberg, S. Hailstorms across the nation:

An atlas about hail and its damages. ISWS Contract Report 2009-12 (2009).

[31] Colby Jr, F. P. Convective inhibition as a predictor of convection during ave-

sesame ii. Monthly weather review 112, 11 (1984), 2239–2252.

[32] COMET. S290 Unidad 6: Estabilidad atmosferica, 2010.

Page 101: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Bibliografıa 93

[33] Cox, J., and Plale, B. Improving automatic weather observations with the public

twitter stream. IU School of Informatics and Computing (2011).

[34] Craven, J. P., Brooks, H. E., and Hart, J. A. Baseline climatology of sounding

derived parameters associated with deep, moist convection. Natl. Wea. Dig 28, 1

(2004), 13–24.

[35] del Carmen Llasat Botija, M. Aplicacion del analisis termodinamico al

diagnostico de situaciones meteorologicas adversas. http://gama.am.ub.es/

catalan/documentos/apuntestermodinamica.pdf. Accedido el 26 de Febrero de

2016.

[36] Dempster, A. P., Laird, N. M., and Rubin, D. B. Maximum likelihood from

incomplete data via the em algorithm. Journal of the royal statistical society. Series

B (methodological) (1977), 1–38.

[37] Desouza, K. C., and Smith, K. L. Big data for social innovation, 2014.

[38] Dey, C., et al. Guide to the wmo table driven code form used for the represen-

tation and exchange of regularly spaced data in binary form: Fm 92 grib. Tech.

rep., WMO Tech. Rep., 98 pp.[Available online at http://www. wmo. int/pages/-

prog/www/WMOCodes/Guides/GRIB/GRIB2 062006. pdf.], 2007.

[39] Dixon, M. Cf/Radial RADAR/LIDAR Data Format, 2010. C++ Software Package.

[40] Dixon, M. Radx C++ Software Package for Radial Radar Data, 2010. C++ Soft-

ware Package.

[41] Doswell III, C. A. On convective indices and sounding classification. Preprints,

5th Australian Severe Thunderstorm Conference Bureau of Meteorology, 29 July - 2

August, 1996 (1996).

[42] Doviak, R. J., and Zrnic, D. S. Doppler Radar & Weather Observations. 2006.

[43] Edward Aguado, J. E. B. Understanding Weather and Climate, 6th ed ed. Pear-

son, 2013.

Page 102: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Bibliografıa 94

[44] EROSKI CONSUMER. Infografıa: El granizo. http://www.consumer.es/

web/es/medio_ambiente/naturaleza/2009/06/07/185799.php. Accedido el 20 de

Enero de 2016.

[45] Everitt B.S., e. a. Cluster analysis, 5ed. ed. Wiley, 2011.

[46] Fan, W., and Bifet, A. Mining big data: current status, and forecast to the

future. ACM SIGKDD Explorations Newsletter 14, 2 (2013), 1–5.

[47] Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P. From data mining to

knowledge discovery in databases. AI magazine 17, 3 (1996), 37.

[48] Force, U. A. Air weather service. Use of the skew T log P diagram in analysis

and forcasting, AWS/TR–79/006 (1979).

[49] Fraley, C., Raftery, A. E., and Scrucca, L. mclust: Gaussian Mixture Mo-

delling for Model-Based Clustering, Classification, and Density Estimation, 2016. R

package version 5.2.

[50] Gagne, D. J., McGovern, A., and Brotzge, J. Classification of convective

areas using decision trees. Journal of Atmospheric and Oceanic Technology 26, 7

(2009), 1341–1353.

[51] Gagne, D. J., McGovern, A., and Xue, M. Machine learning enhancement

of storm scale ensemble precipitation forecasts. In Intelligent Data Understanding

(CIDU), 2012 Conference on (2012), IEEE, pp. 39–46.

[52] Gagne, D. J., McGovern, A., and Xue, M. Machine learning enhancement of

storm-scale ensemble probabilistic quantitative precipitation forecasts. Weather and

Forecasting 29, 4 (2014), 1024–1043.

[53] Gagne II, D. J., McGovern, A., Brotzge, J., Coniglio, M., Correia Jr,

J., and Xue, M. Day-ahead hail prediction integrating machine learning with

storm-scale numerical weather models. In AAAI (2015), Citeseer, pp. 3954–3960.

[54] Galway, J. G. The lifted index as a predictor of latent instability. Bull. Amer.

Meteor. Soc 37, 528529 (1956), 1993.

Page 103: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Bibliografıa 95

[55] GDAL Development Team. GDAL - Geospatial Data Abstraction Library, Ver-

sion 1.10.1. Open Source Geospatial Foundation, 2013.

[56] Gematronik, I. M. Rainbow 5. Neuss, Germany: Gematronik GmbH (2007).

[57] Geoffrey McLachlan, D. P. Finite Mixture Models, 1 ed. Wiley Series in

Probability and Statistics. Wiley-Interscience, 2000.

[58] George, J. J. Weather forecasting for aeronautics. Academic press, 1960.

[59] Glossary, A. Instability - AMS Glossary, Apr. 2012.

[60] Glossary, A. Radiosonda, 2015.

[61] Glossary, A. Decibel, 2016.

[62] Gokhale, N. R. Hailstorms and hailstone growth. SUNY Press, 1975.

[63] Gottlieb, R. Analysis of stability indices for severe thunderstorms in the nort-

heastern united states. PhD thesis, 2009.

[64] Gray, S. Mesoscale meteorology in midlatitudes by paul markowski and yvette

richardson. wiley-blackwell, 2010. isbn: 978-0470742136. 430 pp. Quarterly Journal

of the Royal Meteorological Society 137, 657 (2011), 1103–1104.

[65] Greengard, S. Weathering a new era of big data. Commun. ACM 57, 9 (2014),

12–14.

[66] Grieser, J. Convection parameters, 2012.

[67] Han, J., Kamber, M., and Pei, J. Data mining: concepts and techniques: concepts

and techniques. Elsevier, 2011.

[68] Haupt, S. E., and Kosovic, B. Big data and machine learning for applied weather

forecasts: Forecasting solar power for utility operations. In IEEE Symposium Series

on Computational Intelligence, SSCI 2015, Cape Town, South Africa, December 7-

10, 2015 (2015), pp. 496–501.

[69] Heinselman, P. L., Priegnitz, D. L., Manross, K. L., Smith, T. M., and

Adams, R. W. Rapid sampling of severe storms by the national weather radar

testbed phased array radar. Weather and forecasting 23, 5 (2008), 808–824.

Page 104: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Bibliografıa 96

[70] Helmus, J., and Collis, S. The python arm radar toolkit (py-art), a library for

working with weather radar data in the python programming language. Journal of

Open Research Software 4, 1 (2016).

[71] Hermida, L., Sanchez, J. L., Lopez, L., Berthet, C., Dessens, J., Garcıa-

Ortega, E., and Merino, A. Climatic trends in hail precipitation in france:

spatial, altitudinal, and temporal variability. The Scientific World Journal 2013

(2013).

[72] Hill, L., Frew, J., and Zheng, Q. Geographic names: The implementation of a

gazetteer in a georeferenced digital library.

[73] Ho, T. K. Random decision forests. In Document Analysis and Recognition, 1995.,

Proceedings of the Third International Conference on (1995), vol. 1, IEEE, pp. 278–

282.

[74] Hoerl, A. E., and Kennard, R. W. Ridge regression: Biased estimation for

nonorthogonal problems. Technometrics 12, 1 (1970), 55–67.

[75] Holton, J. R., and Hakim, G. J. An introduction to dynamic meteorology, vol. 88.

Academic press, 2012.

[76] INTA - Instituto Nacional de Tecnologıa Agropecuaria. Red de Radares

INTA. http://radar.inta.gov.ar. Accedido el 16 de Enero de 2016.

[77] Iribarne, J. V., and Godson, W. L. Atmospheric thermodynamics, vol. 6. Sprin-

ger Science & Business Media, 2012.

[78] Jagadish, H., Gehrke, J., Labrinidis, A., Papakonstantinou, Y., Patel,

J. M., Ramakrishnan, R., and Shahabi, C. Big data and its technical challenges.

Communications of the ACM 57, 7 (2014), 86–94.

[79] James, G., Witten, D., Hastie, T., and Tibshirani, R. An introduction to

statistical learning, vol. 6. Springer, 2013.

[80] Jenkins, M. Unit 7: Atmospheric Stability and Instability, Nov. 2005.

[81] Kagermazov, A. K. The forecast of hail based on the atmospheric global model

(t254 ncep) output data. Russian Meteorology and Hydrology 37, 3 (2012), 165–169.

Page 105: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Bibliografıa 97

[82] Kaisler, S., Armour, F., Espinosa, J. A., and Money, W. Big data: issues

and challenges moving forward. In System Sciences (HICSS), 2013 46th Hawaii

International Conference on (2013), IEEE, pp. 995–1004.

[83] Kalnay, E., Kanamitsu, M., and Baker, W. Global numerical weather predic-

tion at the national meteorological center. Bulletin of the American Meteorological

Society 71, 10 (1990), 1410–1428.

[84] Kanamitsu, M. Description of the nmc global data assimilation and forecast sys-

tem. Weather and Forecasting 4, 3 (1989), 335–342.

[85] Khan, N., Yaqoob, I., Hashem, I. A. T., Inayat, Z., Mahmoud Ali, W. K.,

Alam, M., Shiraz, M., and Gani, A. Big data: survey, technologies, opportuni-

ties, and challenges. The Scientific World Journal 2014 (2014).

[86] Kumjian, M. R. Principles and applications of dual-polarization weather radar.

part i: Description of the polarimetric radar variables. J. Oper. Meteor 1, 19 (2013),

226–242.

[87] Laboratory, U.-E. O. NCAR Integrated Surface Flux System (ISFS). UCAR/N-

CAR - Earth Observing Laboratory, 1990. 00000.

[88] Laing, A., and Evans, J. Introduction to tropical meteorology. University Cor-

poration for Atmospheric Research, Boulder, CO (2011).

[89] Lipps, F. B., and Hemler, R. S. Another look at the thermodynamic equation

for deep convection. Monthly Weather Review 108, 1 (1980), 78–84.

[90] Lundh, F., and Lundh, F. Python Standard Library. O’Reilly & Associates, Inc.,

Sebastopol, CA, USA, 2001.

[91] Lynch, P. The origins of computer weather prediction and climate modeling. Jour-

nal of Computational Physics 227, 7 (2008), 3431–3444.

[92] Lopez, L., Garcıa-Ortega, E., and Sanchez, J. L. A short-term forecast

model for hail. Atmospheric research 83, 2 (2007), 176–184.

[93] Maechler, M. sfsmisc: Utilities from ”Seminar fuer Statistik.ETH Zurich, 2016. R

package version 1.1-0.

Page 106: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Bibliografıa 98

[94] Maimon, O., and Rokach, L. Data mining and knowledge discovery handbook,

vol. 2. Springer, 2005.

[95] Marinaki, A., Spiliotopoulos, M., and Michalopoulou, H. Evaluation of

atmospheric instability indices in greece. Advances in Geosciences 7, 7 (2006), 131–

135.

[96] Mezher, R. N., Doyle, M., and Barros, V. Climatology of hail in argentina.

Atmospheric research 114 (2012), 70–82.

[97] Mezher, R. N., and Mercuri, P. A. Analisis espacial y temporal de la ocurrencia

de eventos de granizo sobre argentina. XV Congresso Brasileiro de Meteorologia

(Aug. 2008).

[98] Mezher, R. N., Mercuri, P. A., and Gattinoni, N. N. Distribucion espacio-

temporal del granizo en argentina. Reunion Argentina de Agrometeorologıa. 12. 2008

10 08-10, 8 al 10 de octubre de 2008. San Salvador de Jujuy. AR. (2008).

[99] Mezher, R. N. B. V., and P., M. Climatologıa de eventos de granizo en la region

pampeana. Congremet X – CLIMET XIII. Del 5 al 9 de octubre del ano 2009,

Buenos Aires, Argentina. (2009).

[100] Miller, R. C. Notes on analysis and severe-storm forecasting procedures of the

air force global weather central. Tech. rep., DTIC Document, 1972.

[101] Mohanty, S., Jagadeesh, M., and Srivatsa, H. Big data imperatives: Enter-

prise ‘Big Data’warehouse,‘BI’implementations and analytics. Apress, 2013.

[102] Moncrieff, M., and Miller, M. The dynamics and simulation of tropical cu-

mulonimbus and squall lines. Quarterly Journal of the Royal Meteorological Society

102, 432 (1976), 373–394.

[103] National Centers for Environmental Prediction, National Weather

Service, NOAA, U.S. Department of Commerce. NCEP GFS 0.25 Degree

Global Forecast Auxiliary Grids Historical Archive, 2015.

Page 107: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Bibliografıa 99

[104] National Oceanic and Atmospheric Administration (NOAA) National

Operational Model Archive & Distribution System. GFS (0.5 degree).

http://nomads.ncep.noaa.gov/cgi-bin/filter_gfs_0p25.pl?

[105] NOAA - National Weather Service. GFS half degree documentation. http:

//nomads.ncep.noaa.gov/txt_descriptions/GFS_half_degree_doc.shtml. Ac-

cedido el 4 de Noviembre de 2014.

[106] Occhiuzzi, S., Mercuri, P., and Pascale, C. Herramientas para la evaluacion

y gestion del riesgo climatico en el sector agropecuario. 130 p. Ministerio de Agri-

cultura, Ganaderıa y Pesca de la Nacion. 1a ed. Buenos Aires, Argentina (2011).

[107] Olaya, V. Sistemas de informacion geografica. Cuadernos Internacionales de Tec-

nologıa para el Desarrollo Humano, 2009, num. 8 (2009).

[108] Oliver, J. E. The encyclopedia of world climatology. Springer Science & Business

Media, 2005.

[109] Organizacion Panamericana de la Salud. Curso de orientacion para el con-

trol de la contaminacion del aire. http://www.bvsde.paho.org/cursoa_meteoro/

lecc4/lecc4_2.html, Enero 2005. Accedido: 2016-02-12.

[110] Orlanski, I. A rational subdivision of scales for atmospheric processes. Bulletin

of the American Meteorological Society 56 (1975), 527–530.

[111] Padmanabha, A. Ridge regression. https://brilliant.org/wiki/

ridge-regression/. Accedido el 11 de Enero de 2017.

[112] Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B.,

Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Van-

derplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., and

Duchesnay, E. Scikit-learn: Machine learning in Python. Journal of Machine

Learning Research 12 (2011), 2825–2830.

[113] Peppier, R. A review of static stability indices and related thermodynamic para-

meters, illinois state water survey division, sws miscellaneous publication 104, 1988.

Page 108: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Bibliografıa 100

[114] R Core Team. R: A Language and Environment for Statistical Computing. R

Foundation for Statistical Computing, Vienna, Austria, 2016.

[115] Ramey, C., and Fox, B. Bash Reference Manual. Network Theory Limited, 2003.

[116] Rasmussen, E. N., and Blanchard, D. O. A baseline climatology of sounding-

derived supercell andtornado forecast parameters. Weather and Forecasting 13, 4

(1998), 1148–1164.

[117] Rew, R., and Davis, G. Netcdf: an interface for scientific data access. IEEE

computer graphics and applications 10, 4 (1990), 76–82.

[118] Riemann-Campe, K., Fraedrich, K., and Lunkeit, F. Global climatology of

convective available potential energy (cape) and convective inhibition (cin) in era-40

reanalysis. Atmospheric Research 93, 1 (2009), 534–545.

[119] Rinehart, R. Radar for meteorologists. 1999.

[120] Ritter, N., and Ruth, M. Geotiff format specification, 2000.

[121] Rousseeuw, P. J. Silhouettes: a graphical aid to the interpretation and validation

of cluster analysis. Journal of computational and applied mathematics 20 (1987),

53–65.

[122] Ruiz, J. Metodo de la parcela, utilizando un proceso reversible. CIMA - Centro de

Investigaciones del Mar y la Atmosfera, 2013.

[123] Rutledge, G. K., Alpert, J., and Ebisuzaki, W. Nomads: A climate and weat-

her model archive at the national oceanic and atmospheric administration. Bulletin

of the American Meteorological Society 87, 3 (2006), 327.

[124] Rutledge, G. K., Alpert, J., Stouffer, R., and Lawrence, B. The noaa

operational model archive and distribution system (nomads). In Realizing Teracom-

puting: Proceedings of the Tenth ECMWF Workshop on the Use of High Perfor-

mance Computing in Meteorology: Reading, UK, 4-8 November, 2002 (2003), World

Scientific, p. 106.

[125] Sagiroglu, S., and Sinanc, D. Big data: A review. In Collaboration Technologies

and Systems (CTS), 2013 International Conference on (2013), IEEE, pp. 42–47.

Page 109: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Bibliografıa 101

[126] Sahu, H., Shrma, S., and Gondhalakar, S. A brief overview on data mining

survey. International Journal of Computer Technology and Electronics Engineering

(IJCTEE) Volume 1 (2011).

[127] Schwarz, G., et al. Estimating the dimension of a model. The annals of statistics

6, 2 (1978), 461–464.

[128] Sela, J. G. Spectral modeling at the national meteorological center. Monthly

Weather Review 108, 9 (1980), 1279–1292.

[129] Service, N. N. W. Glossary - NOAA’s National Weather Service, June 2009.

[130] Service, N. N. W. Glossary - NOAA’s National Weather Service, 2009.

[131] Showalter, A. K. A stability index for thunderstorm forecasting. Bull. Amer.

Meteor. Soc 34, 6 (1953), 250–252.

[132] Silverman, B. W. Density estimation for statistics and data analysis, vol. 26. CRC

press, 1986.

[133] Skolnik, M. I. Introduction to radar systems, 1980.

[134] Smola, A., and Vapnik, V. Support vector regression machines. Advances in

neural information processing systems 9 (1997), 155–161.

[135] Smola, A. J., et al. Regression estimation with support vector learning machines.

PhD thesis, Master’s thesis, Technische Universitat Munchen, 1996.

[136] Sundberg, R. Shrinkage regression. Encyclopedia of environmetrics (2002).

[137] Tajbakhsh, S., Ghafarian, P., and Sahraian, F. Instability indices and fo-

recasting thunderstorms: the case of 30 april 2009. Nat Hazards Earth Syst Sci 12

(2012), 1–11.

[138] Team, G. Geonames geographical database.

(http://download.geonames.org/export/dump/), 2015.

[139] Tibshirani, R. Regression shrinkage and selection via the lasso. Journal of the

Royal Statistical Society. Series B (Methodological) (1996), 267–288.

Page 110: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Bibliografıa 102

[140] Tikhonov, A. N., and Arsenin, V. Y. Solutions of ill-posed problems.

[141] UCAR. Mesoscale meteorology primer. https://www.meted.ucar.edu/

mesoprim/. Accedido: 25/02/2016.

[142] University of Wyoming - Department of Atmospheric Science. Atmosp-

heric Soundings. http://weather.uwyo.edu/upperair/sounding.html. Accedido

el 20 de Enero de 2016.

[143] US Department of Commerce, N. Env Parameters and Indices. http://www.

weather.gov/lmk/indices. [Internet; descargado 10-febrero-2017].

[144] US Department of Commerce, N. Definitions of Atmospheric Variables, July

2009.

[145] Van Der Walt, S., Colbert, S. C., and Varoquaux, G. The numpy array: a

structure for efficient numerical computation. Computing in Science & Engineering

13, 2 (2011), 22–30.

[146] Van Rijmenam, M. Think Bigger: Developing a Successful Big Data Strategy for

Your Business. AMACOM Div American Mgmt Assn, 2014.

[147] Vapnik, V., Golowich, S. E., Smola, A., et al. Support vector method for

function approximation, regression estimation, and signal processing. Advances in

neural information processing systems (1997), 281–287.

[148] Vapnik, V. N., and Vapnik, V. Statistical learning theory, vol. 1. Wiley New

York, 1998.

[149] Verbeek, J. J., Vlassis, N., and Krose, B. Efficient greedy learning of gaussian

mixture models. Neural computation 15, 2 (2003), 469–485.

[150] Videla, A., and Williams, J. J. RabbitMQ in action. Manning, 2012.

[151] Weisman, M. L., and Klemp, J. B. Characteristics of isolated convective storms.

In Mesoscale meteorology and forecasting. Springer, 1986, pp. 331–358.

[152] Yair, Y., Lynn, B., Price, C., Kotroni, V., Lagouvardos, K., Morin, E.,

Mugnai, A., and Llasat, M. d. C. Predicting the potential for lightning activity

Page 111: Evalución de la capacidad de predicción de granizo de índices … · 2018-12-28 · This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico

Bibliografıa 103

in mediterranean storms based on the weather research and forecasting (wrf) model

dynamic and microphysical fields. Journal of Geophysical Research: Atmospheres

115, D4 (2010).