TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

21
Vol 44 N o 1 (2019) 45 - 65 TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA DISCRIMINACIÓN ENTRE ECOS METEOROLÓGICOS Y NO METEOROLÓGICOS USANDO INFORMACION DE UN RADAR DE BANDA C Sofia Ruiz Suarez 1,2 , Mariela Sued 2,7 , Luciano Vidal 1 , Paola Salio 3,4,5,7 , Daniela Rodriguez 2,7 , Stephen Nesbitt 6 y Yanina Garcia Skabar 1,5,7 1 Servicio Meteorológico Nacional, Buenos Aires, Argentina 2 Instituto de Cálculo, Facultad de Ciencias Exactas y Naturales - UBA 3 Centro de Investigaciones del Mar y la Atmósfera- UBA 4 Departamento de Ciencias de la Atmosfera y los Océanos - UBA 5 UMI-Instituto Franco Argentino sobre Estudios del Clima y sus ImpactosCNRS 3351, Buenos Aires, Argentina 6 Department of Atmospheric Sciences, University of Illinois at Urbana-Champaign, Urbana-Champaign, USA 7 Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET) (Manuscrito recibido el 8 de agosto de 2017, en su versión final el 2 de enero de 2018) RESUMEN Los datos provenientes de los radares meteorológicos son de suma importancia para el diagnóstico y monitoreo de los sistemas que producen precipitación y sus posibles fenómenos severos asociados. Los ecos causados por objetivos no meteorológicos introducen errores en la información por lo que es necesario detectar la presencia de los mismos previo a la utilización de los datos. Este trabajo presenta cuatro técnicas de clasificación supervisada basadas en diferentes modelos estadísticos que buscan dar una respuesta a este problema. Asimismo como parte importante de este trabajo, se aplicaron técnicas de remuestreo estadísticas sobre los datos de entrenamiento, las que permitieron hacer un análisis más completo sobre los resultados. En la actualidad, las técnicas de remuestreo son herramientas fundamentales en la estadística moderna. Las mismas, a partir de simulaciones sobre los datos, permiten obtener información adicional sobre los modelos planteados. Para este trabajo se realizó un estudio de caso con datos provenientes del radar meteorológico Doppler banda C de doble polarización ubicado en la Estación Experimental Agropecuaria INTA Anguil (La Pampa). Partiendo de la clasificación manual de un experto, se aplicaron cuatro métodos de clasificación supervisada de diferentes grados de flexibilidad en su estructura: Modelo lineal, Modelo Cuadrático, Modelo Logístico y Modelo de Bayes Naive. Luego se compararon los resultados y se evaluó el desempeño de cada uno de ellos. Si bien se encontraron dificultades a la hora de clasificar las zonas de frontera entre clases, los resultados obtenidos fueron adecuados,mostrando el mejor desempeño el modelo menos flexible, el modelo lineal. Se considera necesario seguir avanzando en esta línea de investigación a fin de incorporar una mayor cantidad de casos y tener una mayor significancia de los resultados. Dirección Electrónica: [email protected] 45

Transcript of TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Page 1: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Vol 44 No1 (2019) 45− 65

TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA DISCRIMINACIÓNENTRE ECOS METEOROLÓGICOS Y NO METEOROLÓGICOS USANDO

INFORMACION DE UN RADAR DE BANDA C

Sofia Ruiz Suarez1,2, Mariela Sued2,7, Luciano Vidal1, Paola Salio3,4,5,7, Daniela Rodriguez2,7, StephenNesbitt6 y Yanina Garcia Skabar1,5,7

1Servicio Meteorológico Nacional, Buenos Aires, Argentina2Instituto de Cálculo, Facultad de Ciencias Exactas y Naturales - UBA

3Centro de Investigaciones del Mar y la Atmósfera- UBA4Departamento de Ciencias de la Atmosfera y los Océanos - UBA

5UMI-Instituto Franco Argentino sobre Estudios del Clima y sus ImpactosCNRS 3351, Buenos Aires,Argentina

6Department of Atmospheric Sciences, University of Illinois at Urbana-Champaign,Urbana-Champaign, USA

7Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET)

(Manuscrito recibido el 8 de agosto de 2017, en su versión final el 2 de enero de 2018)

RESUMENLos datos provenientes de los radares meteorológicos son de suma importancia parael diagnóstico y monitoreo de los sistemas que producen precipitación y sus posiblesfenómenos severos asociados. Los ecos causados por objetivos no meteorológicosintroducen errores en la información por lo que es necesario detectar la presencia delos mismos previo a la utilización de los datos. Este trabajo presenta cuatro técnicasde clasificación supervisada basadas en diferentes modelos estadísticos que buscandar una respuesta a este problema.Asimismo como parte importante de este trabajo, se aplicaron técnicas de remuestreoestadísticas sobre los datos de entrenamiento, las que permitieron hacer un análisismás completo sobre los resultados. En la actualidad, las técnicas de remuestreoson herramientas fundamentales en la estadística moderna. Las mismas, a partirde simulaciones sobre los datos, permiten obtener información adicional sobre losmodelos planteados.Para este trabajo se realizó un estudio de caso con datos provenientes del radarmeteorológico Doppler banda C de doble polarización ubicado en la EstaciónExperimental Agropecuaria INTA Anguil (La Pampa). Partiendo de la clasificaciónmanual de un experto, se aplicaron cuatro métodos de clasificación supervisada dediferentes grados de flexibilidad en su estructura: Modelo lineal, Modelo Cuadrático,Modelo Logístico y Modelo de Bayes Naive. Luego se compararon los resultados yse evaluó el desempeño de cada uno de ellos. Si bien se encontraron dificultadesa la hora de clasificar las zonas de frontera entre clases, los resultados obtenidosfueron adecuados,mostrando el mejor desempeño el modelo menos flexible, el modelolineal. Se considera necesario seguir avanzando en esta línea de investigación a finde incorporar una mayor cantidad de casos y tener una mayor significancia de losresultados.

Dirección Electrónica: [email protected]

45

Page 2: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada... S. Ruiz Suarez y coautores

Palabras clave: clasificación supervisada, remuestreo, eco no meteorológico, radarmeteorológico.

SUPERVISED CLASSIFICATION TECHNIQUES FOR DISCRIMINATIONBETWEEN METEOROLOGICAL AND NON-METEOROLOGICAL ECHOES

USING A C-BAND RADAR

ABSTRACTData coming from meteorological radars is of the utmost importance for thediagnosis and monitoring of precipitation systems and their possible associatedsevere phenomena. The echoes caused by objectives that are not meteorologicalintroduce errors in the information. Therefore, it is necessary to detect their presencebefore using this data. This paper presents four supervised classification techniquesbased on different models which seek to give an answer to this problem.In addition, as an important part of this work, resampling techniques wereimplemented on the training set in order to further asses the results. Resamplingmethods are an indispensable tool in modern statistics. Those techniques provideadditional information about the model of interest by repeatedly drawing samplesfrom then data.Based on data from a C-band Dual-PolarizationDoppler weather radar locatedin Anguil and from a previous expert’s manual classification, four supervisedclassification methods with different degrees of flexibility in their structure wereimplemented: Lineal Model, Quadratic Model, Logistic Model and Bayes NaiveModel. Finally, the results of each of them were assessed and compared. Althoughdifficulties were encountered in classifying boundary zones between classes, theresults obtained were adequate, showing the best performance in the least flexiblemodel, the linear one. It is considered necessary to keep working in this line ofresearch in order to include more cases in the analysis and allow a better inferenceon the results.Keywords: supervised classification, resampling methods, non-meteorological echoes,weather radar.

1. INTRODUCCIÓN

Los radares meteorológicos son una herramientafundamental para el diagnóstico y monitoreode los sistemas precipitantes y los posiblesfenómenos meteorológicos severos asociadoscomo granizo, ráfagas destructivas de viento eincluso tornados.

Para poder utilizar la información obtenida apartir de los radares meteorológicos es necesarioen primera instancia aplicar metodologías decontrol de calidad tendientes a minimizar lasfuentes de error (Zawadzki, 1984) presentes

en los datos con el objetivo de poder emplearlos mismos rutinariamente en aplicacionesrelacionadas con estimaciones cuantitativas deprecipitación, detección de granizo, elaboraciónde pronósticos a muy corto plazo, asimilaciónde datos en modelos numéricos de pronósticodel tiempo, diagnóstico de tiempo severo, entreotras aplicaciones. Uno de los problemas másrecurrentes en los datos de radar meteorológico,es la presencia de ecos no meteorológicos talescomo ecos biológicos (insectos, pájaros), ecosde terreno (edificios, montañas), o inclusopresencia de propagación anómala (Rico-Ramirez

46

Page 3: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada...

y Cluckie, 2008; Berenguer y otros, 2006).

Esta problemática ha sido abordada por variosautores a lo largo de las últimas décadas dediferentes maneras. Se han desarrollado distintastécnicas, las cuales pueden dividirse en las queimplementan filtro directamente en el procesadorde señal I\Q del radar (Siggia y Passarelli, 2004)y aquellas que lo hacen sobre los momentosobtenidos (reflectividad, doppler, coeficiente decorrelación, entre otras variables). Sobre estasúltimas a su vez, se pueden distinguir tres tiposde abordajes: las que utilizan técnicas de árbolesde decisión (Stein y Smith, 2001), las que lohacen en base a redes neuronales (Lakshmanany otros,2010; Greku y Krajewski, 2000), y lasque utilizan las llamadas técnicas de lógicadifusa (Cho y otros, 2006; Gourley y otros, 2006;Hubbert y otros, 2009; Bo Young Ye y otros,2015; Berenguer y otros, 2006; Rico-Ramírezy Cluckie, 2008; entre otros). Es posible notaren los últimos años una leve tendencia autilizar preferentemente los modelos basadosen lógica difusa. En su mayoría los trabajosrealizados hacen un análisis pixel por pixel y sebasan, según la frecuencia electromagnética deobservación utilizada por el radar y las variablesdisponibles, en distinguir comportamiento de lainformaciónen dos clases: meteorológica y nometeorológica.

Numerosos autores, entre ellos Moszkowiczyotros (1993), Berenguer y otros (2006),Rico-Ramirez y Cluckie (2008), Gourley yotros (2006) buscan estimar para cada pixella probabilidad de pertenecer a la clase “econo meteorológico” y proponen clasificadoresbasados en la regla de clasificación de Bayes.En particular, Moszkowicz y otros (1993) a finde identificar la presencia de ecos de terrenoasociados a propagación anómala propusieronun método de clasificación basado en la reglade Bayes tomando como campos de entradaen su modelo la elevación de la estrategia deescaneo con mayor valor de reflectividad, el valorde ese máximo y el gradiente horizontal de lareflectividad, entre otros. Los autores suponenque las funciones de probabilidad condicional

de cada campo sujeto a cada tipo de eco songaussianas y luego estiman los parámetros dedichas distribuciones con datos previamenteseleccionados y clasificados de forma manual porun experto.

Más recientemente Berenguer y otros (2006)presentan un trabajo focalizado hacia laeliminación de propagación anómala. Para cadapixel evalúan la posibilidad de que la mediciónhaya sido afectada por dicho fenómeno asociandoun valor entre 0 y 1. Con este objetivo, analizanlas distribuciones de las frecuencias de cadacampo estudiado condicional al tipo de eco.A partir de la regla de clasificación de Bayes,derivan la probabilidad condicional de cadapixel de estar afectado según el valor de loscampos. Propone dos configuraciones distintasdel algoritmo dependiendo si se trata de zonascercanas al mar o no.

Estudios previos han demostrado la granutilidad de disponer de información polarimétricapara identificar áreas con presencia de ecosno meteorológicos. Trabajos como Schur yotros (2003) y Cho y otros (2006) presentanclasificadores basados en técnicas de lógica difusapara radares de doble polarización. Los autoresdefinen las variables predictoras a partir delcomportamiento de las variables polarimétricastanto a nivel espacial como temporal en losdistintos tipos de ecos.

En el estudio presentado por Gourley yotros (2006) también se trabaja sobre datosprovenientes de radares de doble polarización contécnicas de lógica difusa. En este caso los autorestambién tienen en cuenta el comportamiento dela velocidad radial y de la continuidad en elcampo de la reflectividad horizontal. Sugierenconsiderar funciones de pertenencia derivadasa partir de una estimación no paramétricade la densidad de cada campo en cada eco.Rico-Ramirez y Cluckie (2008) presentan unclasificador en donde la Regla de Bayes y la lógicadifusa son protagonistas. Trabajan con radaresde banda C de doble polarización. Este modelose diferencia de los algoritmos presentados por

47

Page 4: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada... S. Ruiz Suarez y coautores

Gourleyy otros (2006) y por Schury otros (2003)en cuanto a la forma de calcular la textura delas variables.

A diferencia de muchos de los trabajospreviamente mencionados, el presentetrabajo busca abordar la problemática dela diferenciación entre tipos de ecos a partir detécnicas de estadística clásica que modelan elproblema según las leyes de la probabilidad.Según Kosko (1994) la lógica difusa y laprobabilidad difieren tanto en lo conceptualcomo en lo teórico, pero a la vez coincidenen varios puntos. Ambos sistemas combinanconjuntos y proposiciones de manera asociativa,distributiva y conmutativa, y a la vez describenincertidumbres a partir de una cierta cantidadperteneciente al intervalo [0,1]. La diferenciaentre ambos enfoques radica en cómo sonconsiderados los conjuntos y sus complementos.Para el enfoque clásico la intersección entre unconjunto y su complemento es vacía, por lotanto la probabilidad de que esto ocurra es cero.En cambio, en la teoría de la lógica difusa estono siempre es verdadero, es decir podría pasarque existiera algún elemento en la intersecciónentre un conjunto y su complemento.

Actualmente en Argentina se cuenta conradares Doppler de doble polarización bandaC (frecuencia de 5.6 GHz) que funcionan deforma operativa y son utilizados a diario porel Servicio Meteorológico Nacional. Además, seestá llevando a cabo el proyecto SiNaRaMe(Sistema Nacional de Radares Meteorológicos)que tiene como fin expandir la red actualde radares a partir de la incorporación deinstrumentos de fabricación nacional. Estecrecimiento vertiginoso de la disponibilidadde datos de radar en nuestro país implica lanecesidad de avanzar en la implementaciónde metodologías de control de calidad de lainformación generada para poder contar condatos más precisos que puedan ser utilizadosen las distintas aplicaciones.

El objetivo del presente trabajo es introduciry evaluar el desempeño de cuatro métodos de

clasificación supervisada a fin de mejorar ladiferenciación entre ecos meteorológicos y nometeorológicos como un primer paso dentrodel desarrollo de un sistema de control decalidad de la información de radar a serimplementada por el Servicio MeteorológicoNacional. Los métodos presentados están basadosen la Regla de clasificación de Bayes. Este trabajopropone hacer un análisis del comportamientode dichos métodos, para luego compararlos einferir sobre la capacidad discriminante de cadauno de ellos. Para la validación y testeo de losdiferentes procedimientos, se utilizaron técnicasestadísticas de remuestreo de manera de poderhacer un análisis más completo de los resultadosobtenidos.

El trabajo se organiza de la siguiente forma. Enla Sección 2 se describen los datos utilizados, enla Sección 3 se presenta la metodología a seguir yse exponen los métodos de clasificación utilizados.La discusión de los resultados obtenidos seexpone en la Sección 4. Por último en la Sección 5se dan las conclusiones del trabajo y se proponenlas líneas de trabajo futuro.

2. DATOS

Se utilizaron datos del radar meteorológico SelexSI Gematronik Doppler de doble polarizaciónen banda C (5.6 GHz) instalado en el predio dela Estación Experimental Agropecuaria INTAAnguil (La Pampa), ubicado en 36o 22’ 22,9”Sy 63o 58’ 58”O (Figura 1). Los datos analizadoscorresponden a la estrategia de escaneo quegenera un volumen de datos cada 10 minutosconformado por un total de 10 elevaciones deantena que varían entre 0,5 y 19,2 grados, conuna resolución en rango de 0,25 km y de 1o enazimut (ancho del haz), y un alcance máximo de120 kilómetros. Se seleccionaron los volúmenescon el mayor tiempo de emisión entre pulsos afin de tener una velocidad nyquist del radar alta,en este caso de 40 metros por segundo para elescaneo seleccionado. Esto se corresponde conun valor de frecuencia de repetición de pulso de1000 y 750 Hz considerando un procesamientode señal staggered.

48

Page 5: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada...

Figura 1: Ubicación del radarmeteorológico Doppler banda C de doblepolarizaciónen la Estación ExperimentalAgropecuaria INTA Anguil. En círculosrojos llenos se indica el área de coberturade 240 km, mientras que en punteado elde 120 km. En círculos azules se muestrala posición de los radares de banda Cexistentes en Argentina. En sombreado semuestra la topografía en metros.

Para este trabajo de las variables generadas por elradar se consideraron: coeficiente de correlaciónco-polar (ρHV ), velocidad radial Doppler (V), yreflectividad diferencial (ZDR), para la primeray segunda elevación de antena del radar (0,5 y1,3 grados). Al considerar la velocidad Dopplercomo variable de entrada es necesario tener encuenta la posible presencia de aliasing en losdatos (Battan, 1973). Dado que en los casostrabajados no se detectó este efecto, no serealizaron correcciones previas a los datos. Noobstante, si existieran errores por aliasing sedeberían corregir con el fin de que los resultadossean consistentes.

Tal como se explicará en la próxima sección,los algoritmos de clasificación supervisada queaquí se presentan se construyen utilizandouna muestra de entrenamiento donde, paracada observación, se dispone del valor delas variables observadas y la categoría a la

cual la observación pertenece(en este casoentre eco meteorológico y no meteorológico).Esta información es fundamental para laconstrucción del procedimiento de clasificaciónque determinará la clase a la que perteneceuna nueva observación en función del valor delas variables disponibles medidas en la nuevaobservación. Con este objetivo, se analizó unconjunto de casos y se realizó una clasificaciónmanual asistida por un meteorólogo expertoen el área. El experto meteorólogo realizóuna inspección visual donde se consideró lavariabilidad temporal y la estructura espacial delos ecos de radar para determinar la pertenenciaa una u otra categoría. Para el caso de ecosmeteorológicos, se buscó ecos con un apreciabledesarrollo vertical (observable al menos en lastres primeras elevaciones de la antena) en lavariable reflectividad horizontal, que al mismotiempo presenten velocidades Doppler distintasde cero y valores de coeficientes de correlaciónHV cercanos a la unidad. En contraste, los ecosno meteorológicos no presentan un desarrollovertical apreciable, ya que mayormente se ubicanen el primer kilómetro de la atmósfera y tambiénpresentan una señal con una textura espacial nohomogénea tanto en el caso de ecos biológicoscomo en ecos originados por propagaciónanómala. De estos casos, se seleccionaron algunosde ellos para ser utilizados como muestra deentrenamiento, y otros para ser utilizados comodatos de testeo.

A fin de determinar los casos de entrenamiento setuvo en consideración que estuvieran disponiblestodas las variables antes mencionadas. Ademásse buscó que estos casos representaran diferentesconfiguraciones en relación a la distribuciónespacial de los ecos meteorológicos y nometeorológicos. Se consideraron entonces lassiguientes fechas para formar parte de la muestrade entrenamiento:• 20 de junio de 2009• 22 de noviembre de 2009• 1 de enero de 2010• 6, 4, 9, 20, 21 y 27 de febrero 2010

El número total de píxeles con información fue

49

Page 6: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada... S. Ruiz Suarez y coautores

de 1.187.967. De ellos, el 47,1% correspondientea señal meteorológica y un 52,9% a señal nometeorológica.

Todos los clasificadores se testearon en un mismoconjunto de imágenes provenientes de cuatroescenarios correspondientes a cuatro eventosdistintos (Tabla 1). Se contó con tres imágenesde cada uno de estos escenarios, resultando asíun total de 12 imágenes. Al momento de laselección de estas imágenes se procuró que lasmismas resulten representativas de los escenariostípicos encontrados: situaciones donde los ecosse encuentren separados, situaciones con los ecosmezclados, situaciones con eco no meteorológicosobre el sitio del radar, situaciones con presenciade eco meteorológico intenso, entre otros.

3. METODOLOGIA

En vista de los trabajos discutidos y segúnlos resultados obtenidos por los mismos, parael presente trabajo se consideró trabajarcon métodos de clasificación netamenteestadísticos, intentando en principio comprenderel funcionamiento de los mismos, para luegopoder comparar los resultados provenientes deotras metodologías propuestas.

Junto con la técnica de clasificación a utilizar,son las variables de entrada, las que determinanla bondad de un método. Como es de esperar laselección de las mismas depende en parte desu capacidad discriminante, pero a la vez esnecesario considerar su disponibilidad. Variosautores han remarcado la capacidad predictivaque posee la variable ρHV por si sola en cuanto aidentificación de ecos no meteorológicos frente alos meteorológicos: valores bajos de ρHV se suelenrelacionar con ecos no meteorológicos (Ryzhkov yZrnic, 1998; Gourley y otros, 2006). No obstante,objetivos como el granizo grande podrían llegara tener valores bajos de este factor haciendo queuna región con presencia de eco meteorológicosea catalogada como no meteorológica.

El presente trabajo propone considerar el desvíoestándar en una ventana de 3 x 3 en rango y

azimut de la reflectividad diferencial (SZDR).Es decir, para cada punto se calcula el desvíoestándar de ZDR sobre la región de 9 vecinos cuyocentro es el punto en cuestión. Finalmente, lasvariables empleadas como variables de entrada(variables predictoras) para los algoritmosdesarrollados son:• Coeficiente de correlación co-polar (ρHV )• Velocidad Radia lDoppler (V)• Desvío de la reflectividad diferencial (SZDR)

Si bien la variable SZDR otorga una nociónde la estructura espacial al análisis, seconsideró necesario incorporar un proceso finala la clasificación obtenida por los modelos(Postproceso), de manera de darle mayorimportancia a la caracterización espacial delos datos. Partiendo de la clasificación inicialdel modelo, se reasignaron algunos puntosteniendo en cuenta la clase de sus vecinos. Másespecíficamente, sobre cada píxel se analizó unaventana de 3 × 3 (en rango y azimuth), si lamayoría de sus vecinos (la mitad +1) fueronasignados a su misma clase, entonces no sehizo ningún cambio, sino, se cambió la clasepreviamente asignada.

Uno de los inconvenientes encontrados fue quemuchas veces los datos con los que se contabatenían variables faltantes, es decir a algunospuntos les faltaba información de alguna de lasvariables (ρHV , V , y/o SZDR). A fin de salvareste inconveniente se procedió de la siguientemanera: si la falta de dato se daba en la muestrade entrenamiento, simplemente aquellos puntosfueron eliminados. En cambio, cuando el puntocon una variable faltante era parte del conjuntode testeo, se clasificó dicho punto considerandoel modelo con las variables disponibles. Esdecir, para cada metodología se ajustaron cuatromodelos, uno con las tres variables y los otrostres con las variables tomadas de a dos. Luegodependiendo de la disponibilidad de variables encada pixel se predijo su clase según alguno deestos cuatro modelos ajustados. Por ejemplo sipara el píxel p, se contara con las variables ρHV yV, y SZDR no estuviese disponible, se clasificaríael punto a partir del modelo que utiliza como

50

Page 7: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada...

Tabla I: Casos para la validación

variables (ρHV ,V). Si la falta de dato fuera endos o más variables, se clasificaría al punto comosin clase (SC). En la Figura 2 esquematizamosde manera sencilla la metodología a seguir.

Según los métodos de clasificación que sedesarrollaran en la sección 3.1 se clasificaronlas imágenes del conjunto de testeo (TablaI). Se asignó a cada pixel en una de las trescategorías: meteorológica (M), no meteorológica(NM) o sin clase (SC). Estos resultados fueronutilizados para evaluar la performance de cadamétodo, comparando la verdadera clase de cadauno de ellos con la asignada por el método declasificación. Una vez desarrollados los métodos yobtenidos los resultados para los casos de testeo,se buscó hacer un análisis más completo sobre laperformance de los clasificadores. Fue necesarioentonces darle mayor variabilidad a los datos.Con este objetivo se implementaron técnicas deremuestreo sobre los datos de entrenamiento. Eldetalle de este procedimiento se explica en laSección 3.2.

Figura 2: Diagrama de flujo sobre lametodología a seguir para el problemade clasificación en imágenes de radarpropuesto en el presente trabajo. Laletra M corresponde a la categoríaEco Meteorológico, la NM a Eco NoMeteorológico y SC a datos sin clasificar.

3.1 METODOS DE CLASIFICACIONSUPERVISADA

Las técnicas de clasificación supervisada partende muestras pre-clasificadas con las que se

51

Page 8: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada... S. Ruiz Suarez y coautores

aspira aprender cómo discriminar (o clasificar)nuevas observaciones. Los métodos abordadosen este trabajo toman como premisa la Reglade Clasificación de Bayes, la cual se basa enasignar la nueva observación a la clase con mayorprobabilidad condicional. Más específicamente,si se denota con x = (xv, xρ, xszdr) a los valoresde las variables V, ρHV y SZDR en cierto puntop (información disponible), la Regla de Bayesasignará al punto p el tipo de eco con mayorprobabilidad condicional. Es decir, si

P (M |x) > P (NM |x) (1)

se asignará p a la clase meteorológica, delo contrario se lo asignará a la clase nometeorológica, siendo que P (M |x) y P (NM |x)denotan la probabilidad de Eco Meteorológico(M) y de Eco No Meteorológico (NM)respectivamente, condicional a observar x.

La expresión (1) puede ser reformulada entérminos de las probabilidades P (M) y P (NM)de cada clase, combinadas con las funcionesde densidad (fM (x) y fNM (x)) del vector x =(xv, xρ, xszdr) en las mismas, obteniéndose asíque (1) resulta equivalente a

P (M)fM (x) > P (NM)fNM (x) (2)

Las representaciones (1) y (2) sugieren dosenfoques diferentes para construir reglas declasificación. Por un lado, existen aquellasbasadas en (1), que modelan probabilidadescondicionales. Por otra parte, la representación(2) da origen a clasificadores mediante laestimación de las funciones de densidadcondicional en cada categoría, siendo que enmuchas aplicaciones las probabilidades a priori,es decir P(M) y P(NM), suelen suponerse iguales(ambas con valor 0,5).

Existe una gran variedad de técnicas, que segúnel problema y los datos disponibles son más omenos adecuadas. En lo que resta de esta secciónse describirán brevemente las metodologías quefueron utilizadas en este trabajo.

3.1.1. Modelo Lineal Discriminante(LDA)

El modelo discriminante lineal parte de la baseque las funciones de densidad fM (x) y fNM (x)son gaussianas, ambas con distintos vectores demedias (µM y µNM ) pero con la misma matrizde varianzas (Σ). Es decir,

fC(x) =exp

(−12 (x− µC)′Σ−1(x− µC)

)(2π)3/2 |Σ|1/2 (3)

con C ∈ {M,NM}

Los parámetros del modelo (µM , µNM y Σ) seestimaron como:

µ̂C = 1nC

nC∑i=1

xCi (4)

Σ̂ = nM − 1n− 2 Σ̂M + nNM − 1

n− 2 Σ̂NM

Σ̂C = 1nC − 1

nC∑i=1

(xiC − µ̂C)(xiC − µ̂C)′ (5)

con C ∈ {M,NM}

donde xMi (xNMi) denota la observación i-ésimaperteneciente a la clase Meteorológica (NoMeteorológica) de la muestra de entrenamiento,mientas que nM (nNM ) denota el número totalde observaciones de esa clase.

3.1.2. Modelo Cuadrático Discriminante(QDA)

En el método anterior se supuso que lasobservaciones dentro de cada una de las clasesse distribuían según una ley Gaussiana, condistintas medias pero con la misma matrizde varianzas y covarianzas. Es posible ahora“relajar” este supuesto considerando el caso enque la matriz de varianzas y covarianzas seadiferente para cada clase. El razonamiento esel mismo que antes, simplemente que ahoraserá necesario estimar por separado la matrizde varianzas y covarianzas de cada clase, ademásde cada una de las medias. Es decir, en estenuevo escenario los parámetros desconocidos quedebemos estimar son: un vector de medias (µMy µNM ) y una matriz de varianzas (ΣM y ΣNM )para cada clase.

52

Page 9: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada...

Las estimaciones para los vectores de mediasson las mismas que para el caso anterior (4), sedistinguen estimaciones diferentes de las matricesde covarianzas (5).

Uno se podría preguntar por qué se elegiría elmétodo lineal si es posible utilizar un método másflexible como el cuadrático. La respuesta vienede la mano de la relación sesgo-varianza presenteen cada uno de los métodos: Si bien se tiene queel clasificador cuadrático es más flexible, a la veznecesita de la estimación de una mayor cantidadde parámetros que el clasificador lineal. Por otrolado, el modelo lineal si bien es menos flexible,es más estable en lo que refiere a cambios en elresultado por modificaciones en la muestra deentrenamiento.

Para obtener más información sobre las técnicasde clasificación dadas por el análisis deldiscriminante (a) y (b), se puede consultar enPeña (2002).

3.1.3. Modelo Bayes Naive (BN)

Este modelo busca estimar las funciones dedensidad fM (x) y fNM (x) con aún menossuposiciones, partiendo únicamente de la muestrade entrenamiento. Se propuso entonces utilizarlo que se denomina Estimador Núcleo de laDensidad (en este caso núcleo gaussiano):

fC(x) =

nC∑i=1

exp

(−(x− µC)′(x− µC)2h2

)nCh3(2π)3/2 (6)

con C ∈ {M,NM}

En donde x es un vector de tres coordenadas(correspondientes a V , ρHV y SZDR) y hel parámetro de suavizado. La elección delparámetro de suavizado es esencial para el buenfuncionamiento del estimador. Como h controlala concentración de peso alrededor de cada puntode la muestra de entrenamiento, se tiene quevalores chicos de h darán lugar a que únicamentelas observaciones más cercanas al punto dondese quiere estimar la función de densidad seanrelevantes en la estimación. De lo contrario, altomar valores grandes de h, observaciones más

lejanas influirán también en la estimación. Se handesarrollado varias técnicas para la selección delparámetro de suavizado, que no sólo pueden serutilizadas para el caso del estimador núcleo, sinoque también pueden ser fácilmente aplicablespara otros estimadores. Para este trabajo se tomócomo h el dado por la Regla de Referencia a lanormal. Para más información sobre esta técnicay sobre este método de clasificación en generalse puede consultar Silverman (1986) y Delicado(2008).

En general, el estimador tal como está en laexpresión (6) no resulta práctico de aplicar,debido al alto nivel de cómputo que esteimplica, sumado a que cuando la cantidad devariables explicativas del modelo aumenta, laprecisión del estimador disminuye. Como elobjetivo final está en la clasificación, conocerde forma precisa la densidad de los datos resultainnecesario. Una forma de eludir este problemaes construir un estimador bajo la hipótesis deque las variables (en este caso: ρHV , V y SZDR)son independientes. Se consideró entonces comoestimador:

f̂C(x) =3∏

k=1f̂Ck(xk) (7)

k ∈ {ρHV , V, SZDR}

donde ahora f̂Ck(x) denota el estimador noparamétrico de la densidad de la variable ken la clase C, y se calcula como en (6), peroutilizando solamente la variable xk. Este métodose lo denomina “Método de Bayes Naive”. Sibien el mismo parte de una suposición que nosuele ser correcta en la mayoría de los casos, nosólo simplifica de forma evidente el estimadorsino que también en la práctica da muy buenosresultados.

Hasta aquí los tres modelos presentados modelany estiman las funciones de densidad de cada unade las clases. Una vez obtenidos los valores de losestimadores, al suponer que las probabilidadesa priori son iguales para ambas clases, la reglade clasificación para un cierto punto (x) estará

53

Page 10: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada... S. Ruiz Suarez y coautores

dada por:

r(x) ={M si f̂M (x) ≥ f̂NM (x)NM sino

(8)

3.1.4. Modelo de Regresión Logística(LG)

Este método sugiere modelar P (M |x) yP (NM |x), para luego clasificar según (1). Elmodelo de regresión logística propone considerar:

P (C|x) = 11 + e−β0C+β1Cx

(9)

En donde β0C es un parámetro univariado, β1C =(β1Cv, β1CρHV

, β1Cszdr) es un parámetro de trescoordenadas y C = M ó NM . Supongamosque C = M , entonces P (NM |x) = 1 −P (C|x), análogamente se definiría P (M |x), sise considerara C = NM .

Fue entonces necesaria la estimación de dichosparámetros, para la cual se utilizó el métodode máxima verosimilitud. La idea esencial esla de estimar los parámetros desconocidos deforma tal que para todos los elementos dela muestra de entrenamiento la probabilidadestimada de pertenecer a la verdadera clasede procedencia (entiéndase la clase M o laclase NM) sea, los más posible, cercana auno. Obtener este valor, es decir obtener elvalor que maximiza la verosimilitud no resultaser una tarea trivial. De todas formas, fueposible aproximar estos estimadores a partir demétodos iterativos muchos de los cuales han sidoimplementados en varios paquetes estadísticoscomo R (http://cran.r-project.org/). Másinformación sobre el modelo de regresión logísticase puede encontrar en Peña (2002) y Hastie yTibshirani (2009), entre otros.

3.2 TECNICAS DE REMUESTREO

Las técnicas de remuestreo son herramientasindispensables en la estadística moderna. Lasmismas consisten en tomar repetidas muestrassobre los datos de entrenamiento para ajustarnuevamente los modelos de interés, obteniendo

así información adicional sobre los mismos. Enel caso de este trabajo, las muestras paraentrenar y testear los modelos requirieronde una clasificación manual de las imágenesy por ello resultó dificultoso contar con unvolumen de datos considerable para trabajar. Sibien los resultados obtenidos en las imágenestesteadas fueron buenos, se consideró necesariohacer un análisis estadístico más profundode las performance de los distintos métodosaplicados. Para ello fue necesario plantearuna manera de darle variabilidad a los datos.Luego de evaluar varias posibilidades se decidióaplicar técnicas de remuestreo sobre los pixelesde las imágenes de entrenamiento. Todoslos clasificadores construidos a partir de losdiferentes métodos y entrenados con distintasmuestras (del remuestreo) fueron evaluadosutilizando los datos test considerados en la TablaI.

Para el análisis siguiente se supuso que laclasificación del experto fue perfecta. Con elobjetivo de poder cuantificar la performance delos diferentes modelos, se utilizó como índice debondad el valor de la proporción de puntos bienclasificados sobre el total de cada elevación (CSI,por sus siglas en inglés critical success index).

El procedimiento aplicado fue el siguiente: sellama N a la cantidad de pixeles totales de lamuestra de entrenamiento, entonces:1) Se seleccionaron de manera aleatoria ycon reposición N puntos de la muestra deentrenamiento.2) Tomando como muestra para entrenar laresultante del ítem anterior, se ajustaron loscuatro modelos (BN, LDA, QDA, LG).3) Se clasificaron las 12 imágenes de los casostest.4) Se aplicó el postprocesamiento.5) Se calcularon los valores de CSI para cadacaso test y para cada modelo.6) Se volvió al punto 1.Se computó la secuencia anterior 100 veces (enadelante, replicaciones).

54

Page 11: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada...

Figura 3: Resultados obtenidos para el 22 de noviembre de 2009 en el clasificador LDA. Porfila y sobre la primera elevación (0.5o): reflectividad horizontal ZH (dBZ), ρHV , resultado delclasificador: en azul los puntos clasificados como meteorológicos (M), en rojo los clasificados comono meteorológicos (NM), y en verde los considerados sin clase (SC). Los anillos concéntricosposeen una separación de 30km entre sí. Por columnas: tiempos sucesivos correspondientes a08:53 UTC, 09:03 UTC y 09:23UTC.

4. RESULTADOS

Se implementaron los cuatro métodos descriptosen la sección anterior: LDA, QDA, BN y LG.Tal como fue descripto previamente, luego de laclasificación inicial sobre la muestra de testeo

según cada una de las metodologías, se realizóun postprocesamiento de forma de incluir laestructura espacial de los datos, siguiendo laregla de la mayoría. Tal como se indicó en laSección 2 todos los clasificadores fueron testeadosen los cuatro eventos de la Tabla 1.

55

Page 12: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada... S. Ruiz Suarez y coautores

Figura 4: Ídem Figura 3 pero para clasificador QDA.

En las Figuras 3, 4, 5, y 6 se muestran losresultados de los cuatro modelos para el caso del22 de Noviembre de 2009. Los resultados parael caso del 9 de Febrero de 2010 se encuentranrepresentados en las Figuras 7, 8, 9 y 10. Sibien es posible observar que en ambos casos sedan situaciones en donde las dos clases (M yNM) se encuentran presentes, es claro que en elcaso de 2009 los ecos están más mezclados, encomparación con la situación de 2010. Se puedeobservar que los resultados obtenidos con losdiferentes métodos de clasificación coinciden en

un alto porcentaje. De todas formas, es posiblenotar que las diferencias se encuentran en laszonas de frontera entre ambas clases, obteniendodiscrepancias mayores en la situación de 2009.Esto último es de esperar ya que los puntos defrontera poseen cantidades similares de vecinosde las dos clases lo que afecta por un lado alpostproceso, que considera los valores de estascantidades, y por otro lado al comportamientomismo de la variable SZDR en las zonas defrontera. En este caso el efecto se debe a queSZDR se construye a partir de la variabilidad

56

Page 13: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada...

Figura 5: Ídem Figura 3 pero para clasificador LG.

espacial de ZDR. Por consiguiente, sería posibleque tanto el postproceso como el valor de SZDRen las zonas de frontera introdujeran errores almomento de la clasificación. De todas formas, ladistribución espacial de los datos es sumamenteimportante al momento de clasificar puntosque no se encuentren en las zonas de frontera,ya que otorga una distinción importante enel comportamiento de las variables en las dosclases (ZDR que suele ser más “ruidosa” enpresencia de ecos no meteorológicos) y a la

vez permite capturar la continuidad de los ecos(postproceso). Resulta entonces evidente que lospuntos de frontera son los que proponen el desafíomayor al momento de clasificar los datos en ecosmeteorológicos o no meteorológicos.

Con respecto a la variable Velocidad Doppler, seobservó que la misma no presenta demasiadarelevancia a la hora de la clasificación. Lavelocidad permite en términos generales dar unaidea de la naturaleza de los objetivos escaneados,

57

Page 14: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada... S. Ruiz Suarez y coautores

Figura 6: Ídem Figura 3 pero para clasificador BN.

pero puede llevar a conclusiones erróneas si se laobserva por sí sola. Es decir, ecos producidospor el fenómeno de la propagación anómalaposeen velocidades cercanas a cero, pero objetivoscomo ecos biológicos pueden poseer velocidadessimilares a las de un eco de precipitación. A suvez, puede suceder que objetivos meteorológicosposean velocidades bajas. Quizás, si el objetivode la clasificación fuese lograr una discriminaciónmás fina dentro de los ecos no meteorológicos(por ejemplo distinguir entre ecos biológicos, ecos

de terreno y propagación anómala) la variablevelocidad podría tener mayor relevancia para elanálisis.

En la Tabla II se presentan los resultadosobtenidos para la media, mediana, máximo,mínimo, primer cuartil, tercer cuartil y desvíodel índice CSI correspondiente a cada uno delos cuatro métodos utilizados a lo largo delas 100 replicaciones del remuestreo. Es posiblenotar como los cuatro métodos contienen valores

58

Page 15: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada...

Figura 7: Resultados obtenidos para para el 9 de febrero de 2010 en el clasificador LDA. Porfila y sobre la primera elevación (0.5o): reflectividad horizontal ZH (dBZ), ρHV , resultado delclasificador: en azul los puntos clasificados como meteorológicos (M), en rojo los clasificados comono meteorológicos (NM), y en verde los considerados sin clase (SC). Los anillos concéntricosposeen una separación de 30km entre sí. Por columnas: tiempos sucesivos correspondientes a21:03 UTC, 21:43 UTC y 22:33 UTC.

similares de mediana, pero no así de la media, loque indica de alguna manera que hay diferenciasen la dispersión de los datos.

En las Figuras 11 y 12 se muestran los

histogramas y los boxplots correspondientes alos resultados de los valores de los CSI encada uno de los cuatro métodos, basados enlas 100 replicaciones. Como primera observaciónes posible notar que si bien los valores de

59

Page 16: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada... S. Ruiz Suarez y coautores

Figura 8: Ídem Figura 7 pero para el clasificado QDA

las medianas en los cuatro modelos son muysemejantes entre sí, el modelo con menorvarianza es el modelo lineal. Además el modelode Bayes Naive, si bien tiene mayor nivel devarianza, es el que logra valores más altos de CSI.Teniendo en cuenta la relación sesgo-varianzapresente en estos modelos sería lógico esperarque el modelo más simple (LDA), es decir elmodelo con menos parámetros que ajustar seael que posea menor varianza y mayor sesgo. Es

interesante notar cómo en este caso sucede loprimero pero no lo segundo, o por lo menos noes evidente. El modelo Bayes Naive no hacesuposiciones sobre la forma de las funcionesde densidad, otorgándole al método mayorflexibilidad. Si bien esto último en principioes algo positivo ya que permite obtener unmodelo menos restrictivo, puede suceder que siel número de observaciones no es suficiente, seobtenga una sobre-estimación que lleve a errores

60

Page 17: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada...

Figura 9: Ídem Figura 7 pero para el clasificado LG.

en las predicciones. Es posible entonces que laestimación dada por este modelo se encuentrebajo este escenario.

En general, elegir el nivel adecuado deflexibilidad para un modelo, no es una tareasencilla, depende en parte del problema y de losdatos con los que se cuente. Por consiguiente, ajuzgar por los resultados obtenidos y en el casode ser necesario elegir únicamente alguno de loscuatro modelos, en principio parecería que el

lineal es el que mejor ajusta.

5. CONCLUSIONES

En este trabajo se presentaron cuatro técnicasde clasificación supervisada las cuales buscandar una solución al problema de discriminaciónentre ecos meteorológicos y no meteorológicosen imágenes de radares meteorológicos muyimportante al momento de realizar un control decalidad de la información para su uso en múltiples

61

Page 18: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada... S. Ruiz Suarez y coautores

Figura 10: Ídem Figura 7 pero para el clasificado BN.

aplicaciones hidrometeorológicas. A partir dedatos provenientes del radar Doppler banda Cde doble polarización instalado en la EstaciónExperimental Agropecuaria INTA Anguil, setestearon cuatro modelos basados en las cuatrotécnicas de clasificación presentadas con distintosniveles de flexibilidad. Mediante técnicas deremuestreo se estudiaron los desempeños de losmismos y se analizaron los resultados.

Las clasificaciones finales de los casos testeadosen los cuatro métodos fueron coincidentes y

correctas en un alto porcentaje (siendo laszonas de frontera las menos precisas). De todasformas, se vio que aplicar una metodología másflexible (BN) no incorporaba precisión en laspredicciones, obteniendo mejores clasificacionescon los métodos más rígidos. Una posiblerazón puede ser que al no contar con un grannúmero de observaciones los ajustes más flexiblessobreestimen los datos, resultando entonces elmodelo con mejor desempeño el Modelo Lineal.

No obstante, se podría suponer que si se contase

62

Page 19: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada...

Tabla II: Resultados obtenidos a partir delas replicaciones. Los valores de la tablason referidos al índice de éxito crítico (CSI)que se muestra en la Figura 11.

Figura 11: Boxplot de los valores de CSIobtenidos a partir de las 100 replicacionesen los cuatro modelos. De izquierda aderecha: LDA, QDA, LG y BN. La líneanegra oscura marca el valor de la medianaen cada uno de los modelos. Los límites delas cajas están dados por el primer cuartil(25%, límite inferior) y tercer cuartil (75%,límite superior). Por último los bigotes delos extremos dan los valores del máximo(bigote superior) y del mínimo (bigoteinferior).

con un set más amplio de datos para entrenarlos modelos, la clasificación resultante parael caso del modelo BN podría resultar mejor.Obtener una muestra de entrenamiento mayor

resultaría costoso, ya que la misma fue realizadade forma manual por el experto meteorólogo, loque implica una mayor demanda de tiempo parapoder incluir un número superior de casos. Detodas formas es importante aclarar que por lamanera en que está planteado este modelo, paracada punto a clasificar es necesario computar elestimador núcleo de la densidad con cada unode los puntos de la muestra de entrenamiento(Ecuación 6), lo que implica que a medida queaumenta la muestra de entrenamiento, aumentael tiempo de cómputo. Por esta razón, habríaque analizar la factibilidad de éste método sise aumentase considerablemente la muestra deentrenamiento.

Si bien los resultados encontrados son muyalentadores, se cree necesario seguir avanzandoen esta línea de investigación a fin de incorporaruna mayor cantidad de casos y tener unamayor significancia de los resultados. Comoprimera medida, se cree que incorporar nuevasvariables derivadas del radar al análisis ayudaríaa obtener mejores resultados. Para ello seránecesario trabajar en la calidad y calibración delas mismas sobre los radares que se encuentranen funcionamiento. En segunda instancia talcomo se consideró la variable SZDR paraincorporar nociones de la estructura espacialen sentido horizontal, se estima que incluirtambién variables que den nociones de laestructura espacial en el sentido vertical seríapositivo. Por otra parte, como en este trabajose utilizaron técnicas clásicas de clasificación secree necesario explorar y evaluar algunas técnicasmás avanzadas, como redes neuronales o técnicasde clusterización. Por último se espera poderextender estas técnicas a otros radares de doblepolarización existentes en el país.

Agradecimientos: La realización del presentetrabajo fue financiada por los proyectos PIDDEFNo5 2014-2017, PICT 2013-1299 y UBACyT20020130100618BA.

REFERENCIAS

63

Page 20: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada... S. Ruiz Suarez y coautores

Figura 12: Histogramas de los valores de CSI obtenidos a partir de las 100 replicaciones en loscuatro modelos: (a) LDA, (b) QDA, (c) LG y (d) BN.

Battan L.J. 1973: Radar observation of theatmosphere. Q.J.R. Meteorol. Soc., 99: 793.

Berenguer, M., Corral C., Sanchez-Diezma R.y Sempere-Torres D., 2006: A fuzzy logictechnique for identifying non precipitatingechoes in radar scans. J. of Atmos. andOceanic Tech., 23, 1157-1180.

Bo Young Y., Gyu Won L. y Hong-MokP., 2015: Identification and Removalof Non-meteorological Echoes inDual-polarization Radar Data Basedon a Fuzzy Logic Algorithm. Advances inatmospheric sciences, 32, 1217–1230

ChoY. H., Lee. G, Kim K. E. y Zawadski I.,

2006: Identification and removal of groundechoes and anomalous propagation using thecharacteristics of radar echoes. J. of Atmos.And Oceanic Tech., 23, 1206-1222.

Delicado P., 2008: Curso de Modelos noParamétricos. Departamento de estadísticae investigación operativa, Universidad deCataluña. 192 págs.

Greku M. y Krajewski W. F., 2000: An EfficientMethodology for Detection of AnomalousPropagation Echoes in Radar ReflectivityData Using Neural Networks. J. of Atmos.and Oceanic Tech., 17, 121-129.

Gourley J., Chatelet J. P. y Tabary P., 2006: A

64

Page 21: TÉCNICAS DE CLASIFICACIÓN SUPERVISADA PARA LA ...

Técnicas de clasifiación supervisada...

Fuzzy Logic Algorithm for the Separation ofPrecipitating from Nonprecipitanting EchoesUsing Polarimetric Radar Obsservations, J.of Atmos. and Oceanic Tech, 24, 1439-1451.

Hastie L., Friedman J. y Tibshirani R., 2009: TheElements of statical learning: Data Mining,Inference, and Prediction. Springer Text inStatistics. 747 págs.

Hubbert J. C., Dixon M. y Ellis S.M., 2009:Weather Radar Ground Clutter. Part II:Real-Time Identification and Filtering. J. ofAtmos. and Oceanic Tech., 26, 1181-1197.

Kosko B., 1994: Neural Networks and fuzzysystems: a dynamical systems approachto machine intelligence. Pretince-HallInternational Editions. 449 págs.

Lakshmananetal V., Zhang J., y Howard K.,2010: A Technique to Censor BiologicalEchoes in Radar Reflectivity Data. J. ofapplied meteorology and climatology, 49,453-462.

Moszkowicz S., Cian G. J. y Krajewskiw F.,1993: Statistical Detection of AnamalousPropagation in Radar Reflectivity Patterns. J.of Atmos. and Oceanic Tech, 11, 1026-1034.

Peña D., 2002: Análisis de datos Multivariantes.S.A. Mcgraw-hill / Interamericanade España.515 págs.

Rico-Ramirez M. A. y Cluckie I. D.,2008: Classification of ground clutterand anomalous propagation usingdual-polarization weather radar. IEEETransactions on Geosciences and RemoteSensing, 46, 7, 1892-1904.

Ryzhkov A. y Zrnic D. S., 1998: Discrimination

between Rain and Snow with a PolarimetricRadar. J. of applied meteorology. 37,1228-1240.

Schuur T., Heinselman P. y Ryzhkov A.,2003: Observations and classification ofechoes with the polarimetric WSR-88Dradar. National Severe Storms Laboratory(NOAA) and Cooperative Institute forMesoscale Meteorological Studies (Universityof Oklahoma).

Silverman B. W., 1986: Density estimation forstatistics and data analysis. Chapman andHall/CRC.176 págs.

Siggia A. D. y Passarelli R. E., 2004:Gaussian model adaptive processing (GMAP)for improved ground clutter cancellationand moment calculation. Third EuropeanConference on Radar Meteorology (ERAD)67–73.

Steiner M. y Smith J. A., 2001: Use ofThree-Dimensional Reflectivity Structurefor Automated Detection and Removal ofNonprecipitating Echoes in Radar Data. J.of Atmos. and Oceanic Tech., 19, 673-685.

Zawadzki, I., 1984: Factors affecting theprecision of radar measurement of rain, in22 Conference on radar meteorology, editedby AMS, pp. 251-256, Zurich, Switzerland.

Este es un artículo de acceso abierto distribuido bajo lalicencia Creative Commons, que permite el uso ilimitado,distribución y reproducción en cualquier medio, siempreque la obra original sea debidamente citada.

65