Ismael Andrés Martínez Cisternas Clasificación de...

49
Informe Proyecto de Título de Ingeniero Civil Electrónico Ismael Andrés Martínez Cisternas Clasificación de disrupciones nucleares con métodos ensamblados en dispositivo Tokamak Escuela de Ingeniería Eléctrica Facultad de Ingeniería Valparaíso, 27 de febrero de 2018

Transcript of Ismael Andrés Martínez Cisternas Clasificación de...

Page 1: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

Informe Proyecto de Título de Ingeniero Civil Electrónico

Ismael Andrés Martínez Cisternas

Clasificación de disrupciones nucleares con métodos ensamblados

en dispositivo Tokamak

Escuela de Ingeniería Eléctrica Facultad de Ingeniería

Valparaíso, 27 de febrero de 2018

Page 2: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

Ismael Andrés Martínez Cisternas

Informe Final para optar al título de Ingeniero Civil Electrónico,

aprobada por la comisión de la

Escuela de Ingeniería Eléctrica de la

Facultad de Ingeniería de la

Pontificia Universidad Católica de Valparaíso

conformada por

Sr. Gonzalo Alberto Farías Castro

Profesor Guía

Sr. Gabriel Enrique Hermosilla Vigneau

Segundo Revisor

Sr. Sebastián Fingerhuth Massmann

Secretario Académico

Valparaíso, 27 de febrero de 2018

Clasificación de disrupciones nucleares con métodos ensamblados en dispositivo Tokamak

Page 3: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

Resumen El presente informe entrega todas las bases para comprender el marco global de la fusión nuclear.

Tanto su principio de funcionamiento como el por qué se está prefiriendo este tipo de energía y

sus ventajas frente a otras fuentes convencionales de energía.

Se realizaron diversos enfoques para resolver el mismo problema; cómo predecir las disrupciones

nucleares. Tratar un problema difícil desde distintos puntos de vista es de vital importancia para

ir logrando resultados y poder realizar comparaciones con métodos antiguos. Si bien los

resultados no son los esperados, en esta oportunidad se usaron señales que son de fácil

procesamiento y con reglas muy sencillas para que el modelo sea de fácil comprensión.

Se utilizó el algoritmo Adaboost como clasificador y con un muy buen desempeño, fue posible

obtener unas tasas de acierto bastante aceptable y teniendo pleno conocimiento de la

importancia de cada una de las señales utilizadas, cumpliendo así una de las grandes premisas

de este trabajo que consistió en obtener modelos explícitos en vez de simples modelos de caja

negra como en el caso de los algoritmos tradicionales.

Se mezcló el algoritmo Adaboost con un clasificador en cascada propuesto por Viola-Jones para

mejorar los resultados individuales de cada una de las etapas del cascada. Se pudo comprobar

empíricamente que incluso los tiempos en los que se detectan las disrupciones mejoraron

considerablemente y se acercan bastante a lo exigido por los dispositivos experimentales.

Cabe destacar que muchos de los métodos propuestos no generaron los resultados esperados y

tuvieron que descartarse, por lo que los modelos obtenidos necesitaron una gran cantidad de

tiempo de experimentación.

Palabras claves: machine learning, adaboost, clasificador, cascada, automatización.

Page 4: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

Índice general Introducción ................................................................................................................. 1

1 Contextualización ..................................................................................................... 4 1.1 Producción de energía .................................................................................................................. 4 1.2 Disrupciones ................................................................................................................................. 5 1.3 Dispositivos de fusión nuclear ..................................................................................................... 6

1.3.1 Stellarator ............................................................................................................................ 6 1.3.2 Tokamak .............................................................................................................................. 7

1.4 Clasificadores ................................................................................................................................ 8 1.4.1 Redes neuronales ............................................................................................................... 9 1.4.2 Máquina de vectores soporte .......................................................................................... 10 1.4.3 Métodos ensamblados ..................................................................................................... 10

1.5 Motivación ................................................................................................................................... 11 1.5.1 Sistema de caja negra ....................................................................................................... 11 1.5.2 Sistema de caja transparente........................................................................................... 12

2 Estado del Arte ........................................................................................................ 13 2.1.1 Predictores por redes neuronales ................................................................................... 13 2.1.2 Predictores por lógica difusa ........................................................................................... 14 2.1.3 Predictores por SVM (Máquina de vectores soporte) ................................................... 14

2.2 Adaboost ...................................................................................................................................... 14 2.3 Ejemplo ilustrativo ...................................................................................................................... 15

3 Análisis temporal de señales.................................................................................. 19 3.1 Señales analizadas ...................................................................................................................... 19

3.1.1 Mode Lock ......................................................................................................................... 19 3.1.2 Evolución temporal de la afluencia del Tungsteno ....................................................... 19 3.1.3 Energía diamagnética ...................................................................................................... 19 3.1.4 Potencia de entrada y potencia radiada ......................................................................... 20 3.1.5 Señales bolométricas ....................................................................................................... 20

3.2 Acotamiento por corriente de plasma ...................................................................................... 20 3.3 Concepto de Warning Time (WT) .............................................................................................. 21

Page 5: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

Índice general

3.4 Enfoque de centroides ................................................................................................................ 23 3.4.1 Centroide descarga disruptiva ........................................................................................ 23 3.4.2 Centroide descarga safe ................................................................................................... 24

3.5 Enfoque de Peaking Factor ........................................................................................................ 24 3.6 Enfoque de ventanas .................................................................................................................. 27

3.6.1 Clasificador en cascada .................................................................................................... 28 3.6.2 Selección de datos ............................................................................................................ 30 3.6.3 Ventana deslizante ........................................................................................................... 30

4 Experimentos y resultados ..................................................................................... 31 4.1 Experimento con centroides ...................................................................................................... 31

4.1.1 Centroides con señal Mode Lock .................................................................................... 31 4.1.2 Centroides con señal Nivel de afluencia del Tungsteno ............................................... 32 4.1.3 Centroides con señal Energía diamagnética .................................................................. 34

4.2 Experimento con ventanas temporales .................................................................................... 36 4.2.1 Selección de datos disruptivos ........................................................................................ 36 4.2.2 Metodo de selección de datos safe aleatorios ................................................................ 36 4.2.3 Método de selección de datos safe centrales ................................................................. 37 4.2.4 Resultados obtenidos ....................................................................................................... 38 4.2.5 Resultados obtenidos sin Mode Lock ............................................................................. 40

Discusión y conclusiones .......................................................................................... 41

Bibliografía ................................................................................................................. 43

Page 6: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

1

Introducción Desde que la especia humana comenzó a asentarse permanentemente en lugares, se percató que

era absolutamente necesario buscar fuentes de energía. Como no existían los artefactos que hoy

en día se usan para ese propósito, se inició con pequeños generadores que funcionaban con

fuerzas naturales, como ríos o viento. Estos generadores solo cambiaban en parte el aspecto visual

de los sectores en los que se instalaban y producían poca o nula contaminación.

Los tiempos fueron cambiando, la población fue creciendo y la demanda de energía también; fue

necesario idear nuevos métodos de generación de energía. Es por eso que comenzaron a explotar

los recursos naturales para aumentar la producción de energía y cubrir las demandas.

El principal problema de esto fue que los recursos naturales se han ido agotando poco a poco con

los años. A modo de solución se plantea dejar de producir energía con recursos y en vez de eso

hacerlo con el conocimiento. Es por eso que la fusión nuclear viene siendo la última de las

opciones para generación de energía limpia y con utilización mínima de recursos naturales.

Los sensores son de vital importancia para tener conocimiento de los diferentes fenómenos

naturales o artificiales. Estos permiten recolectar información necesaria que permite el estudio

teórico de dichos fenómenos. Es en este momento en el que se hace necesario representar los

datos recolectados, por lo general se hace por medio de señales temporales, éstas se grafican con

el tiempo en el eje X y el dato en el eje Y.

De forma particular, el reactor de fusión europeo JET tiene una gran cantidad de sensores que

sirven de medio de comunicación para que los científicos puedan tener una idea de lo que sucede

al interior del toroide. Además los datos recopilados han servido para generar modelos

predictivos y elaborar reglas que permitan clasificar la descarga como disruptiva antes de que

ocurra. Un buen ejemplo de modelo predictivo es el algoritmo Adaboost.

El algoritmo Adaboost fue propuesto en 1995 por Yoav Freund y Robert Shapire como un método

general para generar un clasificador fuerte proveniente de un grupo de clasificadores débiles (o

hipótesis débiles) [1]. Se trata principalmente de un algoritmo iterativo en donde la cantidad de

iteraciones ayuda a disminuir el error progresivamente.

De un modo simple, se trata de seleccionar el mejor y más simple clasificador después de cada

iteración. Cada hipótesis seleccionada tendrá un peso asociado acorde a su capacidad de

Page 7: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

Introducción

2

clasificar el conjunto de entrenamiento correctamente. De forma análoga, aquellas muestras que

fueron mal clasificadas también tendrán un peso asociado que permitirá encontrar hipótesis

futuras cuyas reglas serán vitales para lograr un acierto en la clasificación de las siguientes

iteraciones.

En el marco de la actualidad, existe un gran proyecto llamador ITER (International

Thermonuclear Experimental Reactor) cuyo objetivo es determinar la viabilidad tecnológica y

económica de la fusión nuclear por confinamiento magnético para la generación eléctrica. Lo

anterior para justificar adecuadamente la construcción de una instalación de demostración

comercial, es decir que sea rentable la generación de energía eléctrica basada en fusión nuclear

[2].

Es importante señalar que la dificultad mayor en los dispositivos tipo Tokamak (como el ITER) se

da cuando ocurren descargas disruptivas, esto último puede explicarse como una inestabilidad

en el plasma. En consencuencia las paredes de los dispositivos se dañan y el experimento debe

detenerse forzosamente. Como los costos de operación no son menos importantes, es de sumo

interés idear un sistema que permita actuar con suficiente rapidez para tomar medidas, ya sea de

mitigación o evitación.

En la actualidad hay sistemas de predicción de disrupciones en funcionamiento, sin embargo los

modelos y algoritmos utilizados no proporcionan suficiente información para actuar a tiempo

frente a descargas disruptivas. Además estos predictores funcionan bajo los conceptos de redes

neuronales, lógica difusa y máquinas de vectores soporte.

Los métodos antes mencionados funcionan con la lógica de caja negra, esto quiere decir que no

se tiene pleno conocimiento de las variables que inciden en la decisión del sistema predictor. La

nueva perspectiva es conocer con suma precisión las variables que afectan en la salida del

predictor, haciendo factible la manipulación manual del dispositivo Tokamak y observar en

tiempo real como las variables cambian. Esto permite forzar la salida del predictor y así también

forzar una descarga no disruptiva.

Tener la posibilidad de controlar correctamente y eficientemente la fusión nuclear supondría el

término de la mayoría de los problemas energéticos a nivel mundial y el cambio de paradigma en

el ámbito de la generación de energía. La mayoría de las personas involucradas tanto en el

financiamiento como en la investigación de este tipo de generación de energía apoyan la idea de

compartir ya sea la energía generada o conocimientos necesarios para construir este tipo de

dipositivos.

Es por todo lo expuesto anteriormente que se propondrá una solución a los problemas globales

de energía mediante una acción indirecta: Controlar la fusión nuclear. Lograr dicho objetivo

puede ser un proceso muy largo y trabajoso, sin embargo se irá en busca de una solución parcial

que permita tanto avanzar con los trabajos hechos anteriormente como también plantear bases

sólidas que sirvan como puerta de entrada a nuevos trabajos y enfoques. A continuación se

presentan justamente lo que serán los objetivos del presente trabajo, necesarios para cumplir

todas las metas propuestas.

Page 8: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

Introducción

3

Objetivo general: Diseñar e implementar un sistema predictivo de señales disruptivas en

fusión nuclear.

Objetivos específicos:

o Estudiar la problemática de la disrupción en dispositivos de fusión nuclear.

o Estudiar los enfoques actuales de pronóstico de disrupción y Ensemble Learning.

o Diseñar algoritmos de pronósticos del tipo de disrupción y el tiempo en que

ocurrirá.

o Implementar los algoritmos diseñados y probarlos con bases de datos reales de

un dispositivo de fusión nuclear.

Page 9: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

4

1 Contextualización Este capítulo describe los actuales métodos convencionales de producción de energía y sobre

principios de funcionamiento de los dispositivos de fusión nuclear. También se explicarán los

conceptos básicos de redes neuronales, máquinas de vectores soporte y las técnicas de

aprendizaje automático; en particular sobre métodos ensamblados.

1.1 Producción de energía

En la actualidad, la producción de energía se centra en la explotación de recursos naturales. Esto

quiere decir que están ocupándose recursos constantemente para satisfacer las necesidades

energéticas de ciudades o comunidades. Es importante mencionar que la utilización de recursos

naturales para obtener energía es una cadena de eventos contaminantes y nocivos para el planeta.

Extraer dichos recursos contempla el uso de maquinaria pesada y dicha maquinaria requiere de

energía para desempeñar las tareas, generalmente se obtiene del petróleo que, al incinerarse

emite monóxido de carbono. Esto implica que tan solo la extracción de recursos origine

potenciales focos de contaminación.

Como se puede apreciar en la , las principales fuentes de

energía corresponden a aquellas que son las más contaminantes, tanto en el impacto ambiental

y geográfico como en la emisión de sustancias tóxicas y huella de carbono. Cabe destacar que las

energías renovables y de bajo impacto no son de la era moderna, tan solo no se explotaron tanto

porque la generación de energía era lenta y de baja explosividad.

Page 10: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

1 Contextualización

5

Figura 1-1. Consumo de energía mundial año 2015 [3]

1.2 Disrupciones

Las disrupciones nucleares son eventos masivos y catastróficos que ocurren al interior de los

dispositivos de fusión nuclear. Los dispositivos actuales son capaces de acumular mucha más

energía cuando el plasma se está calentando [4], esto es perjudicial pues el daño provocado

durante alguna falla podría ser mucho peor. Las disrupciones más comunes ocurren cuando el

plasma se bloquea, vale decir, deja de girar al interior del toroide, esto ocasiona un aumento

súbito de la temperatura debiendo detenerse la descarga.

Las paredes de los reactores de fusión nuclear se construyen con aleaciones bastante potentes,

desde el carbón hasta el tungsteno. Ambos materiales poseen una importante capacidad de

resistir las altas temperaturas, cabe mencionar que su estructura interna supone una sólida

barrera protectora para todo el equipamiento tecnológico del dispositivo de fusión nuclear. Esto

último es de particular interés para la gran mayoría de los reactores, pues todos los sensores son

muy frágiles y excesivamente costosos. Una vez que una disrupción ocurre al interior del

dispositivo, la temperatura que deben soportar las paredes es del orden de los 3000 °C [5], por lo

que además de proteger el equipamiento, también se busca evitar desastres como los que ocurren

en las centrales de generación energética convencionales.

El fenómeno físico que conlleva una disrupción nuclear en dispositivos de fusión nuclear es

bastante complejo y no lineal, lo que ha dificultado de manera significativa el control y a su vez,

el monitoreo de las descargas ocurridas al interior del reactor.

Reparar los dispositivos luego de una disrupción es excesivamente costoso y consume una

cantidad enorme de tiempo, por lo que es vital lograr predecirlas. El tiempo empleado en la

reparación implica que no se puedan seguir ejecutando experimentos, eso implica una pérdida

importante de desarrollo científico. En la Figura 1-2 se puede apreciar el daño provocado por una

disrupción. Allí puede observarse como se fundieron una gran cantidad de bloques. La

construcción de los dispositivos por lo general se hace en bloques para que la reparación solo se

haga en aquellas zonas dañadas.

Page 11: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

1 Contextualización

6

Figura 1-2. Daño provocado por disrupción

1.3 Dispositivos de fusión nuclear

La fusión nuclear no es un proceso que se haya desarrollado hace muchos años, de hecho se lleva

investigando desde los años 1950 y se formalizó como ciencia en la década del 70’. Este tipo de

tecnología es tan costosa que se hizo necesaria cooperación internacional, es por eso que hay

muchas instituciones que han construido dispositivos para realizar gran cantidad de

experimentos. A continuación se listan aquellos tipos que son más comunes.

1.3.1 Stellarator

El dispositivo de tipo Stellarator fue inventado por Lyman Spitzer en los años 50’, tras eso se fundó

el Laboratorio de Física de Plasma de Princeton (PPPL por sus siglas en inglés). El dispositivo fue

desarrollado en primera instancia para validar el modelo que permitiese confinar el plasma al

interior de las bobinas.

Al igual que la mayoría de los dispositivos de fusión termo nuclear, el Stellarator confina el plasma

caliente con campos magnéticos con el fin de lograr una fusión controlada sin que el plasma tenga

la posibilidad de escapar del dispositivo y generar daños tanto en la estructura como en las

instalaciones. El principal inconveniente de este tipo de dispositivos es que las componentes de

campo magnético necesarias para el confinamiento son muy complejas, lo que ocasiona que las

bobinas utilizadas requieran una precisión difícil de conseguir [6].

El primer modelo (llamado “Modelo A”) inicio sus operaciones en 1953, cabe destacar que dicho

dispositivo fue utilizado solo para realizar experimentos. Modelos más grandes fueron

desarrollados, pero demostraron tener un muy mal desempeño por un problema que ocasionaba

que el plasma se perdiera a una tasa mucho mayor a la calculada previamente. Sin embargo, más

adelante, gracias al diseño asistido por computadora fue posible la construcción de bobinas más

complejas y con esto se pudieron eliminar algunas inestabilidades que ocurrían al interior.

En la Figura 1-3 se representa en color amarillo el plasma y en azul el arreglo de bobinas para

confinarlo. Puede apreciarse la complejidad de la estructura y lo preciso que debe ser la

Page 12: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

1 Contextualización

7

instalación del equipo. Lo anterior demuestra la dificultad en aquellos años de conseguir la

precisión mecánica que en la actualidad pareciese completamente normal.

Figura 1-3. Diseño de Stellarator, experimento Wendelstein 7-X

1.3.2 Tokamak

Los dispositivos Tokamak, al igual que la mayoría de los dispositivos de gran envergadura y

vanguardistas, requiere una fuerte investigación previa. Es por eso que las investigaciones

experimentales de estos dispositivos comenzaron alrededor de 1956 en Moscú, actual Rusia. Un

grupo de científicos soviéticos, liderados por Lev Artsimovich dieron vida al primer Tokamak y a

sus distintas versiones. Cabe destacar que fueron muchos modelos experimentales los que se

llevaron a cabo, sin embargo la última versión llamada T-4 logró por primera vez una reacción

termonuclear cuasi-estacionaria.

Este tipo de dispositivo también utiliza campos magnéticos para confinar el plasma en su interior,

la idea principal es lograr mantener el plasma en la sección central de la estructura, de manera

que se encuentren las partículas muy unidas entre si, en caso contrario el plasma se enfriaría

rápidamente. La estructura general consiste, de forma muy general y muy básica, en dos grandes

conjuntos de bobinas, una central y otra exterior.

Las descargas de los dispositivos Tokamak son de especial interés en este trabajo, pues los

experimentos realizados han sido con datos reales del JET (Joint European Torus). Dicho

dispositivo comenzó a operar en el año 1984 y continúa vigente incluso ahora. El JET es la puerta

de entrada para la dominación de la fusión nuclear, los datos provenientes del dispositivo han

permitido un gran número de investigaciones que se utilizarán para la construcción de ITER, cuya

propuesta supone la solución definitiva a los problemas de los distintos dispositivos de fusión

nuclear. Parte de la solución es eliminar por completo las disrupciones, o más bien, lograr

predecirlas con una tasa de acierto mayor al 95%

Como se puede observar claramente en la Figura 1-4, esta estructura presenta una complejidad

menor que la anterior, ya que hay dos juegos de bobinas: la interior y la exterior, estas inducen

una corriente en el plasma para generar la componente poloidal del campo magnético. En el caso

del stellarator, dicha componente se producía de forma mecánica, por la disposición espacial de

los conjuntos de bobinas.

Page 13: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

1 Contextualización

8

Figura 1-4. Dispositivo Tokamak JET

1.4 Clasificadores

Un clasificador corresponde a un algoritmo que permite determinar a qué categoría pertenece un

conjunto de datos dado. Lo anterior explica de manera muy general el objetivo de un clasificador,

sin embargo hay una serie de pasos esenciales y muy necesarios para que todo funcione de forma

correcta. En primer lugar, siempre que se tiene un gran volumen de datos es indispensable pre-

pocesar la información para evitar que los datos erróneos sean importantes para el sistema.

Luego del pre-procesamiento, restaría etiquetar cada uno de los datos que entrarán al clasificador

con el fin de que el sistema conozca la respuesta que debería esperar de cada uno. Ya con los datos

y sus respuestas correctamente etiquetadas se puede comenzar con la etapa del entrenamiento.

El entrenamiento consiste en la recopilación de todos los datos pre-procesados en los cuales el

algoritmo se aplicará y tratará de generar patrones con la respuesta previamente conocida. Ya con

todos los patrones generados y el entrenamiento listo, se empaqueta todo en un modelo y se

procede a la etapa de pruebas o “test”. Allí también se conoce la respuesta de antemano, sin

embargo ahora se ingresan los datos al modelo y se compara la respuesta del modelo en contraste

con la respuesta real del sistema, ya en este punto es posible reconocer la tasa de acierto del

sistema.

En la siguiente sección se presentarán alguno de los modelos más utilizados en diversas áreas del

aprendizaje automático. Cada uno presenta diversas ventajas y desventajas.

Page 14: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

1 Contextualización

9

Figura 1-5. A la izquierda una red neuronal. A la derecha una SVM

1.4.1 Redes neuronales

Las redes neuronales son uno de los modelos más usados en aprendizaje automático.

Básicamente se trata de una gran cantidad de unidades simples llamadas “neuronas artificiales”

[7] simulando el comportamiento del cerebro humano. Estos modelos por lo general alcanzan

una tasa de verdaderos positivos aceptables, sin embargo se sacrifica lo transparente del modelo.

Como se puede observar en la Figura 1-5, la columna central representa procesos cuyos cálculos

y procedimientos internos no se conocen y tan solo entregan una salida para cierta entrada al

sistema.

Cabe destacar que estos sistemas aprenden y se forman a sí mismos, contrario a otros métodos

que utilizan algoritmos explícitos para tal fin. El objetivo principal de las redes neuronales es

lograr generar modelos que se entrenen de análogamente al cerebro humano. Es interesante

mencionar que la potencia de cálculo generada por redes neuronales enormes (millones de

conexiones) no es mayor a la de un gusano.

En el año 1943 se creó el primer modelo conocido de redes neuronales basados en matemáticas

y algoritmos denominados lógica de umbral. A partir de ese momento empezaron a investigarse

diversos métodos que ayudarían a la creación de algoritmos para mejorar la forma de aprendizaje

de las máquinas, entre muchos se destaca el Aprendizaje de Hebb y la “Propagación hacia atrás y

el resurgimiento”. Ambas explicaciones son extensas y escapan de los objetivos del presente

informe.

Cabe destacar que las mejoras en la tecnología fueron un aporte bastante positivo en la aplicación

de nuevos métodos de aprendizaje mediante redes neuronales. Y es que la invención de la

electrónica de estado sólido elevó la capacidad de procesamiento impresionantemente, tan así

que hasta los computadores de escritorio tienen la capacidad de generar pequeñas redes

neuronales. Entre los modelos más conocidos está la “Red neuronal recurrente (RNN)” y la “Red

neuronal feedforward (FNN)”.

Page 15: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

1 Contextualización

10

1.4.2 Máquina de vectores soporte

Al algoritmo original fue inventado en 1963 por Vladimir Vapnik y Alexey Chervonenkis. En

primera instancia, SVM se utilizaba tan solo en conjuntos de datos separables linealmente, esto

complicaba bastante las cosas pues en la mayoría de los casos las tendencias no resultan lineales.

Para resolver este problema, alrededor del 1992 el mismo autor propuso una forma de crear el

ansiado clasificador no lineal aplicando ciertos métodos a hiperplanos particulares. Vladimir

Vapnik aportó considerables mejoras al clasificador durante varios años, así hasta hoy se utiliza

para resolver ciertos problemas de clasificación.

De forma muy básica y a modo de ejemplo; el clasificador lineal busca establecer una recta ente

dos conjuntos de datos que representen clases distintas [8]. Dicha recta separará los conjuntos

de tal forma que la distancia entre ambos sea la máxima posible, aquellas muestras que se

encuentren justo en el margen de la separación de las clases se les denominará; vectores

soporte..Cabe destacar que una de las grandes ventajas de este método es que no es iterativo y

por lo tanto inmune al sobre-entrenamiento.

Como se puede observar en la Figura 1-5, hay tres rectas y dos categorías, representadas por

círculos negros y blancos. La recta “H1” no separa de ninguna forma ambas categorías. La recta

“H2” separa ambas categorías de forma perfecta, sin embargo la distancia entre la recta y uno de

los ejemplos es muy pequeña. Cuando se traza la recta “H3”, la separación entre los ejemplos de

una categoría y otra crece bastante y se logra una buena calidad en el SVM.

1.4.3 Métodos ensamblados

Los métodos ensamblados es una forma muy efectiva de mejorar el desempeño de modelos

individuales. Consiste en combinar distintos grupos de modelos individuales que por sí solos no

alcanzan resultados útiles para ser utilizados de forma real. Sin embargo, una vez que se mezclan

y ponderan cada uno de sus modelos pequeños, resulta un clasificador final muy robusto con

unas tasas de acierto muy superiores con respecto a otros métodos individuales.

El algoritmo utilizado a lo largo del presente informe consiste justamente en un método

ensamblado, este consiste en AdaBoost. Dicho algoritmo es iterativo y solo puede utilizarse si el

error en cada una de sus iteraciones no es cero, pues si así lo fuera, este se indeterminaría. La

cantidad de iteraciones son escogidas el usuario y generalmente se eligen convenientemente para

tener un equilibrio entre tasas de acierto y falsos positivos.

Este algoritmo consiste en la generación de reglas del tipo IF-THEN de manera iterativa, cada

regla tiene una ponderación asociada a la importancia de dicha regla en la clasificación final dada

alguna entrada al sistema. Además, cada regla tiene un umbral bajo el cual se determina una

condición que puede ser positiva (+1) o negativa (-1). Esa condición es la que se compara con la

entrada al sistema para determinar si la ponderación asociada es positiva o negativa. Finalmente

se genera un polinomio de reglas, cada regla posee un umbral, la ponderación y el signo dado por

el umbral (+1 o -1). Para finalizar, el resultado de la sumatoria de todas las ponderaciones

Page 16: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

1 Contextualización

11

multiplicada por sus reglas generará una salida que tendrá signo negativo o positivo, dicho signo

será la hipótesis fuerte y salida del sistema

1.5 Motivación

Los clasificadores modernos de aprendizaje automático pueden alcanzar tasas bastantes altas de

acierto y muy bajos falsos positivos. Para efectos prácticos lo anterior puede ser útil y

potencialmente aplicable, sin embargo la mayoría de estos modelos contienen procesos internos

que se realizan de forma casi totalmente automática, por lo cual se pierde el control y el

conocimiento del funcionamiento interno del clasificador.

Es por lo anterior que se busca un enfoque diferente en el presente informe. Se priorizará la

utilización de algoritmos que permitan tener conocimiento total de aquellas características que

son vitales para realizar clasificaciones correctas.

1.5.1 Sistema de caja negra

El principal problema de los modelos de caja negra es que no se tiene conocimiento de los

distintos procesos que se realizan internamente. A continuación se presenta un esquema básico

de un modelo de caja negra.

Cuando el modelo se orienta a la clasificación de señales temporales, es muy conveniente tener

conocimiento de cómo cada una de las señales va modificando el resultado de las predicciones,

de esa manera el operador a cargo de la descarga puede ir modificando ciertas variables en tiempo

real y forzar al predictor a que entregue cierto resultado (-1 en este caso).

Por lo general, cuando los modelos son demasiado complejos y se poseen gran cantidad de

variables, se opta por utilizar cajas negras. De esa forma se sacrifica el conocimiento por una

clasificación más precisa. Es importante señalar que la idea principal de este trabajo es generar

pleno conocimiento de las variables que inciden en la toma de decisión del predictor, por lo que

queda completamente descartado el modelo de caja negra. Si bien es posible que se obtengan

buenos resultados, uno de los objetivos es que un operador pudiese forzar una salida.

Un modelo de caja negra tan solo entregaría la respuesta en cierto instante, por lo que el operador

no contaría con el tiempo necesario para tomar una acción que permita disminuir el daño a las

paredes del dispositivo.

Figura 1-6. Ejemplo de sistema de caja negra

Page 17: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

1 Contextualización

12

1.5.2 Sistema de caja transparente

Al contrario que el caso anterior, un sistema de caja transparente permite conocer plenamente el

funcionamiento interno de cada proceso. Por lo que en cada etapa del clasificador se sabe el valor

de importancia de la señal correspondiente y la respuesta que esta llevará consigo.

Si bien la Figura 1-7 no representa un modelo de aprendizaje automático, se puede apreciar como

cada uno de sus bloques tiene variables bien conocidas. Si por alguna razón el operador tuviera

acceso a esas variables y quisiera forzar cierta salida lo podría hacer pues se tiene pleno

conocimiento de cómo afecta cada una de ellas en cada proceso intermedio.

Este concepto aplicado a aprendizaje automático tiene mucho potencial, pues de conocer los

parámetros que aportan cada una de las señales al sistema predictor, un operador podría ir

modificando de alguna forma las señales para que se ajusten a la salida esperada del sistema.

Para el algoritmo Adaboost, se conoce en cada iteración la regla que tiene más ponderación por

lo que se podría saber con antelación si alguna de las señales está aportando con un valor

demasiado negativo o demasiado positivo.

Figura 1-7. Sistema de control realimentado

Page 18: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

13

2 Estado del Arte A lo largo de los años se han desarrollado múltiples clasificadores cuyo objetivo ha sido solucionar

el problema de las disrupciones nucleares. Por lo general, la mayoría de dichos clasificadores

utilizan los principios del aprendizaje automático.

A continuación se presentan brevemente los predictores desarrollados hasta la fecha y la

comparación entre ellos. Cabe destacar que se indican las técnicas utilizadas, los porcentajes de

acierto y su capacidad de implementación en tiempo real.

Tabla 2-1. Algunos métodos desarrollados hasta la fecha

2.1.1 Predictores por redes neuronales

Fue en un dispositivo Tokamak donde se intentó por primera vez desarrollar un sistema de

predicción de disrupciones. Dicho dispositivos pertenecía a la universidad de Texas. En este

primer caso se utilizaron dos sistemas distintos entre sí, para luego comprar sus resultados. Cabe

destacar que se continuó con la misma línea de investigación en estudios posteriores, siempre

priorizando las redes neuronales como el sistema predictor por defecto.

Otro sistema que es importante mencionar es aquel en el que se analizaron mediante validación

cruzada las descargas provenientes del dispositivo JET y ASDEX Upgrade (AUG). Este tipo de

predictor funciona entrenando AUG y testeando en JET y viceversa. Para AUG, el algoritmo logró

Page 19: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

2 Estado del Arte

14

una tasa de acierto de alrededor del 90%, mientras que para JET alcanzó cerca del 86%. Sin

embargo al realizar la validación cruzada, los algoritmos alcanzaron 69% cuando se entrenó con

datos de AUG y 67% cuando se entrenó con datos del JET.

2.1.2 Predictores por lógica difusa

Como puede apreciarse en la Tabla 2-1, tan solo hay un algoritmo de lógica difusa desarrollado

por A. Murari. Es importante destacar la basa tasa de acierto de dicho sistema, da cuenta de

porque no se siguieron desarrollando algoritmos siguiendo los pasos de lógica difusa. Tan solo se

alcanza una tasa de acierto del 74% y falsas alarmas del 23,5%. El algoritmo no tuvo suficiente

potencial para trabajarlo con mayor profundidad.

2.1.3 Predictores por SVM (Máquina de vectores soporte)

En esta sección se dará a conocer a APODIS (Advanced Predictor of Disruptions) en el cual se lleva

a cabo un análisis sobre un total de 14 señales que son divididas en ventanas de tiempo de 30ms.

Para el APODIS se construyeron 3 clasificadores distintos siguiendo la lógica de SVM, en función

de las tres respuestas recibidas por los clasificadores, se elabora una función de decisión que

determina si finalmente la señal es disruptiva o no. Este predictor ha alcanzado una tasa de acierto

de alrededor de 97,7%, muy superior a lo desarrollado mediante lógica difusa. 2.2 Adaboost

Adaboost proviene de “Adaptative Boosting”, este es un algoritmo propuesto por Yoav Freund y

Robert Schapire como un método generalizado para obtener clasificadores débiles [1].

El método de Adaboost es pensado en primera instancia para clasificar datos cuya respuesta

consista en valores binarios, vale decir con dos posibilidades en su clasificación. Es importante

señalar que los “valores” que pueden tomar dicha clasificación se llaman clases y pueden ser -1 o

+1. Por ende las clases corresponden a las categorías posibles de los elementos.

Una de las ventajas de Adaboost con respecto a otros métodos de aprendizaje automático es su

sencillez. Este algoritmo funciona (al igual que otros) con árboles de decisión, sin embargo en este

caso son binarios.

El árbol de la Figura 2-1 se puede entender de la siguiente manera: si el parámetro que se está

testeando, asociado a la regla x1 es menor que 1069,59 entonces es +1, si fuese mayor o igual a ese

valor, entonces es -1. El resultado obtenido de la condición anterior debe multiplicarse por un

factor de ponderación que está asociado a cada una de las reglas ( ).

El proceso anterior describe la forma de evaluar una sola regla del modelo asociado. Como se trata

de un método ensamblado, éste contiene gran cantidad de reglas. Lo anterior implica que para

obtener una hipótesis fuerte se deben recorrer cada una de las reglas y cada resultado parcial

(hipótesis débil) se debe sumar algebraicamente para obtener un resultado cuyo signo será la

decisión de la hipótesis fuerte. La hipótesis fuerte corresponde a la respuesta final del modelo

generado y cuyo valor corresponde a la categoría (o clase) de los datos analizados.

Page 20: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

2 Estado del Arte

15

Figura 2-1. Ejemplo de árbol de decisión

2.3 Ejemplo ilustrativo

En la Figura 2-2 se puede observar el algoritmo Adaboost descrito paso a paso. De forma particular

en relación a otros algoritmos, Adaboost inicia con una distribución igualada de los pesos para

cada una de las muestras. Este clasificador consiste en la generación de T modelos sencillos,

donde T sería la cantidad de iteraciones elegida según sea necesario. Cabe destacar que estos

modelos no son generados aleatoriamente, sino que dependen fuertemente del error de

clasificación obtenido en el caso anterior. Esta es la manera en la que Adaboost mejora la tasa de

acierto iteración a iteración.

Con el fin de fortalecer aún más el entendimiento de Adaboost, en esta sección se presentará un

ejemplo ilustrativo. En él se reflejarán los aspectos más importantes a considerar para el correcto

funcionamiento del algoritmo.

Figura 2-2. Algoritmo Adaboost

Page 21: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

2 Estado del Arte

16

El objetivo es clasificar un conjunto de datos de dos dimensiones, cuya ubicación en el plano

cartesiano corresponde a los ejes X e Y, en adelante denominados como X1 y X2 respectivamente.

La Tabla 2-2 contiene los datos de entrenamiento del ejemplo ilustrativo, estos datos serán los

que ingresaran al sistema predictor para generar las salidas (respuesta) correspondientes.

Aquellas muestras con la clase +1 corresponden a los círculos rojos y con la clase -1 corresponden

a las cruces azules.

En la Figura 2-3 se puede observar la representación en el plano cartesiano de los datos expuestos

en la Tabla 2-2. La idea principal del ejemplo ilustrativo es lograr plasmar gráficamente un

algoritmo completamente textual. De esta forma se comprobará el funcionamiento en

completitud.

Antes de comenzar el entrenamiento, se deben establecer algunas normas que permitirán

normalizar la forma en la que se tratarán los problemas de ahora en adelante, por ejemplo; los

umbrales escogidos siempre significaran un +1 en la clasificación, por lo tanto si se establece que

X1 > 3, entonces significará que el sistema impone que todas las muestras cuyo valor de X1 sea

mayor que tres, tendrán una clasificación de +1. Aquellos valores que estén mal clasificados serán

los errores del sistema y son de especial importancia para los procesos posteriores.

Como se dijo anteriormente, el algoritmo Adaboost siempre busca reducir el error asociado a las

reglas de forma iterativa. En una primera iteración es sencillo pues como cada muestra tiene el

mismo peso asociado, simplemente se escogerá aquella regla (o umbral) que permita la menor

cantidad de errores en una primera clasificación.

En la Figura 2-4 se puede observar la primera regla. Como se explicó anteriormente, el algoritmo

escoge la primera regla en aquel lugar en el que se produce el menor error. La regla

correspondiente a la figura sería X1 < 3,5. Con dicha regla se logra la mejor clasificación pues tan

solo falla en una ocasión. La muestra que falla corresponde a la séptima, adjunta en la Tabla 2-2.

Para comprender cómo el algoritmo selecciona las reglas subsiguientes, tanto en la Figura 2-4

como en la Figura 2-5, las muestras que fueron mal clasificadas en cada iteración se aumentó su

tamaño para representar lo que sucede en la tabla de los pesos asociados a cada muestra en cada

iteración. Es importante destacar que la tabla de pesos se actualiza al final de cada iteración y le

indica al algoritmo las muestras a las que se debe prestar más atención en las siguientes reglas.

Para la selección de las próximas reglas, ya no basta con elegir aquella que tiene menos errores o

que falla menos veces. Ya después de la primera iteración, el peso asociado a cada muestra es de

especial importancia pues incide en el cálculo del error de cada muestra y dicho error permite

discernir la posición del umbral.

Para este ejemplo ilustrativo y de forma totalmente empírica, se decidió iterar tan solo tres veces

pues en caso contrario se perdería la lógica de un ejemplo simple y, además, las reglas se iban

repitiendo constantemente con distinta ponderación.

En la Tabla 2-4 se muestran las ponderaciones asociadas a cada una de las tres reglas calculadas

en cada proceso. El valor de estas ponderaciones indicará la importancia de las reglas, por lo que

Page 22: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

2 Estado del Arte

17

a mayor valor, mayor será la importancia. Como se puede observar, todas las ponderaciones

tienen valores bastante parecidos, sin embargo la última es la más importante y por lo tanto es

aquella que influenciará en mayor medida la clasificación.

Una vez que se completan las iteraciones se obtiene el modelo final que permitirá clasificar

nuevas muestras que no sean las que se utilizaron para entrenar. Esto se hace en la etapa final del

algoritmo mediante una sumatoria del producto entre las hipótesis débiles obtenidas en cada

iteración y las ponderaciones correspondientes a cada una de dichas hipótesis. En la Tabla 2-5 se

propone una muestra para realizar la clasificación paso a paso. En la ecuación (2-1) se puede

apreciar claramente cómo se van ponderando cada una de las reglas. El valor de la hipótesis débil

depende del valor que se le asigna según los modelos individuales y la posición de la muestra.

Tabla 2-3. Distribución de pesos segunda iteración

X1 X2 D2

1 4 0,08

2 5 0,08

1 1 0,08

2 1 0,08

5 5 0,08

5 4 0,08

1.5 0.5 0,5

Figura 2-4. Primera regla

Figura 2-5. Iteración 2 y 3 ejemplo ilustrativo

Tabla 2-2. Conjunto de entrenamiento ejemplo ilustrativo

n X1 X2 Clase

1 1 4 +1

2 2 5 +1

3 1 1 +1

4 2 1 +1

5 5 5 -1

6 5 4 -1

7 1.5 0.5 -1

Figura 2-3. Representación en el plano cartesiano

Page 23: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

2 Estado del Arte

18

Figura 2-6. Test de mil muestras aleatorias

El ejemplo puede extenderse para visualizar la distribución de las clases en el plano cartesiano.

En la Figura 2-6 se muestra la clasificación de mil muestras distribuidas aleatoriamente en los

límites establecidos por las muestras de prueba.

Con este ejemplo se logró verificar con la facilidad que se pueden lograr buenas clasificaciones y

en unos pocos pasos con una muy pequeña exigencia computacional.

Tabla 2-4. Ponderaciones asociadas a cada iteración

Ponderaciones α1 = 0,89 α2 = 0,80 α3 = 1,10

.

Tabla 2-5. Punto de prueba Adaboost

X1 X2 Clase

2,5 3 ?

(2-1)

Page 24: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

19

3 Análisis temporal de señales En esta sección se explicarán los métodos utilizados para analizar las señales provenientes de los

sensores del JET. Se busca principalmente generar resultados sencillos a base de señales

complejas y de esa manera reducir al mínimo tanto los tiempos de procesamiento como la

complejidad del sistema predictor completo.

3.1 Señales analizadas

En las siguientes secciones se darán a conocer aquellas señales que se utilizaron a lo largo de todos

los experimentos y se añadirá una pequeña explicación de cómo se utilizan y el por qué son

importantes para lograr una buena clasificación y obtener las tasas esperadas durante el presente

trabajo.

3.1.1 Mode Lock

La señal Mode Lock ha sido ampliamente utilizada en numerosos predictores y trabajos

investigativos, esto principalmente porque comienza a aumentar considerablemente. El

aumento se produce cuando una inestabilidad macroscópica comienza a bloquearse en las

paredes del JET, luego el plasma empieza a detener su rotación gradualmente y la señal Mode

Lock crece [9].

3.1.2 Evolución temporal de la afluencia del Tungsteno

Señal de uso reciente, se ha observado un comportamiento típico al momento de la disrupción y

se planteará su uso con diversos procesamientos de la señal temporal. Básicamente como se trata

de la primera capa para que el plasma no escape, su nivel de afluencia debería aumentar

conforme la disrupción se vuelve inminente [10].

3.1.3 Energía diamagnética

Esta señal se ha ocupado en trabajos anteriores. En esta oportunidad se planteará otro método

para tratarla y así obtener buenas predicciones. También se observa un comportamiento

disruptivo que podría ser potencialmente predecible.

Page 25: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

3 Análisis temporal de señales

20

3.1.4 Potencia de entrada y potencia radiada

Corresponden a un conjunto de señales que tienen que ver con la energía inyectada al sistema y

una porción de la potencia irradiada por sus campos electromagnéticos [11]. Con estas señales se

busca una nueva señal sin unidad cuya amplitud corresponde a la división instantánea de ambas.

3.1.5 Señales bolométricas

Corresponden a un conjunto de señales que miden las pérdidas por radiación del plasma en

distintas secciones del Toroide de forma temporal [12]. Se tratan de bolómetros ubicados en

posición estratégica para observar el desarrollo tanto espacial como temporal de estas pérdidas.

Con estas señales se busca determinar concentraciones de plasma que estén cercanas a alguna

de las paredes, ya sea en vertical u horizontal. Se plantea como alternativa a la señal Mode Lock y

como una forma de generar un modelo orientado a la evitación de la disrupción.

Figura 3-1. Ejemplo extracción de señales bolométricas

3.2 Acotamiento por corriente de plasma

Uno de los primeros filtros esenciales para analizar todas las señales provenientes del JET es el

acotamiento que se realiza por medio de la Corriente de Plasma. Por lo general se prefiere que el

acotamiento sea del orden de 750kA [13] para asegurar que exista plasma al interior del toroide.

En diversas ocasiones y a modo de experimentación se ha establecido un acotamiento a 1000kA

de corriente de plasma en algunas pruebas, mejorando así los resultados de forma ocasional.

Para ilustrar la idea del acotamiento, a continuación se presentan dos imágenes. En la Figura 3-2

a la izquierda se observa una descarga Mode Lock disruptiva antes de ser acotada, por otro lado,

Page 26: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

3 Análisis temporal de señales

21

la imagen de la derecha muestra la misma descarga, pero esta vez recortada con la condición

descrita previamente de la corriente de plasma. En esta oportunidad pareciese no ser muy

relevante el hecho de recortar o acotar la descarga, pero en otras instancias sucede que existen

inestabilidades al inicio de la misma que pueden ser perjudiciales para entrenar un clasificador.

Como se puede apreciar en la Figura 3-2 de la derecha, justo al inicio de la señal existe un pequeño

espacio vacío en el que algunos datos fueron eliminados por no cumplir la condición de

acotamiento de la corriente de plasma. Esto nos indica que es probable que en ese instante no

existía plasma al interior del toroide.

Figura 3-2. Comparación entre dos descargas; una sin acotar y otra acotada

3.3 Concepto de Warning Time (WT)

El warning time (WT) es el tiempo que hay entre que se detecta la disrupción y ocurre la misma.

Se calcula de la siguiente forma:

(3-1)

A lo largo de este trabajo siempre se ha pensado la implementación de un clasificador final en

tiempo real sobre un dispositivo de fusión nuclear. Es por lo anterior que se requiere de una

métrica que permita reconocer la capacidad del modelo para entregar resultados con suficiente

tiempo de antelación para que los operadores se permitan un tiempo de acción suficientemente

alto y así evitar daños catastróficos.

El Warning Time es fundamental para evaluar la calidad de los distintos modelos generados. Un

modelo que entregue tasas de acierto muy altas con un WT bajo no servirá para casos prácticas y

deberá descartarse. Es importante destacar que las disrupciones son eventos muy rápidos por lo

que si el modelo predice una disrupción 30ms antes de que ocurra, no se podrán tomar acciones

de evitación o mitigación, simplemente se dañarán las paredes del toroide y diversos

componentes internos. Asímismo, si la disrupción se predice mucho antes que un segundo

Page 27: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

3 Análisis temporal de señales

22

también se considera un mal pronóstico pues los físicos expertos determinan que es imposible

que una disrupción comience a manifestarse con un segundo de anticipación. A continuación se

presentará una imagen que clarificará la idea del warning time y también de su cálculo,

mostrando gráficamente el intervalo al que pertenece.

En la Figura 3-3 se muestra una descarga disruptiva Mode Lock. Dicha descarga es un poco

distintas a las vistas anteriormente porque se encuentra ampliada en aquel intervalo cercano a la

disrupción. El asterisco rojo muestra el instante en el que el experto indicó que ocurría la

disrupción (o el evento disruptivo). En verde se muestra el instante en el que el predictor dio como

respuesta una disrupción. El tiempo que existe entre ambos instantes es lo que se denomina

Warning Time.

Como se mencionó anteriormente, el WT incide directamente sobre las métricas que determinan

si el modelo acertó o no. A continuación se presentan cada uno de los conceptos que se darán por

entendido más adelante. También se específica como calcular las tasas de acierto y de falsos

positivos.

Es importante señalar que significa cada uno de los conceptos que se verán a continuación:

Valid Alarm (VA): Corresponde a una detección disruptiva que ocurre entre 30ms

a 1s

Premature Alarm (PA): Detección disruptiva que ocurre antes de 1s

Tardy Detection (TD): Detección que ocurre entre 30ms o menor.

Success Rate (SR): Corresponde a la suma de los tres términos anteriores

VA+PA+TD

False Positives (FP): Corresponde a aquellas señales safe clasificadas como

disruptiva

Figura 3-3. Ejemplo ilustrativo WT

Page 28: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

3 Análisis temporal de señales

23

3.4 Enfoque de centroides

El enfoque de centroides surge como una posible solución para reducir el warning time y

aumentar la tasa de acierto en los clasificadores.

La idea básica detrás del enfoque de centroides consiste en una especie de compresión de las

descargas pues se intenta reducir una señal completa en tan solo una muestra. Para determinar

los centroides primero se deben calcular los conjuntos de muestras asociadas a cada clase.

Después se debe determinar el promedio de las posiciones de cada eje por separado para obtener

el centroide de los datos.

En este punto ya los datos provenientes de las señales pierden su propiedad temporal pues su eje

X se vuelve irrelevante al entrenar mediante este método. Simplemente se les asigna a cada

muestra un número dependiendo de la posición que ocupaban previamente en el tiempo, esto

significa que inician en uno correlativamente hasta el final. Lo anterior implica que habrá

muestras que tendrán posiciones pares y posiciones impares en el plano cartesiano, detalle vital

para este tipo de procesamiento. En la Figura 3-4 se puede apreciar una distribución de muestras

con sus respectivos centroides.

Figura 3-4. Ejemplo ilustrativo centroides

3.4.1 Centroide descarga disruptiva

Las señales provenientes de las bases de datos contienen el tiempo exacto en el que ocurre la

disrupción. Para transformar cada una de las descargas en una simple muestra del plano

cartesiano se debe considerar la amplitud que tiene esa descarga en el instante más cercano a la

disrupción. Dicho dato corresponderá al eje Y de la muestra y el dato justo anterior a ese será el

eje X de la muestra. Lo anterior debe ejecutarse para cada una de las descargas disruptivas y

posteriormente se promedian cada una de las muestras para extraer su centroide.

Es importante destacar que el instante escogido debe cumplir con cierta condición y es que no se

puede encontrar en un tramo decreciente. Lo anterior implica que el dato correspondiente al eje

Y de la muestra debe ser mayor al dato asociado al eje X de la misma muestra, de esa forma nos

aseguramos que se encuentre en un tramo creciente.

Page 29: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

3 Análisis temporal de señales

24

3.4.2 Centroide descarga safe

En aquellas descargas que no generaron una disrupción no intencionada se hace un trabajo

distinto. En este caso se considera la descarga completa para el análisis y no solamente el instante

disruptivo como pasó anteriormente. Para extraer una muestra safe se toman los datos ubicados

en posición par y se extrae su promedio simple, dicho promedio corresponderá al eje X de la

muestra. Análogamente se toman los datos impares de la descarga y también se promedian, en

este caso ocuparán el eje Y de la muestra.

El método anteriormente expuesto permite determinar una tendencia relativamente fiable. La

mayoría de las descargas safe tienen comportamiento similares, por lo que los valores que

alcanzan se encuentran en un rango bastante predecible. Lo anterior permite la generación de

conjuntos de muestras que tendrán muy poca variación y estén bastante cercanos con su

centroide. Cabe destacar que el enfoque de centroides sigue la misma tónica orientada al

clasificador en tiempo real y es potencialmente realizable. Además, el tiempo de procesamiento

para este tipo de enfoque es casi nulo, pues solo basta recopilar la información de la descarga de

forma ordenada y tan solo procurando no perder demasiados datos en el camino pues ligeras

variaciones como un dato vacío o una división por cero podrían ocasionar que se genere una

indeterminación en el modelo o la necesidad de validaciones excesivas.

3.5 Enfoque de Peaking Factor

El peaking factor surgió como una idea de analizar dos señales que tuviesen las mismas unidades

en su magnitud en conjunto y de esa forma encontrar alguna tendencia asociada a la disrupción.

En este caso particular se busca que tengan las mismas unidades en su magnitud porque para

realizar un análisis por Peaking Factor se requiere una división instantánea entre ambas

descargas, vale decir una división punto a punto solo de sus magnitudes.

El peaking factor se trabaja con las señales provenientes de los sensores bolométricos que

entregan información exacta de la distribución del plasma entre distintas zonas del toroide. Con

dicha información se busca cambios bruscos de la posición del plasma, lo que sería análogo a la

velocidad del plasma.

Se eligieron 3 canales de zonas distintas del toroide; uno central y dos ubicados en los extremos

del mismo. Esto supone un estudio en las variaciones de plasma en dichas zonas y con las

divisiones temporales se podrían obtener curvas crecientes o decrecientes dependiendo de la

dirección que vaya tomando el plasma. Cabe destacar que el caso ideal es que el plasma se

concentre en el centro del toroide y cualquier movimiento o estancamiento hacia las paredes

indicaría una inminente disrupción.

La Figura 3-5 muestra el resultado de una división instantánea entre dos descargas provenientes

de los canales bolométricos. A simple vista pareciese no tener sentido alguno, sin embargo esto

es causado de forma muy probable por pérdida de datos al momento de recopilar información.

El enfoque de peaking factor es muy sensible a la mala recopilación de datos y a los cambios

abruptos entre muestra y muestra. Lo que se observa en la figura se le reconoce normalmente

Page 30: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

3 Análisis temporal de señales

25

como outlier; datos que escapan de la tendencia o simplemente datos faltantes que se rellenan

automáticamente con ceros o números muy cercanos a cero.

Cuando los datos faltantes se rellenan con números muy pequeños, la división se dispara y ocurre

un outlier. Existen diversas técnicas que solucionan la situación. En este caso, como se tratan de

datos que representan fenómenos de la naturaleza, se optó por el filtro MAD, muy conocido y

bastante robusto para detectar estos cambios abruptos en grandes volúmenes de datos. En la

ecuación (3-2) corresponde a los índices normalizados mediante el filtro MAD.

(3-2)

Donde MAD es la desviación mediana absoluta. En [14] se recomienda eliminar aquellos valores

en los que el resultado sea mayor a 3,5 ya que en ese caso se trata de un outlier.

Como se puede observar en la Figura 3-6, el filtro de outlier no es suficiente para obtener una

señal limpia con datos potencialmente clasificables. Es por eso que se hace necesario realizar

procesamientos un poco más complejos para obtener resultados coherentes. Con el fin de

explorar nuevas soluciones a los problemas que fueron surgiendo y como la señal obtenida seguía

siendo muy indescifrable se propuso un filtro que seguía la misma tónica que el procesamiento

RMS. Como dicho filtro solo funciona con aquellas señales que son periódicas es que se analizó

todo considerando un periodo de 8ms.

Básicamente se estudió la señal dividiéndola en secciones que sean equivalentes con el periodo

escogido. En [15] se puede encontrar la ecuación necesaria para el cálculo de RMS en señales que

son continuas en el tiempo. En la Figura 3-7 puede apreciarse la señal resultante después de

aplicar el filtro RMS a la señal previamente filtrada con los outlier.

(3-3)

De manera meramente ilustrativa se presenta en la Figura 3-8 la señal filtrada mediante RMS

superpuesta con la señal filtrada mediante outlier. Puede apreciarse claramente como el

resultado mejora notoriamente y los datos tienen tendencias notorias. Este método supone un

alto coste computacional y también mucho riesgo de aleatoriedad, no asegurando la integridad

de un análisis limpio de datos. Es por lo anterior que el método se descartó por completo, pues se

alejaba de la tónica y de los objetivos del presente trabajo.

Page 31: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

3 Análisis temporal de señales

26

Figura 3-5. Peaking factor bolométricas

Figura 3-6. Filtro de outlier aplicado

Figura 3-7. Filtro RMS aplicado

Figura 3-8. Filtro RMS aplicado y superpuesto

Page 32: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

3 Análisis temporal de señales

27

3.6 Enfoque de ventanas

En la siguiente sección se presentarán los conceptos necesarios para comprender el enfoque de

ventanas que servirá para generar un modelo implementable en tiempo real.

El enfoque basado en ventanas temporales ha sido realizado con los datos de la Campaña 2830

del JET, esta campaña posee todas las señales muestreadas a 1ms, es decir que cada 1ms se

obtiene un dato y se guarda en la base de datos correspondiente. Como las descargas pueden

llegar a durar hasta 30s, el tamaño de cada descarga es extremadamente grande, esto hace

necesario realizar un procesamiento previo para disminuir la cantidad de datos y generar

clasificadores más robustos y eficientes. Para realizar lo anterior se usó el concepto de ventana

temporal. Las ventanas temporales corresponden a un conjunto de datos (que en este caso se

hacen de 32ms) al que se les aplica un procesamiento y se convierten en un solo datos. Algunos

ejemplos de procesamiento son: promedio, varianza, pendientes, entre otros. A continuación se

presenta un gráfico en que se muestra una descarga disruptiva muestreada a 1ms en contraste

con la misma descarga aplicando el concepto de ventana temporal con el procesamiento

“promedio”.

Tal como se ve en la Figura 3-9, la descarga promediada presenta un comportamiento bastante

similar. El detalle importante es que el peak de su amplitud se ve reducido porque se promedia

con toda la vecindad presente en ese instante. También cabe destacar que en el proceso se pierde

un poco de resolución, existen menos cantidad de datos y por lo tanto existe algo de pérdida de

información, sin embargo la ventaja es la considerable reducción del tamaño de la descarga: el

gráfico de la izquierda contiene 6107 mientras que el de la derecha contiene tan solo 190, esto

sería aproximadamente el 3% de la señal original.

Figura 3-9. A la izquierda la descarga muestreada a 1ms y a la derecha con ventanas promediadas a 32ms

Page 33: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

3 Análisis temporal de señales

28

3.6.1 Clasificador en cascada

Paul Viola y Michel J. Jones propusieron en 2001 un algoritmo que permitiría clasificar, en primera

instancia, rostros en tiempo real. Dicho algoritmo, además de eso podría eliminar fondos dentro

de las imágenes de forma rapidísima y concentrar todo el esfuerzo computacional en aquellas

zonas que tienen parecido a un rostro humano [16]. Como es de esperarse, un algoritmo que fue

diseñado inicialmente para clasificar puramente imágenes pareciese no ser aplicable a señales

temporales o algún otro tipo de distribución de datos. Contrario a lo que se piensa, los resultados

mejoraron bastante aplicado el concepto principal del Viola-Jones

Otro concepto importante que se aplica en el enfoque de ventanas es la utilización del clasificador

en cascada. Algunas implicancias de su uso es la particular división de sus datos. Se debe hacer

una división en dos ocasiones. En primer lugar se dividen los datos globales en dos conjuntos con

la proporción 60/40, 60% de los datos para entrenar y 40% para hacer el test. De ese 60% se vuelven

a dividir los datos con la misma proporción anterior de 60/40 y se realiza la primera etapa.

Como se puede observar en la Figura 3-10, se realiza una primera división global de los datos.

Cuando se realiza el First Test, se espera una tasa de acierto (Success Rate) del 100% y una tasa de

Falsos Positivos del 50%. Luego se crea un segundo modelo con toda la Disruptive Data de la

primera división y todas aquellas descargas que fueron mal clasificadas como disruptivas. Tras

hacer un Global Test de ese segundo modelo, se espera una tasa de acierto de 95% y una tasa de

falsos positivos del 5%.

Lo anterior es particularmente útil cuando se analizan conjuntos de datos que tienen un fuerte

desbalance. En este caso la cantidad de descargas safe superan con creces a la cantidad de

descargas disruptivas. Una vez que supera la primera etapa, los datos se encuentran con un

balance muy superior al anterior pues se descartan a lo menos el 50% de las descargas safe.

El principal objetivo en esta sección es generar dos modelos que se utilizará en conjunto para

determinar qué tan potente será el clasificador en cascada. La explicación del recuadro

correspondiente a “Global Test” se realizará más adelante pues la idea en esta etapa es clarificar

tan solo cómo se generaron los modelos utilizados.

Page 34: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

3 Análisis temporal de señales

29

Figura 3-10. Esquema de división de datos

Page 35: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

3 Análisis temporal de señales

30

3.6.2 Selección de datos

Para la selección de los datos utilizaron tres criterios:

El primero consiste en utilizar el último dato de la descarga disruptiva. En ese

instante se considera que ocurre la disrupción, es el tiempo más cercano a la

disrupción. Para el caso de la descarga safe (o no disruptiva) se promedian todos

los datos de la descarga y eso ingresa al modelo como dato safe.

El segundo criterio es el mismo para la descarga disruptiva, sin embargo para la

descarga safe se hace algo diferente. Se crea una semilla generadora de datos

aleatorios (para replicabilidad) y luego para la primera etapa se escogen 6 datos

aleatorios de las descargas. Para la segunda etapa se escogen 10 datos aleatorios

de cada descarga.

El tercer y último criterio consiste simplemente en etiquetar una sección central

de la descarga safe cuyo tamaño varía en función del tamaño de la descarga.

De estos tres criterios se prefirió utilizar el segundo y tercero solo de forma empírica pues fue con

el que se obtuvieron mejores resultados, tanto en la primera como en la segunda etapa.

3.6.3 Ventana deslizante

El concepto de ventana deslizante se utiliza bastante cuando se requiere explorar y analizar la

evolución temporal de distintos conjuntos de datos.

El test del sistema completo se hizo bajo el concepto de ventana deslizante. Esto quiere decir que

la evolución de las características se van actualizando ventana a ventana, sin considerar la

ventana anterior y mucho menos la ventana siguiente. Esta forma de hacer el test asegura su

funcionamiento en tiempo real y permite comprobar los resultados con los modelos generados

con anterioridad.

En este caso es de especial interés la aplicación de este tipo de test pues es necesario detenerlo

cuando se encuentra una disrupción además de etiquetar la descarga. Muchas veces, las ventanas

temporales no contemplan una sola señal, sino que un conjunto, lo que generaría un vector de

características en cada posición de la ventana deslizante.

Page 36: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

31

4 Experimentos y resultados En esta sección se darán a conocer todos los resultados obtenidos durante la experimentación de

los distintos enfoques, además se mostrarán todos los resultados parciales y explicaciones que

sean necesarias para complementar el proceso.

4.1 Experimento con centroides

En esta sección se verán los experimentos realizados con el enfoque de centroides (ver sección 0).

Aquí se incluirán sus respectivas tasas de aciertos, de falsos positivos y los tiempos en los que se

logró la predicción disruptiva. Dichos datos son de importancia para establecer comparaciones

entre distintos métodos propuestos anteriormente.

4.1.1 Centroides con señal Mode Lock

El fin de experimentar con la señal Mode Lock es verificar que los métodos de análisis utilizados

se ajustan a los resultados obtenidos anteriormente con modelos más antiguos. A continuación

se presenta un plano cartesiano en el que observa la distribución de los conjuntos de muestras.

Figura 4-1. Centroides señal Mode Lock

Page 37: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

4 Experimentos y resultados

32

En la Figura 4-1 se puede observar como ambos conjuntos de muestras se encuentran totalmente

separadas, logrando así una buena clasificación.

En particular para este test, se tienen dos resultados; aquellos obtenidos aplicando una regla

simple que indica que si la distancia del punto de test hacia el centroide disruptivo es menor que

la distancia al centroide safe, entonces la descarga es disruptiva. En caso contrario, es safe. Y el

otro es utilizar Adaboost para la clasificación.

La implementación en tiempo real arrojó los siguientes resultados:

Regla simple

o VA: 37%

o TD: 51%

o PA: 2%

o SR: 90%

o FP: 0%

o Promedio WT: 125,7[ms]

o Desv. Estándar WT: 548,6[ms]

Adaboost

o VA: 8%

o TD: 1%

o PA: 91%

o SR: 100%

o FP: 0%

o Promedio WT: 12,31[s]

o Desv. Estándar WT: 5,93[s]

4.1.2 Centroides con señal Nivel de afluencia del Tungsteno

El uso de esta señal surge de la búsqueda de nuevas formas que no incluyan la señal Mode Lock

en la clasificación de descargas disruptivas. A continuación se muestra una descarga disruptiva

de la señal indicada en el título. Cabe destacar que posee un comportamiento bastante predecible

con una tendencia creciente al instante cercano a la disrupción.

Page 38: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

4 Experimentos y resultados

33

Figura 4-2. Descarga disruptiva Nivel de afluencia del Tungsteno

Figura 4-3. Conjunto de muestras W

En la Figura 4-3 se aprecia la distribución de las muestras tanto disruptivas como safe. En este

caso las diferentes distribuciones no se encuentran fuertemente separadas, sino más bien se

traslapan una con otra, haciendo que sea compleja la clasificación mediante una regla simple que

actúe directamente sobre el análisis de las distancias.

Para los distintos tipos de enfoques, la clasificación en tiempo real de esta señal arrojó los

siguientes resultados.

Page 39: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

4 Experimentos y resultados

34

Regla simple

o VA: 32,39%

o TD: 9,86%

o PA: 23,94%

o SR: 66,2%

o FP: 14,66%

o Promedio WT: 1,14[s]

o Desv. Estándar WT: 1,72[s]

Adaboost

o VA: 8%

o TD: 1%

o PA: 91%

o SR: 100%

o FP: 0%

o Promedio WT: 12,31[s]

o Desv. Estándar WT: 5,93[s]

Si bien con Adaboost se logra una clasificación perfecta. Los tiempos asociados al WT son

demasiado grandes. Esto implica que la alarma se está disparando todo el tiempo casi al incio de

la descarga.

4.1.3 Centroides con señal Energía diamagnética

La energía diamagnética no presenta un comportamiento tan obvio como las otras señales, sin

embargo se puede observar un falling justo antes de que ocurra la disrupción como puede

observarse claramente en la Figura 4-4. Como el comportamiento de la señal no es claramente

disruptivo, es probable que los centroides no estén suficientemente separados y las tasas de

acierto no sean las esperadas. Lo anterior puede comprobarse luego de extraer los centroides de

las distintas descargas de esta señal, basta observar la Figura 4-5 para notar que no existe una

distribución separada de las muestras.

Tal como se esperaba, los centroides presentan un comportamiento muy irregular, a diferencia

de los casos anteriores. Los conjuntos de muestras se encuentran totalmente solapados y no es

posible una separación limpia o una regla simple que permita visualizar los datos correctamente.

Se presume lo sucedido en la Figura 4-5 porque la señal de la energía diamagnética no es una

característica importante para discernir entre la clase disruptiva y la safe. Es por esto que para

trabajos futuros se descarta completamente y se exploran nuevas alternativas con características

más importantes.

A continuación se muestran los resultados obtenidos tras la clasificación en tiempo real de cada

una de las descargas tanto disruptivas como safe de la señal “Energía Diamagnética”.

Page 40: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

4 Experimentos y resultados

35

Regla simple

o VA: 0%

o TD: 0%

o PA: 100%

o SR: 100%

o FP: 100%

o Promedio WT: 10,67[s]

o Desv. Estándar WT: 4,25[s]

Adaboost

o VA: 4,29%

o TD: 0%

o PA: 95,71%

o SR: 100%

o FP: 98,02%

o Promedio WT: 10,39[s]

o Desv. Estándar WT: 4,64[s]

En este caso por ningún motivo se lograron buenos resultados, ni con las tasas de acierto ni con

los tiempos asociados a la clasificación por lo que no se justifica la utilización de esta señal.

Figura 4-4. Descarga disruptiva Energía

diamagnética

Figura 4-5. Conjunto de muestras Energía

diamagnética

Page 41: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

4 Experimentos y resultados

36

4.2 Experimento con ventanas temporales

El análisis de las ventanas temporales ha sido aquel que mejores resultados ha dado. Consiste en

etiquetar cada ventana (ver sección 3.6) con su respectivo vector de características asociado. De

esta forma el clasificador tendrá información suficiente para determinar distintas relaciones entre

todos los datos adquiridos.

Como ha sido la tendencia a lo largo de este trabajo, nuevamente la selección de los datos ha sido

muy importante para lograr los resultados propuestos. Es por eso que en las secciones siguientes

se propondrán diversos métodos de selección de datos, dando a conocer todos los pasos

intermedios necesarios para conseguir el objetivo.

4.2.1 Selección de datos disruptivos

Para seleccionar los datos disruptivos de las diferentes descargas se hace de una forma bastante

sencilla. Simplemente se toma el último dato de la descarga (que dado su procesamiento

corresponde al instante disruptivo) y dicho dato se ingresa al clasificador. De esa forma se van

concatenando todas las descargas en un solo vector y luego se ingresan al clasificador para ser

entrenado. Se propuso de esta forma pues así se logra capturar solo el comportamiento disruptivo

de la descarga y apartarlo de la tendencia inicial con características de una descarga safe.

En la Figura 4-6 se muestra ilustrativamente como una característica es extraída de una descarga

disruptiva Mode Lock e ingresa al vector que pasará a ser el entrenamiento para el clasificador.

Figura 4-6. Selección de datos disruptivos

4.2.2 Metodo de selección de datos safe aleatorios

Una de las formas de seleccionar los datos safe antes de que ingresen al clasificador es mediante

una semilla generadora (para replicabilidad). En este caso en particular fueron seleccionado tres

datos safe aleatorios de la descarga disruptiva y dichos datos ingresaron a un vector. Se prefirió

Page 42: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

4 Experimentos y resultados

37

este método porque, de manera empírica, el promediar la descarga completa producía pésimos

resultados.

De esa manera se pueden obtener distintas características provenientes de cada una de las

descargas safe. En la Figura 4-7 se muestra como se extraen un total de tres características de una

descarga safe Mode Lock e ingresan al vector que posteriormente se entrenará.

Figura 4-7. Selección de datos safe

4.2.3 Método de selección de datos safe centrales

Este método de selección busca ubicar los datos centrales de la descarga safe. Esto se hace porque

tanto al inicio como al final de la descarga, esta presenta comportamientos algo erráticos por

efecto de que está iniciando o acabando la descarga.

La cantidad de datos ingresados al vector depende exclusivamente del tamaño de la descarga.

Siempre se busca que al vector ingresen la mitad (o un cuarto) de los datos safe. En la Figura 4-8

se observa como ingresan al vector de entrenamiento toda una porción central de la descarga

safe.

Page 43: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

4 Experimentos y resultados

38

Figura 4-8. Selección de datos safe centrales

4.2.4 Resultados obtenidos

En esta sección se presentarán los resultados obtenidos para el mejor clasificador obtenido. Estos

resultados se dividen en tres partes: primera etapa, segunda etapa y clasificador final en cascada.

Para la primera etapa se utilizó el mismo algoritmo Adaboost pero con árboles un poco más

complejos, en este caso se utilizó tan solo una regla y dos Split máximo. Esto permitió que la tasa

de acierto aumentara bastante, sin embargo la tasa de falsos positivos también aumentó.

A continuación se presentará el árbol de decisión antes mencionado en la Figura 4-9.

Figura 4-9. Árbol de decisión primera etapa

Page 44: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

4 Experimentos y resultados

39

Cómo se trata de una sola regla, es posible mostrar explícitamente el árbol de decisión. La regla

x1 y x7 son aquellas que el algoritmo detectó como más importantes y corresponden al promedio

de la señal Mode Lock y la pendiente de la señal Mode Lock.

Resultados primera etapa:

o VA: 68,75%

o TD: 10,42%

o PA: 18,75%

o SR: 97,92%

o FP: 28,16%

o Promedio WT: 2,56[s]

o Desv. Estándar WT: 5,98[s]

La primera etapa no cumple con todos los criterios esperados, sin embargo se acercan bastante y

sirven para realizar una segunda etapa. La segunda etapa consiste en entrenar con aquellos datos

que fueron mal clasificados en la primera etapa. En esta etapa se utilizaron 35 reglas con 5 splits

por árbol

Resultados segunda etapa:

o VA: 81,25%

o TD: 4,17%

o PA: 10,42%

o SR: 95,83%

o FP: 28,16%

o Promedio WT: 514,5[ms]

o Desv. Estándar WT: 580,7[ms]

Con ambos modelos finalizados, se procede al test general. Para el test general se apartó el 40%

de los datos totales. Con dichos datos se procede a realizar los pasos para hacer un test de

clasificadores en cascada.

Figura 4-10. Test de clasificador en cascada

Page 45: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

4 Experimentos y resultados

40

Como se puede observar en la Figura 4-10, el test del clasificador en cascada es un poco más

complejos que los observados anteriormente. Este empieza cuando se extrae el vector de

características de alguna ventana proveniente de alguna descarga del conjunto de test global que

se apartó en un principio. Una vez obtenido dicho vector, se evalúa su salida en el primer

clasificador, si resulta que el resultado es -1 o negativo, quiere decir que dicha ventana es safe,

dicho esto, se continúa con la siguiente ventana. En caso contrario, si ocurre que la salida del

clasificador fuese +1 o positiva, entonces deberá entrar al segundo clasificador para corroborar

que esta predicción fue correcta. En este punto pueden ocurrir dos opciones: i) Que la salida del

segundo clasificador sea -1, si esto ocurre, se descarta la ventana y se continúa con la siguiente.

ii) Que la salida del segundo clasificador sea +1, si esto ocurre, se concluye que la ventana es

disruptiva y se detiene la descarga [16]. Una vez esto suceda, se procede a evaluar la siguiente

descarga pues si el sistema estuviese implementado en tiempo real, debería apagarse el reactor.

A continuación se presentan los resultados obtenidos tras la ejecución de un test con este

clasificador.

Resultados clasificador en cascada:

o VA: 62,5%

o TD: 16,25%

o PA: 11,25%

o SR: 90%

o FP: 4,41%

o Promedio WT: 994,8[ms]

o Desv. Estándar WT: 3148[ms]

4.2.5 Resultados obtenidos sin Mode Lock

Para la obtención de estos resultados no fue utilizada la señal Mode Lock. Sin embargo las tasas

no fueron tan buenas como las esperadas y se descartaron para seguir avanzando en las etapas

posteriores. Cabe destacar que la ventaja de no utilizar la señal Mode Lock radica en el tiempo

que ocurre antes de que se active la alarma de disrupción, dicho tiempo permitiría al operador

tomar acciones para evitar la disrupción. Este modelo fue realizado con 4 splits y 6 reglas.

Resultados primera etapa:

o VA: 45,83%

o TD: 4,17%

o PA: 45,83%

o SR: 95,83%

o FP: 58,37%

o Promedio WT: 2,06[s]

o Desv. Estándar WT: 3,14[s]

Page 46: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

41

Discusión y conclusiones El uso de las técnicas de aprendizaje automático y extracción de características puede ser el único camino viable al pleno control, tanto de evitación como de mitigación para las disrupciones de fusión nuclear. Si bien existen numerosos estudios pasados y existirán más aún futuros, se ha probado que los predictores pueden seguir mejorando y quizás alcanzar el ansiado 100% de SR.

Cabe destacar que Adaboost permite tener conocimiento pleno de las características que son importantes para el predictor. Una ventaja inalcanzable para métodos de redes neuronales o SVM. De hecho algunos trabajan con capas ocultas, lo que hace imposible conocer qué tipo de procesos internos ocurren. Lo anterior incluso es perjudicial cuando se requiere inferir la respuesta del modelo con anterioridad, observando cómo se van comportando las variables a lo largo del tiempo.

La correcta división de datos y uso del clasificador en cascada es crucial para evitar posibles errores, uno de ellos es la falta de datos en algún punto. Si bien Adaboost es bastante resistente al sobre-entrenamiento, el modelo requiere una cantidad de datos considerable para lograr buenos resultados en las predicciones.

Si bien en la primera etapa de experimentación no se lograron los resultados esperados, es un pequeño avance en la creación de reglas simples para clasificar eventos disruptivos. La naturaleza de la búsqueda de reglas simples es un gran desafío pues los fenómenos de esta magnitud son particularmente complejos y con una cantidad virtualmente infinita de variables.

El análisis de centroides está orientado a las técnicas de mitigación. Un Warning Time demasiado corto con una desviación estándar relativamente grande ocasiona que las disrupciones se detecten casi en el momento en que están ocurriendo, cuando ocurre eso, genera desconfianza de las respuestas que está entregando el modelo, pues quizás en alguna oportunidad prediga hasta incluso 1 segundo después de que ocurra la disrupción, escenario perjudicial desde cualquier punto de vista.

El nuevo enfoque de los centroides ha producido un cambio positivo en las predicciones con modelos simples, los parámetros mejoraron bastante. Se propone la idea que es así porque se va analizando la señal de adelante hacia atrás por lo tanto el WT debería crecer en consecuencia.

Es importante destacar que Adaboost representa un buen modelo predictivo, sin embargo no hay forma posible de controlar los tiempos de predicción directamente. Es por eso que conviene el análisis de ventana temporal, pues se ingresan los datos en cuyos instantes se requiere que Adaboost inicie una alarma de disrupción inminente.

Page 47: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

Discusión y conclusiones

42

Los resultados de la señal Mode Lock son de especial interés para iniciar un clasificador en cascada, dicha señal permite resultados bastante altos en términos de tasas de acierto, obviamente sacrificando su implementación en tiempo real dado Warning Times de valores bajos.

Al igual que en la mayoría de las señales, las bolométricas no obtiene muy buenos resultados y el pre-procesamiento debe ser exhaustivo para su correcto funcionamiento. Esto último es algo indeseado pues la tónica es generar reglas simples con modelos sencillos que exijan poco tiempo de procesamiento y además que los operadores de los dispositivos de fusión nuclear puedan analizar fácilmente para tomar decisiones con antelación suficiente.

Generar un modelo simple y con un buen desempeño parece una tarea bastante difícil, sin

embargo se lograron algunas aproximaciones que se podrían considerar simple. La clave del

desempeño estuvo en la capacidad de fusionar distintas naturalezas de clasificadores; señales

temporales con imágenes, a simple vista pareciese no tener mucho sentido pero los resultados

demuestras que es perfectamente viable.

Ocupar un clasificador en cascada mejora notoriamente los resultados, pues se enfoca en mejorar

lo previamente entrenado, disminuyendo la tasa de falsos positivos y aumentando la de

verdaderos positivos. Una desventaja es que requiere una gran cantidad de datos pues son

necesarias muchas divisiones entre cada etapa.

Actualmente el mayor problema de los modelos es la dificultad de detectar las descargas safe y

esto es porque no se puede correr el riesgo que la descarga siga en ejecución si el sistema ya

considera que la descarga es disruptiva. Lo anterior genera una fuerte disyuntiva entre el modelo

teórico y sus consecuencias experimentales

Uno de los principales inconvenientes que se presentó transversalmente en las distintas líneas y

enfoques del trabajo fue la selección de los datos tanto de entrenamiento como de test. Elegir los

datos convenientemente tendrá consecuencias directas sobre los resultados por lo que es mejor

optar por un método complejo de selección de datos en conjunto con un clasificador sencillo.

Page 48: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

43

Bibliografía

[1] Y. Freund y R. E. Schapire, «A Short Introduction to Boosting,» Journal of Japonese Society for

Artificial Intelligence, vol. 5, nº 14, pp. 771-780, 1999.

[2] C. Mondial, D. E. L. É. Gie, Y. D. Kim, L. Birnbaum, G. Ward y C. Frei, «Recursos energéticos

globales,» World Energy Counc, 2013.

[3] BP, «BP Statistical Review of World Energy 2016,» 2016. [En línea]. Available:

http://www.bp.com/es_es/spain/prensa/notas-de-prensa/2016/bp-statistical-review-

worldenergy-2016.html. [Último acceso: 13 11 2017].

[4] M. Lehnen, K. Aleynikova, P. Aleynikov, D. Campbell, P. Drewelow, N. Eidietis, Y. Gasparyan,

R. Granetz, Y. Gribov, N. Hartmann, E. Hollmann, V. Izzo, S. Jachmich, S.-H. Kim, M. Kocan,

H. Koslowski, D. Kovalenko y U. Kruezi, «Disruptions in ITER and Strategies for their Control

and Mitigation,» Journal of Nuclear Materials, vol. 463, pp. 39-48, 2015.

[5] A. Rowcliffe, L. Garrison, Y. Yamamoto, L. Tan y Y. Katoh, «Materials challenges for the fusion

nuclear science facility,» Fusion Engineering and Design, p. 12, 2017.

[6] ITER, «ITER,» 14 4 2008. [En línea]. Available:

https://www.iter.org/doc/www/content/com/Lists/Stories/Attachments/680/ITER_W7X.

pdf. [Último acceso: 13 11 2017].

[7] C. M. Bishop, Neural Networks for Patter Recognition, Oxford: Clarendon Press, 1995.

[8] C. Cortes y V. Vapnik, «Support-vector networks,» Machine Learning, vol. 3, nº 20, pp. 273-

297, 1995.

[9] J. Vega, «Advanced Disruption Predictor Based on the Locked Mode signal: Application to

JET,» de First Eps Conference on Plasma Diagnostics, Italia, 2015.

Page 49: Ismael Andrés Martínez Cisternas Clasificación de ...opac.pucv.cl/pucv_txt/txt-3500/UCC3998_01.pdf · Ismael Andrés Martínez Cisternas Clasificación de disrupciones ... Se mezcló

Bibliografía

44

[10

]

G. J. van Rooij, «Characterization of Tungsten Sputtering in the JET divertor,» de Proceeding

of the 24th IAEA Fusion Energy Conference, US, 2012.

[11

]

L. C. Ingesson, «Limitations to Total Radiated Power Determination in Divertor Tokamaks,»

de JET Joint Undertaking, Oxfordshire, 1999.

[12

]

K. F. Mast y H. Krause, «Bolometric diagnostics in JET,» United Kingdom, 1998.

[13

]

A. Kirk, A. J. Thornton, J. R. Harrison, F. Militello y N. R. Walkden, «L-mode filament

characteristics on MAST as a function of plasma current measured using visible imaging,»

EUROFUSION WPMST1-PR, nº 14680, 2016.

[14

]

C. Leys, C. Ley, O. Klein, P. Bernard y L. Licata, «Detecting outliers: Do not use standard

deviation around the mean, use absolute deviation around the median,» Journal of

Experimental Social Psychology, vol. 49, nº 4, pp. 764-766, 2013.

[15

]

P. Alvalde San Miguel, Electrotecnia: Instalaciones eléctricas y automáticas, Madrid:

Paraninfo, 2014.

[16

]

P. Viola y M. J. Jones, «Robust Real-Time Face Detection,» International Journal of Computer

Vision, vol. 57, nº 2, pp. 137-154, 2004.