Anexo A Teoría Conjuntos Difusos

ANEXO A TEORÍA DE CONJUNTOS DIFUSOS Y ANÁLISIS DE

CLUSTER

ANEXO A

1. TEORÍA DE CONJUNTOS DIFUSOS

La teoría de conjuntos difusos fue propuesta en 1965 por Zadeh, quien definió un

conjunto difuso (fuzzy set) como una clasificación de objetos con un grado de

pertenencia continuo. Tal conjunto está caracterizado por una función de pertenencia

particular que asigna a cada objeto un grado de pertenencia comprendido entre cero y

uno. La noción de inclusión, unión, intersección, complemento, convexidad y otras

propiedades son extendidas a tales conjuntos (Zadeh, 1965) de tal forma que la clásica

teoría de conjuntos se convierte en un caso particular de la teoría de conjuntos difusos,

donde la función de pertenencia solo entrega dos valores, cero o uno (Galvão, 1999).

De acuerdo a Velarde (1996), una de las motivaciones de Zadeh para llevar a cabo su

teoría de conjuntos difusos es lo que él llama el principio de incompatibilidad, el cual

es perfectamente contingente al tema de la presente tesis: en la medida en que crece

la complejidad de un sistema, en esa misma medida disminuye nuestra capacidad para

hacer precisos y aún significativos enunciados acerca de su conducta, hasta alcanzar

un umbral más allá del cual la precisión y la significación resultan, casi siempre,

características mutuamente excluyentes.

• Funciones de Pertenencia De acuerdo a Galvão (1999), un conjunto difuso puede ser definido formalmente como:

( )( ){ }XxxxA A ∈= μ,~

Donde X es el universo donde los elementos x están definidos y μA(x) es la función de

pertenencia de x en Ã. El rango de variación de los valores de μA(x) puede ser

cualquiera, pero en general se emplea el rango [0,1]. En este caso un conjunto difuso

es llamado normal o normalizado.

Se habla de conjuntos difusos de tipo 1 cuando existe una sola función de pertenencia

que asigna a sus elementos valores reales de pertenencia. Es posible extender este

concepto para construir así conjuntos difusos de tipo 2, en los que los grados de

pertenencia de sus elementos serían, a su vez, conjuntos difusos. De forma sucesiva,

se podría llegar a conjuntos difusos de tipo L. Por ejemplo, el conjunto difuso velocidad

está compuesto por los conjuntos difusos “velocidad baja”, “velocidad media” y

“velocidad alta”, lo cual lo convierte en un conjunto difuso tipo 2.

Como funciones de pertenencia de los conjuntos difusos se pueden asumir diversas

formas, por ejemplo, sinusoidal, trapezoidal, triangular, etc. La Figura 1.1 muestra un

ejemplo de una función de pertenencia trapezoidal típica (Galvão, 1999), definida

como:

∏: X→ [0,1]:

1

ANEXO A

∏(x; α, β, γ, δ) =( ) ( )

( ) ( )⎪⎪⎪

⎩

⎪⎪⎪

⎨

⎧

>≤≤−−

≤≤≤≤−−

<

δδγγδδ

γββααβα

α

xsixsix

xsixsix

xsi

0

1

0

Figura 1.1: Función de Pertenencia Trapezoidal

Cualquier tipo de función puede ser válida para definir un grado de pertenencia, sin

embargo, su definición exacta depende del concepto a definir, del contexto al que se

refiera o la aplicación que se realice (Galindo, s.a.). No obstante, en general es

preferible utilizar funciones simples, ya que los cálculos se simplifican y no se pierde

exactitud, debido a que precisamente se está definiendo un concepto difuso (Galindo,

s.a.)

El grado de pertenencia es a menudo confundido con una probabilidad, sin embargo,

debe ser entendido como la “medida de posibilidad” de un objeto con respecto al

concepto representado por el conjunto difuso. De acuerdo a Velarde (1996), existe

cierto tipo de incertidumbre que cae dentro de la Teoría de la Probabilidad,

correspondiente a aquella producto del azar o fortuna, mientras que existe otra clase

de incertidumbre que proviene de la ambigüedad, imprecisión o vaguedad. Los

predicados, cuantificadores, calificadores, etc., vagos son intrínsecos en los lenguajes

naturales, produciendo, por lo tanto, incertidumbre en los enunciados de los que son

constituyentes, pero no por el azar sino por el conjunto de factores que permitirán

concretar tal enunciado (Valarde, 1996). Un dado caerá necesariamente en uno de sus

seis lados alguna vez, lo cual constituye una probabilidad, mientras que la claridad con

que el lector entienda estos conceptos es una posibilidad y no una consecuencia

necesaria de la lectura. En palabras de Morillas (2006), la probabilidad trata de la

incertidumbre en la ocurrencia de sucesos bien definidos, mientras que la lógica difusa

trata del grado de ocurrencia de sucesos mal definidos.

• Operatoria de Conjuntos Difusos Al igual que en el caso de la teoría de conjuntos clásica, algunas operaciones básicas

definidas para los conjuntos difusos son (Zadeh, 1965; Galvão, 1999):

2

ANEXO A

Unión: La función de pertenencia de un conjunto Õ que se obtiene de la unión de los

conjuntos difusos Ã y Ẽ es el mayor valor de pertenencia de esos dos conjuntos, para

cada elemento x.

( ) ( ) ( ) ( ) ( ){ } Xxxxxxx EAEAO ∈∀=∪= μμμμμ ,max

Intersección: La función de pertenencia de un conjunto Õ que se obtiene de la

intersección de los conjuntos difusos Ã y Ẽ es el menor valor de pertenencia de esos

dos conjuntos, para cada elemento x.

( ) ( ) ( ) ( ) ( ){ } Xxxxxxx EAEAO ∈∀=∩= μμμμμ ,min

Complemento: La función de pertenencia de un conjunto difuso Ẽ, que a su vez es

complemento de un conjunto difuso Ã se puede definir como:

( ) ( ) ( ) Xxxxx AAE C ∈∀−== μμμ 1

Lo anterior representa tres de las principales operatorias de la teoría de conjuntos

clásica y que poseen su par en la teoría de conjuntos difusos. Sin embargo, hay que

tener cuidado con ciertos conceptos que son ampliamente utilizados en la teoría

clásica y que en el caso de los conjuntos difusos no se aplican o son ligeramente

diferentes. Por ejemplo, de acuerdo a Zadeh (1965) no es correcto hablar de un punto

x “perteneciente” al conjunto difuso Ã, excepto en el sentido trivial de que la función de

pertenencia μA(x) es positiva. No obstante, es posible introducir dos niveles α y β (α y β

[0,1], α > β) y acordar las distinciones: ∈

1. “x pertenece a Ã” si μA(x) ≥ α

2. “x no pertenece a Ã” si μA(x) ≤ β

3. “x tiene un estatus indeterminado con respecto a Ã” si β ≤ μA(x) ≤ α

La definición anterior permite acercarse al concepto de “intervalo de confianza”, ya que

muchas veces solo interesan aquellos elementos que poseen un cierto grado de

pertenencia α o β mínimo. La terminología empleada por Morillas (2006) habla del

conjunto de nivel o umbral α o α-corte donde el conjunto contendrá todos los valores x

con un valor de pertenencia, compatibilidad, certeza, etc., de al menos α.

Una ley importante de la teoría de conjuntos que no se cumple es la del “medio

excluido”: la intersección entre un conjunto y su complemento es el conjunto vacío y la

unión de dichos conjuntos es el conjunto universo. En lógica difusa ocurrirá lo siguiente

(Morillas, 2006):

∅≠∩ CAA y UAA C ≠∪

3

ANEXO A

En otros casos es posible comprobar que las propiedades se conservan, como ocurre

con ciertas leyes a partir de las propiedades de unión, intersección y complemento

definidas anteriormente. Por ejemplo, las leyes de Morgan (Zadeh, 1965) pueden ser

descritas en términos de las funciones de pertenencia que caracterizan a los conjuntos

difusos A y B:

( ) BABA ′∩′=′∪ ` ⇔ ( ) ( )BABA μμμμ −−=− 1,1min,max1

( ) BABA ′∪′=′∩ ` ⇔ ( ) ( BABA )μμμμ −−=− 1,1max,min1

Existe una segunda clase de operadores llamados “promedios” o “compensadores”,

muy empleados para agregar conjuntos difusos, por ejemplo, para tomar decisiones en

base al resultado de diversas variables representadas por conjuntos difusos que se

encuentren en conflicto (Morillas, 2006), como los trade-offs que se dan entre el

objetivo de reducir el déficit de agua en una región y minimizar el grado de alteración

hidrológica o entre producir energía hidroeléctrica y proteger las condiciones de hábitat

aguas abajo o dentro de los embalses (Jager & Smith, 2008).

Algunos operadores promedio típicamente utilizados son:

• Media aritmética

• Media ponderada

• Media geométrica

Se han propuesto también operadores más generales, donde la compensación entre

unión e intersección se expresa mediante un parámetro γ , por ejemplo (Morillas, 2006):

Operador difuso “y”:

( ) ( ) ( ) ( BABABAy μμγμμγμμμ +⋅−⋅+⋅= 121,min, ) con [ ]1,0∈γ

Operador difuso “o”:

( ) { } ( ) ( BABABAo μμγμμγμμμ +⋅−⋅+⋅= 121,max, ) con [ ]1,0∈γ

El parámetro γ indica el grado de proximidad al significado lógico estricto de

intersección y unión de tal forma que si γ = 1, se tendrán los operadores mínimo y

máximo, respectivamente, mientras que si γ = 0, ambos serán la media aritmética.

La gran cantidad de operadores existentes y la diversidad de aplicaciones de la lógica

difusa en la toma de decisiones hacen que la opción de utilizar un método sea más una

tendencia que una manera probada de obtener buenos resultados. En el campo de las

preferencias de hábitat de peces, por ejemplo, no se han encontrado operadores

4

ANEXO A

debidamente probados que permitan definir adecuadamente ni las áreas de

habitabilidad ni las decisiones concernientes a los resultados obtenidos. De acuerdo a

Morillas (2006) los criterios de selección de Zimmermann (1991) permiten dar un

camino para seleccionar el método más adecuado para agregar conjuntos difusos:

i. Fuerza axiomática: un operador es mejor cuanto menos limitativos son los

axiomas en que se basa.

ii. Ajuste empírico: el operador debe dar buenos resultados en la práctica. No sólo

es importante que cumpla ciertos axiomas teóricos.

iii. Adaptabilidad: el operador debe ser adaptable a cualquier contexto específico;

debe ser bueno para modelar gran diversidad de situaciones.

iv. Eficiencia Numérica: hay operadores que requieren mucha más potencia de

cálculo que otros. Esto es particularmente importante cuando el problema a tratar

es a gran escala.

v. Compensación: debe permitirse que pueda haber cierta compensación entre un

bajo grado de pertenencia de un elemento a un conjunto y un elevado grado de

pertenencia a otro. Por ejemplo, el operador “mínimo” no hace esto posible.

vi. Rango de compensación: en general, cuanto mayor es el rango de

compensación mejor es el operador compensatorio.

vii. Buen comportamiento en la agregación: el grado de pertenencia del conjunto

agregado depende frecuentemente del número de conjuntos combinados. Por

ejemplo, si se utiliza el operador “producto”, cada conjunto difuso adicional

disminuirá el grado de pertenencia del agregado resultante (debido a los valores

entre cero y uno que toman las funciones de pertenencia).

viii. Ser elegidos en función del nivel de escala permisible: por ejemplo, si se

trabaja con una escala ordinal, nunca se debería utilizar el operador producto. En

general, en caso de igualdad de los demás criterios, será preferible el operador

que requiera el nivel de escala más bajo desde el punto de vista de la recogida de

información.

Cada campo de aplicación posee operadores frecuentes que se han aplicado en los

estudios correspondientes, no obstante, se debe tener cuidado con la homologación de

metodologías entre un estudio y otro.

No está claro si, en el caso de modelación de hábitats, los conjuntos difusos de la

velocidad, profundidad y tipo de sustrato poseen la misma importancia para cada

especie y estado de vida estudiado. Es más, justificar los operadores utilizados por

CASiMiR puede ser un estudio aparte, debido al amplio espectro de mediciones en

terreno que se necesitarían para dar con las consecuencias correctas.

5

ANEXO A

2. ANÁLISIS DE CLUSTER

De acuerdo a López (2001), existen tres tipos principales de criterios de agrupamiento

o clustering:

a. Métodos jerárquicos

Los grupos se forman recalculando la pertenencia de un punto cada vez, en función de

alguna medida de similitud. Existen dos tipos de técnicas:

i. Aglomerativas: toman como punto de partida N conjuntos compuestos por 1

elemento, por lo que el funcionamiento del algoritmo es unir los grupos de forma

iterativa.

ii. Divisivas: el punto de partida es un conjunto de N elementos, por lo que el

algoritmo va dividiendo iterativamente el conjunto en otros más pequeños.

b. Métodos de Grafos Teóricos

Supone que los elementos de un conjunto son nodos, siendo los pesos entre pares de

nodos alguna medida de similitud. El criterio de agrupamiento suele ser alguna medida

de conectividad entre los nodos y frecuentemente la estrategia de agrupamiento es el

cálculo del árbol de expansión mínimo. Estos métodos se suelen utilizar en datos con

estructura pseudo-lineal.

c. Métodos de Función Objetivo

Estos métodos son los que permiten una formulación más precisa (aunque no

necesariamente más valedera) del criterio de agrupamiento. Para cada número de

clusters c, una función objetivo mide la 'bondad' de las agrupaciones candidato, siendo,

los máximos o mínimos locales, las agrupaciones óptimas.

Un ejemplo de estos métodos es el uso de la distancia euclídeana como medida y,

como función objetivo, la suma cuadrática de la distancia entre los puntos y un

'prototipo' o valor medio del conjunto. Así pues, el objetivo del agrupamiento es

minimizar dicha sumatoria.

El algoritmo fuzzy c-means (FCM) pertenece a este tipo de métodos y está basado en

la lógica difusa (fuzzy logic). A continuación se detalla en qué consiste el agrupamiento

difuso (fuzzy clustering) y cuáles son las características del algoritmo FCM empleado

para realizar la partición de los datos.

6

ANEXO A

2.1 Fuzzy Clustering

Existen diversas definiciones para el reconocimiento de patrones, como la dada por

Bezdek (Bezdek et al., 1999), uno de los precursores del fuzzy clustering, quien lo

definió como “la búsqueda de una estructura en los datos”, sin embargo, debido a su

amplia utilización en diversos campos representa un campo en si mismo difuso

(Bezdek et al., 1999).

La teoría estudiada está basada principalmente en Babuska (1998), quien define

cluster como un grupo de objetos que son más similares entre si que con los miembros

de otros clusters. El término “similitud” será entendido en términos matemáticos, que

en el presente caso corresponde la distancia media entre los datos de una misma

variable.

De acuerdo a Babuska (1998), un enfoque efectivo para identificar sistemas complejos

no lineales es realizar la partición de los datos disponibles en subconjuntos que puedan

ser aproximados por un modelo más sencillo. En este sentido, el modelamiento e

identificación difusa resultan ser herramientas efectivas, pues permiten combinar

efectivamente el conocimiento experto con los datos medidos (Abonyi et al., 2001).

Los datos obtenidos en terreno son sometidos aquí a un proceso de fuzzy clustering, el

cual permite realizar agrupaciones de los datos en diferentes clusters o subgrupos,

cada uno de los cuales queda definido por una función que denota la gradualidad con

que dicha variable pertenece a un cluster determinado.

Aplicaciones de esta metodología cruzan por diferentes áreas, entre ellas la ecología y

sus diversas componentes. Por ejemplo, Legleiter y Goodchild (2005) emplean esta

metodología para realizar una clasificación de hábitats mediante el empleo de

percepción remota y modelación hidráulica, de tal forma que es posible encontrar

clusters, equivalentes a hábitats, con transiciones graduales entre ellos, en vez de los

clásicos fragmentos o parches ecológicos y de otros métodos convencionales de

clasificación, los cuales adolecen de limitaciones fundamentales (Legleiter y Goodchild,

2005).

El algoritmo fuzzy c-means, introducido por Bezdek en 1981 (Díaz et al., 2005) ha

demostrado una amplia gama de aplicaciones, como en la producción de mapas de

cobertura de suelos mediante el uso de información de percepción remota (Legleiter y

Goodchild, 2005) y en la búsqueda de sectores clave de la economía de una zona o

país (Díaz et al., 2005).

En una primera etapa se realiza un análisis exploratorio de los datos, de tal forma que

se encuentre la estructura propia de la información colectada en terreno. La

metodología de fuzzy clustering permite realizar esto a través de particiones difusas,

7

ANEXO A

donde un determinado valor de la variable no está totalmente determinado en un

grupo, sino que pertenece a él en cierto grado, lo cual permite “atrapar” incertidumbre e

inexactitud, como la que ocurre en el proceso de medición de los datos (Setnes y

Babuska, 1999).

En el caso de las variables velocidad, profundidad y tamaño del sustrato empleadas

por CASiMiR, sin embargo, las c-particiones son definidas a priori, pues no se busca

encontrar patrones en la zona, tal como ocurriría si se intentara determinar tipos de

hábitat según esta metodología. Lo que se busca es “atrapar” la imprecisión del

experto al valorar dichas variables, por lo cual, en una segunda etapa, se utiliza la

descripción del experto para cada magnitud medida y se ajustan los conjuntos difusos

para que tengan relación con la observación del experto. Esto permite que CASiMiR

integre el conocimiento experto a través de la conjunción de las reglas y conjuntos

difusos, lo cual hace que ambos elementos sean indisolubles.

2.1.1 Algoritmo Fuzzy C-Means

La matriz Z representa la matriz con los datos medidos, donde cada fila representa una

variable y cada columna es una medición de dicha variable.

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

=⇒

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=Tx

Tx

Tx

nNn

N

SPV

Z

zz

zz

Z

361

361

361

1

111

....::

....Variable 1: Velocidad

Variable 2: Profundidad

Variable 3: Sustrato

Esta matriz teórica es en realidad utilizada por cada fila (variable) a la vez, a través del

algoritmo fuzzy c-means clustering (FCM) del Fuzy Logic Toolbox de Matlab, la cual

requiere como parámetro de entrada, además de los datos, un número entero c

indicando el número de clusters que se desea formar.

[center,U,obj_fcn] = fcm(Data, n_cluster)

Asignando valores medios o centrales iniciales y una matriz UO inicial, itera hasta que

la función objetivo (obj_fcn) se estabilice en su decrecimiento. La matriz “center”

entrega los centros de dichos cluster, mientras que la matriz U retorna las funciones de

pertenencia detectadas:

[ ]ikU μ= ci≤ ≤1Nk≤ ≤1

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=⇒

361

361

361

x

x

x

LowMedium

HighU

8

ANEXO A

Cada variable (velocidad, profundidad y sustrato) genera una matriz U (dimensión c x

N) que contiene el grado de pertenencia de cada dato observado a cada uno los c = 3

clusters definidos (en este caso N = 36 observaciones). Dado un cluster i y una

observación k, tendré un grado de pertenencia ikμ de dicha observación en el cluster

En forma matemática, lo anterior es descrito por Babuska (1998) de la siguiente

manera:

( ) ( )2

1 1,;

A

c

i

N

kik

mik vzVUZJ ∑ ∑

= =

−⋅= μ

Donde U es la partición difusa de Z y V = [v1, v2,…, vc], con vi Rn, es el vector de

prototipos del cluster o también llamados “centros”, los cuales deben ser determinados

inicialmente, por ejemplo, utilizando las medias de los valores que el experto diferenció

según las variables lingüísticas HIGH, MEDIUM y LOW.

∈

El término, ( ) ( )ikT

ikAikikA vzAvzvzD −⋅⋅−=−= 22 corresponde a la norma de la

distancia del producto interno al cuadrado. El parámetro m es un moderador que

determina cuán difuso resultarán los clusters, puede tomar valores desde uno en

adelante. Mientras mayor sea m, más difusas serán las particiones.

El nivel de disimilitud en la función de costo J está dado por las distancias al cuadrado

entre cada uno de los datos zk y el cluster prototipo vi. Esta distancia es ponderada por

la potencia m del grado de pertenencia de ese punto (µik)m. El valor de J puede ser

visto como una medida de la varianza total de los datos zk con respecto a vi. Cuando el

valor de J no decrece o alcanza cierto umbral, entonces el algoritmo termina su

proceso iterativo.

La forma de los clusters está determinada por la elección de la matriz A, siendo la

distancia Euclidiana la más común, cuando A = I (matriz identidad), lo cual genera

clusters hiperesféricos (se utiliza el prefijo hiper debido a que la esfera tendrá tantas

dimensiones como el espacio de características). Ésta es la distancia que utiliza el

FCM, sin embargo, existen otras como la norma diagonal y de Mahalanobis, que

producen clusters hiperelipsoidales (López, 2001).

Existen diversos algoritmos que son extensiones del algoritmo FCM utilizado aquí para

realizar la partición de los datos, los cuales son bien detallados por Babuska (1998) y

resumidos por López (2001). Estos son:

i. Algoritmos que utilizan una definición de distancia adaptativa, como los de

Gustafson-Kessel o el de estimación difusa de máxima similitud (FMLE).

ii. Algoritmos que se basan en prototipos hiperplanares o funcionales, como el

algoritmo de las c-variedades difusas (FCV), de los c-eliptotipos difusos (FCE),

9

ANEXO A

10

los modelos de c-regresiones difusas (FCRM) o los algoritmos para conjuntos de

tipo concha (FCS y FCSS).

También existen índices para evaluar si los grupos en que se dividieron los datos son

los más adecuados, lo cual es de mucha utilidad si se desconoce la cantidad de

agrupaciones que se deben esperar al utilizar cualquiera de los algoritmos señalados.

López (2001) resume aquellos relacionados con el FCM, como el índice de Xie-Beni, el

cual maximiza la distancia mínima entre los centroides. No obstante, la partición de los

datos es definida aquí en forma a priori, siendo la valoración del experto a los datos

medidos lo que permite calibrar las particiones.

Finalmente, aunque es posible normalizar los datos previo a su agrupamiento, dicho

paso no siempre es deseable, ya que puede alterar la separación entre conjuntos e

influenciar negativamente a los resultados del agrupamiento (López, 2001). A lo

anterior se debe sumar la incertidumbre inherente a los datos y al sistema descrito,

además de la escasa bibliografía relacionada con este procesamiento de los datos en

el caso de CASiMiR. Un intento por descubrir una metodología mejor parece

innecesario a menos que los resultados no logren ajustarse a lo indicado por el

experto.

Anexo A Teoría Conjuntos Difusos

Documents

Transcript of Anexo A Teoría Conjuntos Difusos