Anexo A Teoría Conjuntos Difusos
Click here to load reader
-
Upload
rodrigo-meza-lopez -
Category
Documents
-
view
210 -
download
1
description
Transcript of Anexo A Teoría Conjuntos Difusos
ANEXO A TEORÍA DE CONJUNTOS DIFUSOS Y ANÁLISIS DE
CLUSTER
ANEXO A
1. TEORÍA DE CONJUNTOS DIFUSOS
La teoría de conjuntos difusos fue propuesta en 1965 por Zadeh, quien definió un
conjunto difuso (fuzzy set) como una clasificación de objetos con un grado de
pertenencia continuo. Tal conjunto está caracterizado por una función de pertenencia
particular que asigna a cada objeto un grado de pertenencia comprendido entre cero y
uno. La noción de inclusión, unión, intersección, complemento, convexidad y otras
propiedades son extendidas a tales conjuntos (Zadeh, 1965) de tal forma que la clásica
teoría de conjuntos se convierte en un caso particular de la teoría de conjuntos difusos,
donde la función de pertenencia solo entrega dos valores, cero o uno (Galvão, 1999).
De acuerdo a Velarde (1996), una de las motivaciones de Zadeh para llevar a cabo su
teoría de conjuntos difusos es lo que él llama el principio de incompatibilidad, el cual
es perfectamente contingente al tema de la presente tesis: en la medida en que crece
la complejidad de un sistema, en esa misma medida disminuye nuestra capacidad para
hacer precisos y aún significativos enunciados acerca de su conducta, hasta alcanzar
un umbral más allá del cual la precisión y la significación resultan, casi siempre,
características mutuamente excluyentes.
• Funciones de Pertenencia De acuerdo a Galvão (1999), un conjunto difuso puede ser definido formalmente como:
( )( ){ }XxxxA A ∈= μ,~
Donde X es el universo donde los elementos x están definidos y μA(x) es la función de
pertenencia de x en Ã. El rango de variación de los valores de μA(x) puede ser
cualquiera, pero en general se emplea el rango [0,1]. En este caso un conjunto difuso
es llamado normal o normalizado.
Se habla de conjuntos difusos de tipo 1 cuando existe una sola función de pertenencia
que asigna a sus elementos valores reales de pertenencia. Es posible extender este
concepto para construir así conjuntos difusos de tipo 2, en los que los grados de
pertenencia de sus elementos serían, a su vez, conjuntos difusos. De forma sucesiva,
se podría llegar a conjuntos difusos de tipo L. Por ejemplo, el conjunto difuso velocidad
está compuesto por los conjuntos difusos “velocidad baja”, “velocidad media” y
“velocidad alta”, lo cual lo convierte en un conjunto difuso tipo 2.
Como funciones de pertenencia de los conjuntos difusos se pueden asumir diversas
formas, por ejemplo, sinusoidal, trapezoidal, triangular, etc. La Figura 1.1 muestra un
ejemplo de una función de pertenencia trapezoidal típica (Galvão, 1999), definida
como:
∏: X→ [0,1]:
1
ANEXO A
∏(x; α, β, γ, δ) =( ) ( )
( ) ( )⎪⎪⎪
⎩
⎪⎪⎪
⎨
⎧
>≤≤−−
≤≤≤≤−−
<
δδγγδδ
γββααβα
α
xsixsix
xsixsix
xsi
0
1
0
Figura 1.1: Función de Pertenencia Trapezoidal
Cualquier tipo de función puede ser válida para definir un grado de pertenencia, sin
embargo, su definición exacta depende del concepto a definir, del contexto al que se
refiera o la aplicación que se realice (Galindo, s.a.). No obstante, en general es
preferible utilizar funciones simples, ya que los cálculos se simplifican y no se pierde
exactitud, debido a que precisamente se está definiendo un concepto difuso (Galindo,
s.a.)
El grado de pertenencia es a menudo confundido con una probabilidad, sin embargo,
debe ser entendido como la “medida de posibilidad” de un objeto con respecto al
concepto representado por el conjunto difuso. De acuerdo a Velarde (1996), existe
cierto tipo de incertidumbre que cae dentro de la Teoría de la Probabilidad,
correspondiente a aquella producto del azar o fortuna, mientras que existe otra clase
de incertidumbre que proviene de la ambigüedad, imprecisión o vaguedad. Los
predicados, cuantificadores, calificadores, etc., vagos son intrínsecos en los lenguajes
naturales, produciendo, por lo tanto, incertidumbre en los enunciados de los que son
constituyentes, pero no por el azar sino por el conjunto de factores que permitirán
concretar tal enunciado (Valarde, 1996). Un dado caerá necesariamente en uno de sus
seis lados alguna vez, lo cual constituye una probabilidad, mientras que la claridad con
que el lector entienda estos conceptos es una posibilidad y no una consecuencia
necesaria de la lectura. En palabras de Morillas (2006), la probabilidad trata de la
incertidumbre en la ocurrencia de sucesos bien definidos, mientras que la lógica difusa
trata del grado de ocurrencia de sucesos mal definidos.
• Operatoria de Conjuntos Difusos Al igual que en el caso de la teoría de conjuntos clásica, algunas operaciones básicas
definidas para los conjuntos difusos son (Zadeh, 1965; Galvão, 1999):
2
ANEXO A
Unión: La función de pertenencia de un conjunto Õ que se obtiene de la unión de los
conjuntos difusos à y Ẽ es el mayor valor de pertenencia de esos dos conjuntos, para
cada elemento x.
( ) ( ) ( ) ( ) ( ){ } Xxxxxxx EAEAO ∈∀=∪= μμμμμ ,max
Intersección: La función de pertenencia de un conjunto Õ que se obtiene de la
intersección de los conjuntos difusos à y Ẽ es el menor valor de pertenencia de esos
dos conjuntos, para cada elemento x.
( ) ( ) ( ) ( ) ( ){ } Xxxxxxx EAEAO ∈∀=∩= μμμμμ ,min
Complemento: La función de pertenencia de un conjunto difuso Ẽ, que a su vez es
complemento de un conjunto difuso à se puede definir como:
( ) ( ) ( ) Xxxxx AAE C ∈∀−== μμμ 1
Lo anterior representa tres de las principales operatorias de la teoría de conjuntos
clásica y que poseen su par en la teoría de conjuntos difusos. Sin embargo, hay que
tener cuidado con ciertos conceptos que son ampliamente utilizados en la teoría
clásica y que en el caso de los conjuntos difusos no se aplican o son ligeramente
diferentes. Por ejemplo, de acuerdo a Zadeh (1965) no es correcto hablar de un punto
x “perteneciente” al conjunto difuso Ã, excepto en el sentido trivial de que la función de
pertenencia μA(x) es positiva. No obstante, es posible introducir dos niveles α y β (α y β
[0,1], α > β) y acordar las distinciones: ∈
1. “x pertenece a Ô si μA(x) ≥ α
2. “x no pertenece a Ô si μA(x) ≤ β
3. “x tiene un estatus indeterminado con respecto a Ô si β ≤ μA(x) ≤ α
La definición anterior permite acercarse al concepto de “intervalo de confianza”, ya que
muchas veces solo interesan aquellos elementos que poseen un cierto grado de
pertenencia α o β mínimo. La terminología empleada por Morillas (2006) habla del
conjunto de nivel o umbral α o α-corte donde el conjunto contendrá todos los valores x
con un valor de pertenencia, compatibilidad, certeza, etc., de al menos α.
Una ley importante de la teoría de conjuntos que no se cumple es la del “medio
excluido”: la intersección entre un conjunto y su complemento es el conjunto vacío y la
unión de dichos conjuntos es el conjunto universo. En lógica difusa ocurrirá lo siguiente
(Morillas, 2006):
∅≠∩ CAA y UAA C ≠∪
3
ANEXO A
En otros casos es posible comprobar que las propiedades se conservan, como ocurre
con ciertas leyes a partir de las propiedades de unión, intersección y complemento
definidas anteriormente. Por ejemplo, las leyes de Morgan (Zadeh, 1965) pueden ser
descritas en términos de las funciones de pertenencia que caracterizan a los conjuntos
difusos A y B:
( ) BABA ′∩′=′∪ ` ⇔ ( ) ( )BABA μμμμ −−=− 1,1min,max1
( ) BABA ′∪′=′∩ ` ⇔ ( ) ( BABA )μμμμ −−=− 1,1max,min1
Existe una segunda clase de operadores llamados “promedios” o “compensadores”,
muy empleados para agregar conjuntos difusos, por ejemplo, para tomar decisiones en
base al resultado de diversas variables representadas por conjuntos difusos que se
encuentren en conflicto (Morillas, 2006), como los trade-offs que se dan entre el
objetivo de reducir el déficit de agua en una región y minimizar el grado de alteración
hidrológica o entre producir energía hidroeléctrica y proteger las condiciones de hábitat
aguas abajo o dentro de los embalses (Jager & Smith, 2008).
Algunos operadores promedio típicamente utilizados son:
• Media aritmética
• Media ponderada
• Media geométrica
Se han propuesto también operadores más generales, donde la compensación entre
unión e intersección se expresa mediante un parámetro γ , por ejemplo (Morillas, 2006):
Operador difuso “y”:
( ) ( ) ( ) ( BABABAy μμγμμγμμμ +⋅−⋅+⋅= 121,min, ) con [ ]1,0∈γ
Operador difuso “o”:
( ) { } ( ) ( BABABAo μμγμμγμμμ +⋅−⋅+⋅= 121,max, ) con [ ]1,0∈γ
El parámetro γ indica el grado de proximidad al significado lógico estricto de
intersección y unión de tal forma que si γ = 1, se tendrán los operadores mínimo y
máximo, respectivamente, mientras que si γ = 0, ambos serán la media aritmética.
La gran cantidad de operadores existentes y la diversidad de aplicaciones de la lógica
difusa en la toma de decisiones hacen que la opción de utilizar un método sea más una
tendencia que una manera probada de obtener buenos resultados. En el campo de las
preferencias de hábitat de peces, por ejemplo, no se han encontrado operadores
4
ANEXO A
debidamente probados que permitan definir adecuadamente ni las áreas de
habitabilidad ni las decisiones concernientes a los resultados obtenidos. De acuerdo a
Morillas (2006) los criterios de selección de Zimmermann (1991) permiten dar un
camino para seleccionar el método más adecuado para agregar conjuntos difusos:
i. Fuerza axiomática: un operador es mejor cuanto menos limitativos son los
axiomas en que se basa.
ii. Ajuste empírico: el operador debe dar buenos resultados en la práctica. No sólo
es importante que cumpla ciertos axiomas teóricos.
iii. Adaptabilidad: el operador debe ser adaptable a cualquier contexto específico;
debe ser bueno para modelar gran diversidad de situaciones.
iv. Eficiencia Numérica: hay operadores que requieren mucha más potencia de
cálculo que otros. Esto es particularmente importante cuando el problema a tratar
es a gran escala.
v. Compensación: debe permitirse que pueda haber cierta compensación entre un
bajo grado de pertenencia de un elemento a un conjunto y un elevado grado de
pertenencia a otro. Por ejemplo, el operador “mínimo” no hace esto posible.
vi. Rango de compensación: en general, cuanto mayor es el rango de
compensación mejor es el operador compensatorio.
vii. Buen comportamiento en la agregación: el grado de pertenencia del conjunto
agregado depende frecuentemente del número de conjuntos combinados. Por
ejemplo, si se utiliza el operador “producto”, cada conjunto difuso adicional
disminuirá el grado de pertenencia del agregado resultante (debido a los valores
entre cero y uno que toman las funciones de pertenencia).
viii. Ser elegidos en función del nivel de escala permisible: por ejemplo, si se
trabaja con una escala ordinal, nunca se debería utilizar el operador producto. En
general, en caso de igualdad de los demás criterios, será preferible el operador
que requiera el nivel de escala más bajo desde el punto de vista de la recogida de
información.
Cada campo de aplicación posee operadores frecuentes que se han aplicado en los
estudios correspondientes, no obstante, se debe tener cuidado con la homologación de
metodologías entre un estudio y otro.
No está claro si, en el caso de modelación de hábitats, los conjuntos difusos de la
velocidad, profundidad y tipo de sustrato poseen la misma importancia para cada
especie y estado de vida estudiado. Es más, justificar los operadores utilizados por
CASiMiR puede ser un estudio aparte, debido al amplio espectro de mediciones en
terreno que se necesitarían para dar con las consecuencias correctas.
5
ANEXO A
2. ANÁLISIS DE CLUSTER
De acuerdo a López (2001), existen tres tipos principales de criterios de agrupamiento
o clustering:
a. Métodos jerárquicos
Los grupos se forman recalculando la pertenencia de un punto cada vez, en función de
alguna medida de similitud. Existen dos tipos de técnicas:
i. Aglomerativas: toman como punto de partida N conjuntos compuestos por 1
elemento, por lo que el funcionamiento del algoritmo es unir los grupos de forma
iterativa.
ii. Divisivas: el punto de partida es un conjunto de N elementos, por lo que el
algoritmo va dividiendo iterativamente el conjunto en otros más pequeños.
b. Métodos de Grafos Teóricos
Supone que los elementos de un conjunto son nodos, siendo los pesos entre pares de
nodos alguna medida de similitud. El criterio de agrupamiento suele ser alguna medida
de conectividad entre los nodos y frecuentemente la estrategia de agrupamiento es el
cálculo del árbol de expansión mínimo. Estos métodos se suelen utilizar en datos con
estructura pseudo-lineal.
c. Métodos de Función Objetivo
Estos métodos son los que permiten una formulación más precisa (aunque no
necesariamente más valedera) del criterio de agrupamiento. Para cada número de
clusters c, una función objetivo mide la 'bondad' de las agrupaciones candidato, siendo,
los máximos o mínimos locales, las agrupaciones óptimas.
Un ejemplo de estos métodos es el uso de la distancia euclídeana como medida y,
como función objetivo, la suma cuadrática de la distancia entre los puntos y un
'prototipo' o valor medio del conjunto. Así pues, el objetivo del agrupamiento es
minimizar dicha sumatoria.
El algoritmo fuzzy c-means (FCM) pertenece a este tipo de métodos y está basado en
la lógica difusa (fuzzy logic). A continuación se detalla en qué consiste el agrupamiento
difuso (fuzzy clustering) y cuáles son las características del algoritmo FCM empleado
para realizar la partición de los datos.
6
ANEXO A
2.1 Fuzzy Clustering
Existen diversas definiciones para el reconocimiento de patrones, como la dada por
Bezdek (Bezdek et al., 1999), uno de los precursores del fuzzy clustering, quien lo
definió como “la búsqueda de una estructura en los datos”, sin embargo, debido a su
amplia utilización en diversos campos representa un campo en si mismo difuso
(Bezdek et al., 1999).
La teoría estudiada está basada principalmente en Babuska (1998), quien define
cluster como un grupo de objetos que son más similares entre si que con los miembros
de otros clusters. El término “similitud” será entendido en términos matemáticos, que
en el presente caso corresponde la distancia media entre los datos de una misma
variable.
De acuerdo a Babuska (1998), un enfoque efectivo para identificar sistemas complejos
no lineales es realizar la partición de los datos disponibles en subconjuntos que puedan
ser aproximados por un modelo más sencillo. En este sentido, el modelamiento e
identificación difusa resultan ser herramientas efectivas, pues permiten combinar
efectivamente el conocimiento experto con los datos medidos (Abonyi et al., 2001).
Los datos obtenidos en terreno son sometidos aquí a un proceso de fuzzy clustering, el
cual permite realizar agrupaciones de los datos en diferentes clusters o subgrupos,
cada uno de los cuales queda definido por una función que denota la gradualidad con
que dicha variable pertenece a un cluster determinado.
Aplicaciones de esta metodología cruzan por diferentes áreas, entre ellas la ecología y
sus diversas componentes. Por ejemplo, Legleiter y Goodchild (2005) emplean esta
metodología para realizar una clasificación de hábitats mediante el empleo de
percepción remota y modelación hidráulica, de tal forma que es posible encontrar
clusters, equivalentes a hábitats, con transiciones graduales entre ellos, en vez de los
clásicos fragmentos o parches ecológicos y de otros métodos convencionales de
clasificación, los cuales adolecen de limitaciones fundamentales (Legleiter y Goodchild,
2005).
El algoritmo fuzzy c-means, introducido por Bezdek en 1981 (Díaz et al., 2005) ha
demostrado una amplia gama de aplicaciones, como en la producción de mapas de
cobertura de suelos mediante el uso de información de percepción remota (Legleiter y
Goodchild, 2005) y en la búsqueda de sectores clave de la economía de una zona o
país (Díaz et al., 2005).
En una primera etapa se realiza un análisis exploratorio de los datos, de tal forma que
se encuentre la estructura propia de la información colectada en terreno. La
metodología de fuzzy clustering permite realizar esto a través de particiones difusas,
7
ANEXO A
donde un determinado valor de la variable no está totalmente determinado en un
grupo, sino que pertenece a él en cierto grado, lo cual permite “atrapar” incertidumbre e
inexactitud, como la que ocurre en el proceso de medición de los datos (Setnes y
Babuska, 1999).
En el caso de las variables velocidad, profundidad y tamaño del sustrato empleadas
por CASiMiR, sin embargo, las c-particiones son definidas a priori, pues no se busca
encontrar patrones en la zona, tal como ocurriría si se intentara determinar tipos de
hábitat según esta metodología. Lo que se busca es “atrapar” la imprecisión del
experto al valorar dichas variables, por lo cual, en una segunda etapa, se utiliza la
descripción del experto para cada magnitud medida y se ajustan los conjuntos difusos
para que tengan relación con la observación del experto. Esto permite que CASiMiR
integre el conocimiento experto a través de la conjunción de las reglas y conjuntos
difusos, lo cual hace que ambos elementos sean indisolubles.
2.1.1 Algoritmo Fuzzy C-Means
La matriz Z representa la matriz con los datos medidos, donde cada fila representa una
variable y cada columna es una medición de dicha variable.
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
=⇒
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=Tx
Tx
Tx
nNn
N
SPV
Z
zz
zz
Z
361
361
361
1
111
....::
....Variable 1: Velocidad
Variable 2: Profundidad
Variable 3: Sustrato
Esta matriz teórica es en realidad utilizada por cada fila (variable) a la vez, a través del
algoritmo fuzzy c-means clustering (FCM) del Fuzy Logic Toolbox de Matlab, la cual
requiere como parámetro de entrada, además de los datos, un número entero c
indicando el número de clusters que se desea formar.
[center,U,obj_fcn] = fcm(Data, n_cluster)
Asignando valores medios o centrales iniciales y una matriz UO inicial, itera hasta que
la función objetivo (obj_fcn) se estabilice en su decrecimiento. La matriz “center”
entrega los centros de dichos cluster, mientras que la matriz U retorna las funciones de
pertenencia detectadas:
[ ]ikU μ= ci≤ ≤1Nk≤ ≤1
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡=⇒
361
361
361
x
x
x
LowMedium
HighU
8
ANEXO A
Cada variable (velocidad, profundidad y sustrato) genera una matriz U (dimensión c x
N) que contiene el grado de pertenencia de cada dato observado a cada uno los c = 3
clusters definidos (en este caso N = 36 observaciones). Dado un cluster i y una
observación k, tendré un grado de pertenencia ikμ de dicha observación en el cluster
En forma matemática, lo anterior es descrito por Babuska (1998) de la siguiente
manera:
( ) ( )2
1 1,;
A
c
i
N
kik
mik vzVUZJ ∑ ∑
= =
−⋅= μ
Donde U es la partición difusa de Z y V = [v1, v2,…, vc], con vi Rn, es el vector de
prototipos del cluster o también llamados “centros”, los cuales deben ser determinados
inicialmente, por ejemplo, utilizando las medias de los valores que el experto diferenció
según las variables lingüísticas HIGH, MEDIUM y LOW.
∈
El término, ( ) ( )ikT
ikAikikA vzAvzvzD −⋅⋅−=−= 22 corresponde a la norma de la
distancia del producto interno al cuadrado. El parámetro m es un moderador que
determina cuán difuso resultarán los clusters, puede tomar valores desde uno en
adelante. Mientras mayor sea m, más difusas serán las particiones.
El nivel de disimilitud en la función de costo J está dado por las distancias al cuadrado
entre cada uno de los datos zk y el cluster prototipo vi. Esta distancia es ponderada por
la potencia m del grado de pertenencia de ese punto (µik)m. El valor de J puede ser
visto como una medida de la varianza total de los datos zk con respecto a vi. Cuando el
valor de J no decrece o alcanza cierto umbral, entonces el algoritmo termina su
proceso iterativo.
La forma de los clusters está determinada por la elección de la matriz A, siendo la
distancia Euclidiana la más común, cuando A = I (matriz identidad), lo cual genera
clusters hiperesféricos (se utiliza el prefijo hiper debido a que la esfera tendrá tantas
dimensiones como el espacio de características). Ésta es la distancia que utiliza el
FCM, sin embargo, existen otras como la norma diagonal y de Mahalanobis, que
producen clusters hiperelipsoidales (López, 2001).
Existen diversos algoritmos que son extensiones del algoritmo FCM utilizado aquí para
realizar la partición de los datos, los cuales son bien detallados por Babuska (1998) y
resumidos por López (2001). Estos son:
i. Algoritmos que utilizan una definición de distancia adaptativa, como los de
Gustafson-Kessel o el de estimación difusa de máxima similitud (FMLE).
ii. Algoritmos que se basan en prototipos hiperplanares o funcionales, como el
algoritmo de las c-variedades difusas (FCV), de los c-eliptotipos difusos (FCE),
9
ANEXO A
10
los modelos de c-regresiones difusas (FCRM) o los algoritmos para conjuntos de
tipo concha (FCS y FCSS).
También existen índices para evaluar si los grupos en que se dividieron los datos son
los más adecuados, lo cual es de mucha utilidad si se desconoce la cantidad de
agrupaciones que se deben esperar al utilizar cualquiera de los algoritmos señalados.
López (2001) resume aquellos relacionados con el FCM, como el índice de Xie-Beni, el
cual maximiza la distancia mínima entre los centroides. No obstante, la partición de los
datos es definida aquí en forma a priori, siendo la valoración del experto a los datos
medidos lo que permite calibrar las particiones.
Finalmente, aunque es posible normalizar los datos previo a su agrupamiento, dicho
paso no siempre es deseable, ya que puede alterar la separación entre conjuntos e
influenciar negativamente a los resultados del agrupamiento (López, 2001). A lo
anterior se debe sumar la incertidumbre inherente a los datos y al sistema descrito,
además de la escasa bibliografía relacionada con este procesamiento de los datos en
el caso de CASiMiR. Un intento por descubrir una metodología mejor parece
innecesario a menos que los resultados no logren ajustarse a lo indicado por el
experto.